Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts tagged Астраханцев Никита

Автоматическое извлечение терминов является важным этапом во многих задачах, связанных с обработкой текстов предметной области. К таким задачам относятся построение глоссариев, тезаурусов или онтологий, информационный поиск, извлечение информации, машинный перевод, классификация и кластеризация документов и другие. К настоящему времени разработано множество методов автоматического извлечения терминов, однако их качество остается достаточно низким, при этом большая часть […]

Концептуализация знаний, необходимых для эффективной обработки текстовой информации, как правило, представляется в виде онтологий. В зависимости от предметной области и решаемых задач, создаются разные виды онтологий: формальные, включающие в себя подробные отношения между концептами и аксиомы; таксономии, представляющие собой иерархически организованные концепты; неформальные онтологии, например интернет-энциклопедии, которые создаются и поддерживаются сообществом пользователей. Создание онтологий вручную […]

Доклад посвящен задаче извлечения отношений из текста с целью восстановления значений атрибутов в частично заполненных отношениях (кортежах). Задача восстановления заключается в том, чтобы найти значения для таких атрибутов, удовлетворяющие исходному отношению. Поиск значений атрибутов осуществляется в текстовой коллекции на основе связей, полученных с помощью обучающих данных – кортежей, удовлетворяющих исходному отношению, в которых известны все значения […]

Табличная запись является одним из наиболее частых способов представления структуры текстовой информации. В данном докладе рассматриваются методы как автоматического, так и автоматизированного извлечения информации из таблиц. Приводится обзор возникающих проблем, в частности — определение ориентации таблицы, обработка разрозненных заголовков и агрегирующих объектов, — предлагаются методы решения, основанные на эвристических подходах и машинном обучении. Также в […]

Доклад посвящен статистической модели Conditional Random Fields (CRF), наиболее часто используемой в приложениях связанных с  обработкой. Во введении делается краткий обзор и сравнение методов машинного обучения, используемых для классификации: наивный байесовский классификатор; метод максимальной энтропии (метод логистической регрессии); скрытая марковская модель. Далее подробно рассматриваются модели Linear-chain CRF и Conditional Random Fields, предлагаются методы оценки параметров […]