Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts tagged Федоренко Денис

Лексическая многозначность – неотъемлемое свойство естественного языка, заключающееся в том, что слова и словосочетания могут иметь различную смысловую нагрузку в зависимости от окружающего их контекста. В компьютерной лингвистике задача автоматического определения корректных значений слов называется задачей разрешения лексической многозначности (РЛМ). Данная задача является одной из важнейших проблем обработки текстов. Центральной частью любого современного метода РЛМ […]

Задача извлечения терминологии заключается в поиске специфичных терминов, то есть текстовых представлений концепций определенной предметной области, в коллекции документов. Общий алгоритм решения данной задачи состоит из трех этапов: Извлечение кандидатов, то есть слов и словосочетаний, которые могут являться терминами. Вычисление признаков, позволяющих распознавать термины среди кандидатов, например: TF, TF*IDF, CValue, Domain Relevance, Domain Consensus, Lexical […]

Доклад посвящен задаче извлечения отношений из текста с целью восстановления значений атрибутов в частично заполненных отношениях (кортежах). Задача восстановления заключается в том, чтобы найти значения для таких атрибутов, удовлетворяющие исходному отношению. Поиск значений атрибутов осуществляется в текстовой коллекции на основе связей, полученных с помощью обучающих данных – кортежей, удовлетворяющих исходному отношению, в которых известны все значения […]

В докладе рассматривается модель n-грамм для моделирования и обработки естественного языка. Особое внимание уделяется обзору методов решения проблемы разреженности естественных языков. Также рассматриваются прикладные задачи, в основе которых лежит механизм n-грамм (генерация текстов заданной тематики, распознавание речи и др.) Докладчик: Федоренко Денис Материалы: Jurafsky D., Martin G.H. Speech and Language Processing Y.H. Witten and T.C. […]