Archive for Апрель, 2014

Методы извлечения именованных сущностей из текстов с использованием категорийной структуры Википедии (29.04.14)

Задача распознавания именованных сущностей состоит в обнаружении и классификации элементов текста — слов и последовательностей слов — по предопределенным категориям. Примерами таких категорий могут являтся категории «личные имена» «географические названия», «названия организаций». Распознавание именованных сущностей находит применение в таких приложениях обработки естественного языка, как автоматизированный сбор новостей, вопросно-ответные системы, кросс-языковой информационный поиск, машинный перевод.

В рамках доклада будут рассмотрены ключевые вопросы построения систем распознавания именованных сущностей. Также будет проведен обзор существующих методов использования Википедии для решения задачи распознавания именованных сущностей.

Докладчик: Кристина Чуприна

Презентация (pdf)

Предсказание сайтов связывания транскрипционных факторов в геноме (22.04.14)

Доклад повествует о решении одной из задач, решаемой совместно с Институтом общей генетики РАН. Задача состоит в том, чтобы предсказывать наиболее вероятные позиции в геноме, с которыми могут взаимодействовать специальные белки.

В докладе рассматриваются основные определения связанных с задачей биологических терминов и алгоритмические подходы к решению этой задачи.

Докладчик: Олег Борисенко

Презентация (pdf)

Методы поиска плагиата (15.04.14)

В докладе будет рассказано о проблеме обнаружения плагиата, основных методах модификации, используемых для его сокрытия, а также
о методах и алгоритмах борьбы с ними. Также будут рассмотрены основные методы поиска плагиата, в том числе и современные.

Рассматриваемые методы поиска плагиата: метод «Шинглов» и его модификации, I-Match, метод «Опорных» слов,
метод коэффициента совпадения документов, методы, основанные на использовании внешних поисковых систем.

Литература:
1) Зеленков Ю. Г. и Сегалович И. В. Сравнительный анализ методов определения нечетких дубликатов для Web
2) Potthast Martin Overview of the 4th International Competition on Plagiarism Detection.
3) Barrґon-Cede˜no Alberto и Rosso Paolo On Automatic Plagiarism Detection Based on n-Grams Comparison
4) Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск.
5) Ilyinsky Sergey An efficient method to detect duplicates of Web documents with the use of inverted index.

Докладчик: Бабаков Александр

Расчет семантической близости концепций с использованием связей в графе ссылок Википедии (08.04.14)

Под семантической близостью концепций или текстов понимают меру, отражающую степень их смысловой связанности. Методы расчета семантической близости находят применение в задачах дизамбигуации, классификации и кластеризации текстов, разрешения кореферентности, фасет-навигации и многих других.

В связи с ростом популярности использования Википедии как базы знаний для различных приложений обработки текстов и, в частности, для расчёта семантической близости между концепциями, важно как можно более полно использовать содержащуюся в ней информацию о концепциях и связях между ними.

Данный доклад посвящен оценке семантической близости концепций с использованием длины кратчайшего пути между соответствующими им статьями в графе ссылок/категорий Википедии. Учитываются различные типы ссылок между концепциями. Методы на основе кратчайших путей сравниваются с мерой Дайса, используемой в системе Текстерра, как с помощью пар концепций, размеченных экспертными оценками близости, так и in vivo на примере задаче дизамбигуации.

Докладчик: Максим Варламов

Презентация (pdf)

Обзор современных прикладных методов сжатия данных (01.04.14)

Данный доклад будет посвящён прикладным утилитам для экономии дискового пространства. Речь пойдет о возможностях сжатия blosc, LZ4, LZO, xz(lzma2), ZFS и о способах их использования. Будет рассмотрено применение распространённых средств сжатия данных в контексте разных классов задач. Доклад не будет затрагивать серьёзных теоретических основ методов сжатия данных.

Докладчик: Олег Борисенко

Презентация (pdf)