Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts tagged Турдаков Денис

В одкладе рассматриваются результаты работы Леви и Голдберга, опубликованные в статье O. Levy, Y. Goldberg. Linguistic Regularities in Sparse and Explicit Word Representations, получившей приз за лучшую статью на конференции CoNLL, 2014. В ходе доклада будут рассмотрены две модели представления слов на естественном языке в виде вещественнозначных векторов: на основе нейронных сетей (word2vec), а также […]

Доклад посвящен методам выбора оптимального набора информативных признаков (feature selection) для задач классификации текстов. Одна из трудностей классификации текстов при помощи машинного обучения состоит в очень большой размерности пространства признаков. Собственное пространство признаков состоит из уникальных термов (слов или фраз), которые встречаются в корпусе документов, и может включать десятки и сотни тысяч термов даже для […]

В рамках доклада будет рассказано о мере оценки близости вершин в графе – SimRank. SimRank имеет рекурсивное определение и алгоритм вычисления  имеющий сложность O(N^4), где N – количество вершин.  Высокая вычислительная сложность не позволяет применить данную меру к реальным задачам, таким как анализ социальных сетей, где количество вершин может превышать сотни миллионов. Однако потенциальная польза […]

Доклад посвящен методам обнаружения описания событий в социальной сети Твиттер на основе скрытых марковских модели. В докладе рассматриваются методы обнаружения событий и методы резюмирования. Целью обнаружения событий является нахождение нового или упоминавшегося в прошлом события, событие относится к конкретному факту, который происходит в определенное время и в определенном месте. Ставится задача обнаружения конкретного события на […]

Извлечение информации (information extraction) — это одно из направлений обработки текста на естественном языке, заключающееся в автоматическом извлечении структурированных данных из неструктурированных документов. В докладе будут рассмотрены основные задачи, возникающие при извлечении информации: распознавание именованных сущностей(Named-entity recognition), извлечение отношений(Relation extraction), временной анализ(Temporal analysis) и извлечение событий(Event detection), а также принятые подходы для решения этих задач и возникающие при этом проблемы. Докладчик: Алексей […]

Нормализация слов естественных языков – приведение их к начальной форме – одна из проблем прикладной лингвистики, актуальная для информационного поиска, машинного перевода и других задач обработки текста. Как правило, задача нормализации разбивается на стемминг (поиск неизменяемой части слова) и синтез нормальной формы. В докладе будут рассмотрены существующие методы нормализации естественных языков, имеющие реализацию для обработки […]

Анализ тональности текстов (sentiment analysis) – область прикладной лингвистики, задачей которой является выявление в тексте эмоционально окрашенной лексики и эмоциональной оценки автора по отношению к объектам, речь о которых идет в тексте. В докладе будут рассмотрены некоторые методы, разработанные за последние 5 лет для анализа сообщений в микроблоге Twitter и других социальных медиа-сервисах. Докладчик: Алексей Сильвестров. Материалы: Thelwall, M., […]

Доклад посвящен задаче ранжирования исследователей при помощи анализа их публикаций. Будут рассмотрены существующие решения, такие как импакт-фактор, индекс Хирша(h-индекс) и m-индекс, будут освещены их достоинства и недостатки. Кроме того, в докладе будет рассмотрен новый алгоритм ранжирования, основанный на анализе направленного графа связей между публикациями. Докладчик: Александр Пироженко Материалы: Adler, R., Ewing, J., & Taylor, P. […]

Выделение главных мыслей в виде реферата или конспекта интересовало человечество со времен появления письменности. С появлением интернета тема приобрела новую актуальность, так как нынешние объемы информации огромны и постоянно возрастают. Существует множество областей, в которых применение такого, сокращенного представления давало бы существенный выигрыш. Например, система может быть полезна для человека, который должен по большому количеству […]

В докладе рассказывается о базовых моделях информационного поиска: модель векторного пространства и взвешивание терминов по их степени важности на основе статистических данных. Рассматриваются модели ранжирования для случая текстовых документов и документов, содержащих метаданные. Докладчик: Марина Макиенко Материалы: Christopher D. Manning, Prabhakar Raghavan “Introduction to information retrieval”,  Cambridge University Press. 2008. (Глава 6) Презентация к семинару (pptx)