Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts in Аннотации

В докладе будет дан обзор технологий от высокопроизводительных вычислений до GRID технологий и облачных вычислений. Данный доклад предназначен для определения области, которая будет изучаться на семинаре в этом семестре. Докладчик: Ученый секретарь ИСП РАН, Арутюн Ишханович Аветисян. Презентация с семинара (ppt)

Доклад посвящен марковским моделям и их применению к прикладным задачам обработки текстов. В докладе рассматриваются задачи фильтрации предсказания сглаживания и наиболее правдоподобного объяснения. Приводятся практические примеры их применения и алгоритмы для их эффективного решения. В заключении, рассматривается обобщение скрытой марковской модели на множество независимых последовательностей. Докладчик: Турдаков Денис Материалы: С. Рассел, П. Норвиг. Искусственный интеллект. […]

В докладе рассматривается модель n-грамм для моделирования и обработки естественного языка. Особое внимание уделяется обзору методов решения проблемы разреженности естественных языков. Также рассматриваются прикладные задачи, в основе которых лежит механизм n-грамм (генерация текстов заданной тематики, распознавание речи и др.) Докладчик: Федоренко Денис Материалы: Jurafsky D., Martin G.H. Speech and Language Processing Y.H. Witten and T.C. […]

Доклад посвящен системе Cassandra – распределенной Key/value СУБД, специально созданной Facebook для покрытия основных требований этой наиболее популярной соц. сети: устойчивость к сбоям отдельных серверов, надежность, быстрота, простота масштабируемости. Будет рассказано об особенностях архитектуры всей системы в целом, а также о специфике работы использующихся в системе алгоритмов, обеспечивающих её быстроту и надежность. В докладе дополнительно […]

Морфологический анализ – важная составляющая систем автоматической обработки естественных текстов. В её задачи входит усечение слова до основной формы (стемминг), поиск других форм данного слова, определение числа, падежа, рода и т.д. В докладе будут рассмотрены подходы к решению этих задач для русского языка, применяемые в таких проектах как mystem, АОТ, russianmorphology, а также метрики качества […]

В докладе рассказывается о методе ранжированного поиска в коллекциях XML-документов Xrank. Xrank – это адаптированный к XML алгоритм ссылочного ранжирования Pagerank для HTML. Также в докладе рассматриваются методы улучшенной обработки запросов XML-поиска: такие как использовани DIL, RDIL, HDIL. Докладчик: Зуев Анатолий. Материалы: Lin Guo Feng, Feng Shao, Chavdar Botev, Jayavel Shanmugasundaram. XRANK: Ranked Keyword Search […]

Доклад посвящен задаче обнаружения границ абзацев в тексте (paragraph boundary identification). Будет рассмотрена реализация, основанная на принципе постоянства энтропийной скорости (entropy rate constancy). Докладчик: Сильвестров Алексей Материалы: C. Sporleder, M. Lapata. Automatic Paragraph Identification: A Study across Languages and Domains. EMNLP 2004 (http://ilk.uvt.nl/~caroline/papers/SporlederLapata.pdf) D. Genzel, E.Charniak Variation of Entropy and Parse Trees of Sentences as […]

В докладе будет рассмотрена распределенная Key/value СУБД на примере Bigtable (google). Основной целью было создание хранилища для использования в сервисах Google  быстрого и максимально легко масштабируемого. В докладе описываются требования, которые были поставлены перед разработчиками системы, и рассказывается, как их удалось достичь: чем пожертвовали и на чём сконцентрировали внимание при создании BigTable. Доклад описывает особенности […]

В докладе рассматриваются различные строковые метрики – функции, вычисляющие близость текстовых строк, – и их приложения. Приводится сравнительная характеристика строковых метрик в задаче сопоставления имен собственных, на примере польского языка. Докладчик: Кривошеева Татьяна Материалы: Usability of String Distance Metrics for Name Matching Tasks in Polish (pdf) Методы и алгоритмы вычислений на строках (глава 2) (pdf) […]

В докладе производится краткий обзор задачи поиска информации в коллекциях документов, основы индексирования и обработки запросов. Рассматриваются подходы к расширению функциональности поисковых машин обработкой аннотаций и семантических языков. Рассматриваются три тестовых системы: OWLIR, Swangler и Swoogle, реализующие данные подходы. Докладчик: Кийко Александр Материалы: Tim Finin, et. al. Tim Finin, et. al. Information Retrieval and the […]