Archive for the ‘Аннотации’ Category

XRank: Ранжированный поиск ключевых слов в коллекциях XML документов (16.11.10)

В докладе рассказывается о методе ранжированного поиска в коллекциях XML-документов Xrank. Xrank — это адаптированный к XML алгоритм ссылочного ранжирования Pagerank для HTML. Также в докладе рассматриваются методы улучшенной обработки запросов XML-поиска: такие как использовани DIL, RDIL, HDIL.

Докладчик: Зуев Анатолий.

Материалы:

презентация с семинара (pptx)

Определение параграфов в тексте (09.11.10)

Доклад посвящен задаче обнаружения границ абзацев в тексте (paragraph boundary identification). Будет рассмотрена реализация, основанная на принципе постоянства энтропийной скорости (entropy rate constancy).

Докладчик: Сильвестров Алексей

Материалы:

Презентация с семинара (ppt)

Распределенная СУБД BigTable (02.11.10)

В докладе будет рассмотрена распределенная Key/value СУБД на примере Bigtable (google). Основной целью было создание хранилища для использования в сервисах Google  быстрого и максимально легко масштабируемого. В докладе описываются требования, которые были поставлены перед разработчиками системы, и рассказывается, как их удалось достичь: чем пожертвовали и на чём сконцентрировали внимание при создании BigTable. Доклад описывает особенности параллелизма системы, представление данных, подход к целостности и доступности (availability) данных. Также будет рассмотрены другие реализации подобного типа хранилищ, что в них было добавлено и как они используются.

Докладчик: Михов Олег

Материалы:

Презентация с семинара (pdf)

Методы оценки близости строк (26.10.10)

В докладе рассматриваются различные строковые метрики — функции, вычисляющие близость текстовых строк, — и их приложения. Приводится сравнительная характеристика строковых метрик в задаче сопоставления имен собственных, на примере польского языка.

Докладчик: Кривошеева Татьяна

Материалы:

  • Usability of String Distance Metrics for Name Matching Tasks in Polish (pdf)
  • Методы и алгоритмы вычислений на строках (глава 2) (pdf)

Презентация с семинара (ppt)

Информационный поиск и семантические сети (19.10.10)

В докладе производится краткий обзор задачи поиска информации в коллекциях документов, основы индексирования и обработки запросов. Рассматриваются подходы к расширению функциональности поисковых машин обработкой аннотаций и семантических языков. Рассматриваются три тестовых системы: OWLIR, Swangler и Swoogle, реализующие данные подходы.

Докладчик: Кийко Александр

Материалы: Tim Finin, et. al.

Презентация с семинара (pptx)

Извлечение информации из списков (12.10.10)

В докладе излагается проблема извлечения информации из списков и представляется авторский подход к решению данной задачи. Рассматривается алгоритм создания таблиц из списков, разбираются основные этапы алгоритмы : разделение строк списка на части, выравнивание, очистка и улучшение таблицы. Также даются экспериментальные оценки подхода к решению проблемы и информация о связанных задачах.

Докладчик: Агаев Нурлан

Материалы:

Презентация с семинара (pdf)

Методы извлечения ключевых слов (5.10.10)

В докладе делается обзор методов извлечения ключевых слов из текстов. Рассматриваются проблемы возникающие при решении задачи. Разбираются общие подходы к их решению и анализируется несколько реализованных методов, в том числе лучших по итогам SemEval-2010.

Докладчик: Рязанцев Дмитрий

Материалы:

  • Lopez, Patrice and Laurent Romary, 2010b. HUMB: Automatic Key Term Extraction from Scientic Articles in GROBID. In SemEval 2010 Workshop. Uppsala, Su`de. (PDF)
  • Samhaa R. El-Beltagy; Ahmed Rafea KP-Miner: Participation in SemEval-2 (PDF)
  • Olena Medelyan, Eibe Frank, and Ian H. Witten. Human-competitive tagging using automatic keyphrase extraction (2009) (PDF)
  • Eibe Frank and Gordon W. Paynter and Ian H. Witten. Domain-Specific Keyphrase Extraction (PDF)
  • R. Mihalcea and A. Csomai. Wikify!: linking documents to encyclopedic knowledge (2007) (PDF)

Презентация с семинара (ppt)

Методы обогащения текстовых коллекций ссылками: система TAGME (28.09.10)

Доклад освещает метод добавления в неструктурированный и частично структурированный текст перекрестных ссылок на Wikipedia. Особенность этого метода в том, что он заточен на обработку коротких текстов, состоящих всего из нескольких десятков слов. Также рассмотрена система TAGME, реализующая представленный метод, и приведены оценки ее эффективности по сравнению с предшественниками.

Докладчик: Рябов Сергей

Материалы:

Презентация с семинара (ppt)

Строковые B-деревья (27.04.10)

В докладе рассказывается о строковых B-деревьях. String B-tree представляет собой структуру для хранения текстовых данных во внешней памяти: это комбинация B-дерева и бора Патриции для индексации внутренних узлов. Рассмотрено сравнение эффективности использования строкового B-дерева по сравнению с B+-деревом. В эксперименте, описанном в статье показано, что строковые B-деревя дают значительное преимущество по сравнению с другими B-деревьями засчет уменьшения количества обращений к диску.

Докладчик:  Пастухов Роман

Материалы:

Презентация с семинара (pdf)

Наполнение неструктурированного текста поясняющими ссылками на статьи Wikipedia (20.04.10)

Доклад посвящен методу автоматического обогащения текста поясняющими ссылками на Википедию. Рассмотрены основные части алгоритма: выделение ключевых слов и создание из них ссылок на
соответствующие по смыслу статьи энциклопедии. Разбираются отличия от предыдущих подходов и освещаются возможные области применения метода.

Докдадчик: Рябов Сергей

Материалы:

Презентация с семинара (ppt)