XRank: Ранжированный поиск ключевых слов в коллекциях XML документов (16.11.10)

В докладе рассказывается о методе ранжированного поиска в коллекциях XML-документов Xrank. Xrank — это адаптированный к XML алгоритм ссылочного ранжирования Pagerank для HTML. Также в докладе рассматриваются методы улучшенной обработки запросов XML-поиска: такие как использовани DIL, RDIL, HDIL.

Докладчик: Зуев Анатолий.

Материалы:

Lin Guo Feng, Feng Shao, Chavdar Botev, Jayavel Shanmugasundaram. XRANK: Ranked Keyword Search over XML Documents. In SIGMOD, 2003.

презентация с семинара (pptx)

Определение параграфов в тексте (09.11.10)

Доклад посвящен задаче обнаружения границ абзацев в тексте (paragraph boundary identification). Будет рассмотрена реализация, основанная на принципе постоянства энтропийной скорости (entropy rate constancy).

Докладчик: Сильвестров Алексей

Материалы:

C. Sporleder, M. Lapata. Automatic Paragraph Identification: A Study across Languages and Domains. EMNLP 2004 (http://ilk.uvt.nl/~caroline/papers/SporlederLapata.pdf)
D. Genzel, E.Charniak Variation of Entropy and Parse Trees of Sentences as a Function of the Sentence Number.EMNLP 2003 (http://acl.ldc.upenn.edu/W/W03/W03-1009.pdf)
Joshua Goodman, Eugene Charniak. The State of the Art in Language Modeling. AAAI, 2002 (http://www.research.microsoft.com/~joshuago/lm-tutorial-v8.ppt)

Презентация с семинара (ppt)

Распределенная СУБД BigTable (02.11.10)

В докладе будет рассмотрена распределенная Key/value СУБД на примере Bigtable (google). Основной целью было создание хранилища для использования в сервисах Google быстрого и максимально легко масштабируемого. В докладе описываются требования, которые были поставлены перед разработчиками системы, и рассказывается, как их удалось достичь: чем пожертвовали и на чём сконцентрировали внимание при создании BigTable. Доклад описывает особенности параллелизма системы, представление данных, подход к целостности и доступности (availability) данных. Также будет рассмотрены другие реализации подобного типа хранилищ, что в них было добавлено и как они используются.

Докладчик: Михов Олег

Материалы:

Презентация с семинара (pdf)

Методы оценки близости строк (26.10.10)

В докладе рассматриваются различные строковые метрики — функции, вычисляющие близость текстовых строк, — и их приложения. Приводится сравнительная характеристика строковых метрик в задаче сопоставления имен собственных, на примере польского языка.

Докладчик: Кривошеева Татьяна

Материалы:

Usability of String Distance Metrics for Name Matching Tasks in Polish (pdf)
Методы и алгоритмы вычислений на строках (глава 2) (pdf)

Презентация с семинара (ppt)

Информационный поиск и семантические сети (19.10.10)

В докладе производится краткий обзор задачи поиска информации в коллекциях документов, основы индексирования и обработки запросов. Рассматриваются подходы к расширению функциональности поисковых машин обработкой аннотаций и семантических языков. Рассматриваются три тестовых системы: OWLIR, Swangler и Swoogle, реализующие данные подходы.

Докладчик: Кийко Александр

Материалы: Tim Finin, et. al.

Tim Finin, et. al. Information Retrieval and the Semantic Web
Justin Zobel, Alistair Moffat. Inverted Files for Text Search Engines.

Презентация с семинара (pptx)

Извлечение информации из списков (12.10.10)

В докладе излагается проблема извлечения информации из списков и представляется авторский подход к решению данной задачи. Рассматривается алгоритм создания таблиц из списков, разбираются основные этапы алгоритмы : разделение строк списка на части, выравнивание, очистка и улучшение таблицы. Также даются экспериментальные оценки подхода к решению проблемы и информация о связанных задачах.

Докладчик: Агаев Нурлан

Материалы:

Harvesting Relational Tables from Lists on the Web

Презентация с семинара (pdf)

Методы извлечения ключевых слов (5.10.10)

В докладе делается обзор методов извлечения ключевых слов из текстов. Рассматриваются проблемы возникающие при решении задачи. Разбираются общие подходы к их решению и анализируется несколько реализованных методов, в том числе лучших по итогам SemEval-2010.

Докладчик: Рязанцев Дмитрий

Материалы:

Lopez, Patrice and Laurent Romary, 2010b. HUMB: Automatic Key Term Extraction from Scientic Articles in GROBID. In SemEval 2010 Workshop. Uppsala, Su`de. (PDF)
Samhaa R. El-Beltagy; Ahmed Rafea KP-Miner: Participation in SemEval-2 (PDF)
Olena Medelyan, Eibe Frank, and Ian H. Witten. Human-competitive tagging using automatic keyphrase extraction (2009) (PDF)
Eibe Frank and Gordon W. Paynter and Ian H. Witten. Domain-Specific Keyphrase Extraction (PDF)
R. Mihalcea and A. Csomai. Wikify!: linking documents to encyclopedic knowledge (2007) (PDF)

Презентация с семинара (ppt)

Методы обогащения текстовых коллекций ссылками: система TAGME (28.09.10)

Доклад освещает метод добавления в неструктурированный и частично структурированный текст перекрестных ссылок на Wikipedia. Особенность этого метода в том, что он заточен на обработку коротких текстов, состоящих всего из нескольких десятков слов. Также рассмотрена система TAGME, реализующая представленный метод, и приведены оценки ее эффективности по сравнению с предшественниками.

Докладчик: Рябов Сергей

Материалы:

TAGME: on-the-fly annotation of short text fragments

Презентация с семинара (ppt)

Строковые B-деревья (27.04.10)

В докладе рассказывается о строковых B-деревьях. String B-tree представляет собой структуру для хранения текстовых данных во внешней памяти: это комбинация B-дерева и бора Патриции для индексации внутренних узлов. Рассмотрено сравнение эффективности использования строкового B-дерева по сравнению с B+-деревом. В эксперименте, описанном в статье показано, что строковые B-деревя дают значительное преимущество по сравнению с другими B-деревьями засчет уменьшения количества обращений к диску.

Докладчик: Пастухов Роман

Материалы:

The String B-Tree: A New Data Structure for String Search in External Memory and its Applications

Презентация с семинара (pdf)

Наполнение неструктурированного текста поясняющими ссылками на статьи Wikipedia (20.04.10)

Доклад посвящен методу автоматического обогащения текста поясняющими ссылками на Википедию. Рассмотрены основные части алгоритма: выделение ключевых слов и создание из них ссылок на
соответствующие по смыслу статьи энциклопедии. Разбираются отличия от предыдущих подходов и освещаются возможные области применения метода.

Докдадчик: Рябов Сергей

Материалы:

http://www.cs.waikato.ac.nz/~dnk2/publications/CIKM08-LearningToLinkWithWikipedia.pdf

Презентация с семинара (ppt)

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Archive for the ‘Аннотации’ Category

XRank: Ранжированный поиск ключевых слов в коллекциях XML документов (16.11.10)

Определение параграфов в тексте (09.11.10)

Распределенная СУБД BigTable (02.11.10)

Методы оценки близости строк (26.10.10)

Информационный поиск и семантические сети (19.10.10)

Извлечение информации из списков (12.10.10)

Методы извлечения ключевых слов (5.10.10)

Методы обогащения текстовых коллекций ссылками: система TAGME (28.09.10)

Строковые B-деревья (27.04.10)

Наполнение неструктурированного текста поясняющими ссылками на статьи Wikipedia (20.04.10)