Archive for Октябрь, 2010

Распределенная СУБД BigTable (02.11.10)

В докладе будет рассмотрена распределенная Key/value СУБД на примере Bigtable (google). Основной целью было создание хранилища для использования в сервисах Google  быстрого и максимально легко масштабируемого. В докладе описываются требования, которые были поставлены перед разработчиками системы, и рассказывается, как их удалось достичь: чем пожертвовали и на чём сконцентрировали внимание при создании BigTable. Доклад описывает особенности параллелизма системы, представление данных, подход к целостности и доступности (availability) данных. Также будет рассмотрены другие реализации подобного типа хранилищ, что в них было добавлено и как они используются.

Докладчик: Михов Олег

Материалы:

Презентация с семинара (pdf)

Методы оценки близости строк (26.10.10)

В докладе рассматриваются различные строковые метрики — функции, вычисляющие близость текстовых строк, — и их приложения. Приводится сравнительная характеристика строковых метрик в задаче сопоставления имен собственных, на примере польского языка.

Докладчик: Кривошеева Татьяна

Материалы:

  • Usability of String Distance Metrics for Name Matching Tasks in Polish (pdf)
  • Методы и алгоритмы вычислений на строках (глава 2) (pdf)

Презентация с семинара (ppt)

Информационный поиск и семантические сети (19.10.10)

В докладе производится краткий обзор задачи поиска информации в коллекциях документов, основы индексирования и обработки запросов. Рассматриваются подходы к расширению функциональности поисковых машин обработкой аннотаций и семантических языков. Рассматриваются три тестовых системы: OWLIR, Swangler и Swoogle, реализующие данные подходы.

Докладчик: Кийко Александр

Материалы: Tim Finin, et. al.

Презентация с семинара (pptx)

Извлечение информации из списков (12.10.10)

В докладе излагается проблема извлечения информации из списков и представляется авторский подход к решению данной задачи. Рассматривается алгоритм создания таблиц из списков, разбираются основные этапы алгоритмы : разделение строк списка на части, выравнивание, очистка и улучшение таблицы. Также даются экспериментальные оценки подхода к решению проблемы и информация о связанных задачах.

Докладчик: Агаев Нурлан

Материалы:

Презентация с семинара (pdf)