Author Archive

Распределенная СУБД BigTable (02.11.10)

В докладе будет рассмотрена распределенная Key/value СУБД на примере Bigtable (google). Основной целью было создание хранилища для использования в сервисах Google  быстрого и максимально легко масштабируемого. В докладе описываются требования, которые были поставлены перед разработчиками системы, и рассказывается, как их удалось достичь: чем пожертвовали и на чём сконцентрировали внимание при создании BigTable. Доклад описывает особенности параллелизма системы, представление данных, подход к целостности и доступности (availability) данных. Также будет рассмотрены другие реализации подобного типа хранилищ, что в них было добавлено и как они используются.

Докладчик: Михов Олег

Материалы:

Презентация с семинара (pdf)

Методы оценки близости строк (26.10.10)

В докладе рассматриваются различные строковые метрики — функции, вычисляющие близость текстовых строк, — и их приложения. Приводится сравнительная характеристика строковых метрик в задаче сопоставления имен собственных, на примере польского языка.

Докладчик: Кривошеева Татьяна

Материалы:

  • Usability of String Distance Metrics for Name Matching Tasks in Polish (pdf)
  • Методы и алгоритмы вычислений на строках (глава 2) (pdf)

Презентация с семинара (ppt)

Информационный поиск и семантические сети (19.10.10)

В докладе производится краткий обзор задачи поиска информации в коллекциях документов, основы индексирования и обработки запросов. Рассматриваются подходы к расширению функциональности поисковых машин обработкой аннотаций и семантических языков. Рассматриваются три тестовых системы: OWLIR, Swangler и Swoogle, реализующие данные подходы.

Докладчик: Кийко Александр

Материалы: Tim Finin, et. al.

Презентация с семинара (pptx)

Извлечение информации из списков (12.10.10)

В докладе излагается проблема извлечения информации из списков и представляется авторский подход к решению данной задачи. Рассматривается алгоритм создания таблиц из списков, разбираются основные этапы алгоритмы : разделение строк списка на части, выравнивание, очистка и улучшение таблицы. Также даются экспериментальные оценки подхода к решению проблемы и информация о связанных задачах.

Докладчик: Агаев Нурлан

Материалы:

Презентация с семинара (pdf)

Методы извлечения ключевых слов (5.10.10)

В докладе делается обзор методов извлечения ключевых слов из текстов. Рассматриваются проблемы возникающие при решении задачи. Разбираются общие подходы к их решению и анализируется несколько реализованных методов, в том числе лучших по итогам SemEval-2010.

Докладчик: Рязанцев Дмитрий

Материалы:

  • Lopez, Patrice and Laurent Romary, 2010b. HUMB: Automatic Key Term Extraction from Scientic Articles in GROBID. In SemEval 2010 Workshop. Uppsala, Su`de. (PDF)
  • Samhaa R. El-Beltagy; Ahmed Rafea KP-Miner: Participation in SemEval-2 (PDF)
  • Olena Medelyan, Eibe Frank, and Ian H. Witten. Human-competitive tagging using automatic keyphrase extraction (2009) (PDF)
  • Eibe Frank and Gordon W. Paynter and Ian H. Witten. Domain-Specific Keyphrase Extraction (PDF)
  • R. Mihalcea and A. Csomai. Wikify!: linking documents to encyclopedic knowledge (2007) (PDF)

Презентация с семинара (ppt)

Методы обогащения текстовых коллекций ссылками: система TAGME (28.09.10)

Доклад освещает метод добавления в неструктурированный и частично структурированный текст перекрестных ссылок на Wikipedia. Особенность этого метода в том, что он заточен на обработку коротких текстов, состоящих всего из нескольких десятков слов. Также рассмотрена система TAGME, реализующая представленный метод, и приведены оценки ее эффективности по сравнению с предшественниками.

Докладчик: Рябов Сергей

Материалы:

Презентация с семинара (ppt)

Семинар в осеннем семестре 2010 года

Первый семинар в новом семестре состоится 21 сентября 2010 в 19.00 в здании Института системного программирования РАН ауд. 110. На семинаре будут обсуждаться организационные вопросы, расписание докладов и распределение студентов 3-го курса по научным руководителям.

Информация для дипломников

Вниманию студентов 527 и 528 групп и их научных руководителей!
Зачетная/экзаменационная сессия на 5 курсе продлится с 3 по 14 мая. До
12 мая должны быть получены зачеты по спецсеминару.
Защита дипломных работ планируется 27 мая (у 527) и 28 мая (у 528).
Полностью готовая дипломная работа, отвечающая утвержденным
требованиям к дипломным работам (http://sp.cmc.msu.ru/info/5/diplom-
reqs.pdf
), с подписью научного руководителя и студента на титульном
листе должна быть представлена на кафедру до 20 мая. Идентичный
электронный вариант дипломной работы студент должен прислать на
электронный адрес sp@cs.msu.su до 20 мая. Без выполнения этих
требований в срок студент не допускается к защите диплома. Предзащита
дипломных работ будет проведена в рамках спецсеминаров и на кафедре.