Archive for the ‘Аннотации’ Category

Facebook: обработка в реальном времени на Apache Hadoop (22.11.11)

Современные онлайн-приложения управляют огромными потоками данных, обработка которых с использованием лишь традиционных систем хранения и управления данными затруднена. Для эффективной работы таких приложений создано уже немало специализированных распределенных систем. Примером является стек технологий Apache Hadoop, который позволяет строить распределённые системы, выдерживающие высокие нагрузки. В частности, одна из таких систем построена и используется в Facebook для приложения Facebook Messages. В докладе рассмотрены основные технологий стека Apache Hadoop, а также изменения, внесенные в него инженерами Facebook для повышения стабильности и эффективности работы.

Докладчик: Константин Абакумов

Материалы:

Презентация с семинара (html)

Реализация алгоритма Витерби для Apache Mahout (15.11.11)

Доклад посвящен работе, проделанной в рамках программы Google Summer of Code 2011 для проекта Apache Mahout. Будут рассмотрены различные подходы к решению подобного рода задач, а также проблемы, возникающие при попытке использования парадигмы MapReduce для решения нестандартных задач.

Докладчик: Сергей Бартунов

Презентация с семинара (pdf)

Машины опорных векторов (8.11.11)

Машины Опорных Векторов — это семейство алгоритмов классификации вида «обучение с учителем». В докладе будут рассмотрены:

  • Определение оптимальной гиперплоскости в случае линейно разделимых и произвольных данных,
  • SVM как задача квадратичного программирования,
  • Ядровые функции и ядровой переход.

Все необходимые теоремы и понятия алгебры и  оптимизации будут введены по ходу доклада.

Докладчик:  Алексей Сильвестров

Литература:

Презентация с семинара (pptx)

Распознавание и классификация именованных сущностей (1.11.11)

В докладе рассказывается о проблеме извлечения из текста и классификации именованных сущностей (named entity), некоторых методах их распознавания, приводятся наиболее часто используемые для этого признаки. Особое внимание уделено вопросу тегирования последовательностей и персептронному алгоритму.

Докладчик: Кристина Чуприна

Bibliography:

  • David Nadeau, Satoshi Sekine. A survey of named entity recognition and classification. 2007.
  • Michael Collins. Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms. 2002.
  • Yoav Freund, Robert E. Schapire. Large Margin Classification Using the Perceptron Algorithm. 1998.

Презентация с семинара (pdf)

Извлечение информации из табличных данных (25.10.11)

Табличная запись является одним из наиболее частых способов представления структуры текстовой информации. В данном докладе рассматриваются методы как автоматического, так и автоматизированного извлечения информации из таблиц. Приводится обзор возникающих проблем, в частности — определение ориентации таблицы, обработка разрозненных заголовков и агрегирующих объектов, — предлагаются методы решения, основанные на эвристических подходах и машинном обучении. Также в докладе обозначаются проблемы, в том числе открытые, которые возникают при интерактивном взаимодействии эксперта с программным инструментом по обработке таблиц.

Докладчик:  Никита Астраханцев

Материалы:

Презентация с семинара (pdf)

Введение в информационный поиск (18.10.11)

В докладе рассказывается о базовых моделях информационного поиска: модель векторного пространства и взвешивание терминов по их степени важности на основе статистических данных. Рассматриваются модели ранжирования для случая текстовых документов и документов, содержащих метаданные.

Докладчик: Марина Макиенко

Материалы:

  • Christopher D. Manning, Prabhakar Raghavan “Introduction to information retrieval”,  Cambridge University Press. 2008. (Глава 6)

Презентация к семинару (pptx)

Меры семантической близости (11.10.11)

Определение семантической близости документов – важная задача, лежащая в основе полнотекстового поиска по интернету, кластеризации документов и пр. На семинаре будут рассмотрены как методы, опирающиеся на лексику документов (векторная модель, латентно-семантический анализ), так и подходы, рассматривающие корпус документов, как граф. Во втором случае, будут упомянуты, локальные методы, определяющие близость документов через общих соседей, и глобальные, рекурсивно подсчитывающие близость для всех пар вершин.

Докладчик: Тимофей Федотов

Материалы:

Презентация с семинара (pptx)

Создание модели открытой системы автоматизированной обработки текста и инструментальных средств его анализа

31 мая на семинаре будет заслушана диссертация «Создание модели открытой системы автоматизированной обработки текста и инструментальных средств его анализа.»

В последнее время объем информации, включая текстовую информацию, растет ускоренными темпами и в этом мощном потоке  множеству специалистов различных профессий приходится находить нужные им сведения. В связи с этим появилась необходимость обеспечить средства автоматизации, как поиска, так и анализа текстовой информации, включая классификацию, кластеризацию, индексирование, извлечение знаний и т.д.

Целью диссертационной работы является разработка модели открытой системы автоматизированной обработки текста и инструментальных средств его анализа, дающих возможность построения различных моделей текста для его дальнейшего анализа и выявления новых свойств, а также решения различных задач и простого внесения изменений в ранее созданные алгоритмы. Научную новизну составляют результаты, полученные в ходе решения поставленных задач: модель универсальной системы автоматизированной обработки текста; инструментальные средства для создания моделей текстов и анализа результатов их обработки; метод оценки времени обработки текста; технология исследования и анализа текста на основе создаваемых инструментальных средств. Практическими результатами работы являются разработанные базовые компоненты системы автоматизированного анализа текста на основе предложенной модели и инструментальные средства построения моделей текстов для их исследования и решения различных задач.

Докладчик: Полицына Екатерина Валерьевна.

Научный руководитель: к.т.н., проф., Балакирев Николай Евгеньевич

Шаблоны проектирования программ для Hadoop MapReduce (26.04.11)

В докладе освещены шаблоны проектирования распределенных программ в модели MapReduce. В частности уделяется особое внимание разработке для фреймворка Apache Hadoop. Будут рассмотрены проблемы хранения промежуточных данных, сортировки пар ключ-значение по значению(secondary sorting), очередности вычисления данных(например, при вычислении числителя, знаменателя и их отношения).

Докладчик: Алексей Сильвестров

Материалы:

презентация с семинара (ppt)

Распределённые key-value хранилища: Amazon Dynamo, Project Voldemort, Riak

Key-Value storage — это быстрые распределенные NoSQL хранилища данных, предоставляющие доступ данным по id. Project Voldemort — распределенная база данных типа ключ-значение, предназначенная для горизонтального масштабирования на большом количестве серверов. Voldemort успешно используется компанией LinkedIn. — Riak — написанное на языке Erlang хранилище, используемое множеством компанией, например AOL, Mozilla Foundation. Amazon Dynamo — основа системы хранения сервисов в Amazon, которым достаточно простого доступа к данным по ключу.
В докладе рассмотрены механизмы и архитектура каждой модели и их сравнение.

Докладчик: Зуев Анатолий

презентация с семинара (pdf)