Коллаборативная фильтрация (29.11.11)

Коллаборативная фильтрация (англ. collaborative filtering) — группа методов, прогнозирующих интересы конкретного пользователя по собранной информации о вкусах и предпочтениях множества пользователей.

Методы коллаборативной фильтрации делятся на 2 типа:

основанные на сходстве пользователей или объектов
основанные на моделях.

Алгоритмы-представители каждого типа будут подробно рассмотрены в ходе доклада. Также будет рассказано о метриках качества, используемых для оценки алгоритмов рекомендаций, и о некоторых открытых проблемах.

Докладчик: Гомзин Андрей

Материалы:

David Goldberg, David Nichols, Brian M. Oki and Douglas Terry. Using collaborative filtering to weave an information Tapestry. 1992
Xiaoyuan Su, Taghi M. Khoshgoftaar. A Survey of Collaborative Filtering Techniques. 2009
Encyclopedia of Machine Learning. Recommender Systems. [http://www.prem-melville.com/publications/recommender-systems-eml2010.pdf]

презентация с семинара (pdf)

Facebook: обработка в реальном времени на Apache Hadoop (22.11.11)

Современные онлайн-приложения управляют огромными потоками данных, обработка которых с использованием лишь традиционных систем хранения и управления данными затруднена. Для эффективной работы таких приложений создано уже немало специализированных распределенных систем. Примером является стек технологий Apache Hadoop, который позволяет строить распределённые системы, выдерживающие высокие нагрузки. В частности, одна из таких систем построена и используется в Facebook для приложения Facebook Messages. В докладе рассмотрены основные технологий стека Apache Hadoop, а также изменения, внесенные в него инженерами Facebook для повышения стабильности и эффективности работы.

Докладчик: Константин Абакумов

Материалы:

Dhruba Borthakur, Joydeep Sen Sarma, Jonathan Gray. Apache Hadoop Goes Realtime at Facebook. (pdf)
Tom White. Hadoop: The Definitive Guide, 2nd Edition
HDFS: ht tp://kazman.shidler.hawaii.edu/ArchDoc.htm
Google BigTable: ttp://static.googleusercontent.com/external_content/untrusted_dlcp/labs.google.com/en//papers/bigtable-osdi06.pdf l
ZooKeeper: http://www.usenix.org/event/atc10/tech/full_papers/Hunt.pdf
HDFS Replication Policy: https://issues.apache.org/jira/browse/HDFS-1094

Презентация с семинара (html)

Реализация алгоритма Витерби для Apache Mahout (15.11.11)

Доклад посвящен работе, проделанной в рамках программы Google Summer of Code 2011 для проекта Apache Mahout. Будут рассмотрены различные подходы к решению подобного рода задач, а также проблемы, возникающие при попытке использования парадигмы MapReduce для решения нестандартных задач.

Докладчик: Сергей Бартунов

Презентация с семинара (pdf)

Машины опорных векторов (8.11.11)

Машины Опорных Векторов — это семейство алгоритмов классификации вида «обучение с учителем». В докладе будут рассмотрены:

Определение оптимальной гиперплоскости в случае линейно разделимых и произвольных данных,
SVM как задача квадратичного программирования,
Ядровые функции и ядровой переход.

Все необходимые теоремы и понятия алгебры и оптимизации будут введены по ходу доклада.

Докладчик: Алексей Сильвестров

Литература:

http://cs229.stanford.edu/notes/cs229-notes2.pdf — Стенфордский курс Machine Learning
http://www.machinelearning.ru/wiki/images/2/25/SMAIS11_SVM.pdf — с/к СМАИС ВМК МГУ

Презентация с семинара (pptx)

Распознавание и классификация именованных сущностей (1.11.11)

В докладе рассказывается о проблеме извлечения из текста и классификации именованных сущностей (named entity), некоторых методах их распознавания, приводятся наиболее часто используемые для этого признаки. Особое внимание уделено вопросу тегирования последовательностей и персептронному алгоритму.

Докладчик: Кристина Чуприна

Bibliography:

David Nadeau, Satoshi Sekine. A survey of named entity recognition and classification. 2007.
Michael Collins. Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms. 2002.
Yoav Freund, Robert E. Schapire. Large Margin Classification Using the Perceptron Algorithm. 1998.

Презентация с семинара (pdf)

Извлечение информации из табличных данных (25.10.11)

Табличная запись является одним из наиболее частых способов представления структуры текстовой информации. В данном докладе рассматриваются методы как автоматического, так и автоматизированного извлечения информации из таблиц. Приводится обзор возникающих проблем, в частности — определение ориентации таблицы, обработка разрозненных заголовков и агрегирующих объектов, — предлагаются методы решения, основанные на эвристических подходах и машинном обучении. Также в докладе обозначаются проблемы, в том числе открытые, которые возникают при интерактивном взаимодействии эксперта с программным инструментом по обработке таблиц.

Докладчик: Никита Астраханцев

Материалы:

Н.А. Астраханцев. Исследование и разработка методов извлечения объектов и их атрибутов из таблиц текстовых документов. (http://modis.ispras.ru/seminar/wp-content/uploads/2011/05/Astrakhantsev_thesis.pdf)
N. Astrakhantsev. Extracting Objects and Their Attributes from Tables in Text Documents // Proceedings of SYRCoDIS. Moscow, 2011. P. 34-37. (http://ceur-ws.org/Vol-735/paper6.pdf)
A. C. Silva, A. Jorge, L. Torgo. Design of an end-to-end method to extract information from tables // International Journal of Document Analysis and Recognition. 2006. 8. N 2-3. P. 144-171 (http://homepages.inf.ed.ac.uk/s0568318/tablesIJDAR.pdf)

Презентация с семинара (pdf)

Введение в информационный поиск (18.10.11)

В докладе рассказывается о базовых моделях информационного поиска: модель векторного пространства и взвешивание терминов по их степени важности на основе статистических данных. Рассматриваются модели ранжирования для случая текстовых документов и документов, содержащих метаданные.

Докладчик: Марина Макиенко

Материалы:

Christopher D. Manning, Prabhakar Raghavan “Introduction to information retrieval”, Cambridge University Press. 2008. (Глава 6)

Презентация к семинару (pptx)

Меры семантической близости (11.10.11)

Определение семантической близости документов – важная задача, лежащая в основе полнотекстового поиска по интернету, кластеризации документов и пр. На семинаре будут рассмотрены как методы, опирающиеся на лексику документов (векторная модель, латентно-семантический анализ), так и подходы, рассматривающие корпус документов, как граф. Во втором случае, будут упомянуты, локальные методы, определяющие близость документов через общих соседей, и глобальные, рекурсивно подсчитывающие близость для всех пар вершин.

Докладчик: Тимофей Федотов

Материалы:

Турдаков Д.Ю. «Методы разрешения лексической многозначности, основанные на семантической близости в сетях документов». Глава 2.2
Jeh , Widom «SimRank: A Measure of Structural-Context Similarity»
Латентно-семантический анализ. http://habrahabr.ru/blogs/algorithm/110078/

Презентация с семинара (pptx)

Создание модели открытой системы автоматизированной обработки текста и инструментальных средств его анализа

31 мая на семинаре будет заслушана диссертация «Создание модели открытой системы автоматизированной обработки текста и инструментальных средств его анализа.»

В последнее время объем информации, включая текстовую информацию, растет ускоренными темпами и в этом мощном потоке множеству специалистов различных профессий приходится находить нужные им сведения. В связи с этим появилась необходимость обеспечить средства автоматизации, как поиска, так и анализа текстовой информации, включая классификацию, кластеризацию, индексирование, извлечение знаний и т.д.

Целью диссертационной работы является разработка модели открытой системы автоматизированной обработки текста и инструментальных средств его анализа, дающих возможность построения различных моделей текста для его дальнейшего анализа и выявления новых свойств, а также решения различных задач и простого внесения изменений в ранее созданные алгоритмы. Научную новизну составляют результаты, полученные в ходе решения поставленных задач: модель универсальной системы автоматизированной обработки текста; инструментальные средства для создания моделей текстов и анализа результатов их обработки; метод оценки времени обработки текста; технология исследования и анализа текста на основе создаваемых инструментальных средств. Практическими результатами работы являются разработанные базовые компоненты системы автоматизированного анализа текста на основе предложенной модели и инструментальные средства построения моделей текстов для их исследования и решения различных задач.

Докладчик: Полицына Екатерина Валерьевна.

Научный руководитель: к.т.н., проф., Балакирев Николай Евгеньевич

Шаблоны проектирования программ для Hadoop MapReduce (26.04.11)

В докладе освещены шаблоны проектирования распределенных программ в модели MapReduce. В частности уделяется особое внимание разработке для фреймворка Apache Hadoop. Будут рассмотрены проблемы хранения промежуточных данных, сортировки пар ключ-значение по значению(secondary sorting), очередности вычисления данных(например, при вычислении числителя, знаменателя и их отношения).

Докладчик: Алексей Сильвестров

Материалы:

Jimmy Lin and Chris Dyer. Data-Intensive Text Processing with MapReduce. (1-3 главы)

презентация с семинара (ppt)

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Archive for the ‘Аннотации’ Category

Коллаборативная фильтрация (29.11.11)

Facebook: обработка в реальном времени на Apache Hadoop (22.11.11)

Реализация алгоритма Витерби для Apache Mahout (15.11.11)

Машины опорных векторов (8.11.11)

Распознавание и классификация именованных сущностей (1.11.11)

Извлечение информации из табличных данных (25.10.11)

Введение в информационный поиск (18.10.11)

Меры семантической близости (11.10.11)

Создание модели открытой системы автоматизированной обработки текста и инструментальных средств его анализа

Шаблоны проектирования программ для Hadoop MapReduce (26.04.11)