Создание модели открытой системы автоматизированной обработки текста и инструментальных средств его анализа

31 мая на семинаре будет заслушана диссертация «Создание модели открытой системы автоматизированной обработки текста и инструментальных средств его анализа.»

В последнее время объем информации, включая текстовую информацию, растет ускоренными темпами и в этом мощном потоке множеству специалистов различных профессий приходится находить нужные им сведения. В связи с этим появилась необходимость обеспечить средства автоматизации, как поиска, так и анализа текстовой информации, включая классификацию, кластеризацию, индексирование, извлечение знаний и т.д.

Целью диссертационной работы является разработка модели открытой системы автоматизированной обработки текста и инструментальных средств его анализа, дающих возможность построения различных моделей текста для его дальнейшего анализа и выявления новых свойств, а также решения различных задач и простого внесения изменений в ранее созданные алгоритмы. Научную новизну составляют результаты, полученные в ходе решения поставленных задач: модель универсальной системы автоматизированной обработки текста; инструментальные средства для создания моделей текстов и анализа результатов их обработки; метод оценки времени обработки текста; технология исследования и анализа текста на основе создаваемых инструментальных средств. Практическими результатами работы являются разработанные базовые компоненты системы автоматизированного анализа текста на основе предложенной модели и инструментальные средства построения моделей текстов для их исследования и решения различных задач.

Докладчик: Полицына Екатерина Валерьевна.

Научный руководитель: к.т.н., проф., Балакирев Николай Евгеньевич

Дипломные работы

24-25 мая прошла защита дипломных работ. Поздравляем с успешной защитой!

Астраханцев Никита Александрович. Исследование и разработка методов извлечения объектов и их атрибутов из таблиц текстовых документов. (pdf)
Борисенко Олег Дмитриевич. Реализация хранимых в блоках префиксных деревьев в XML-СУБД. (pdf)
Кийко Александр Сергеевич. Ранжирование в информационно-поисковых системах на основе социальных сервисов. (pdf)
Михов Олег Валерьевич. Параллельный алгоритм вычисления семантической близости для больших коллекций документов. (pdf)

Защита дипломных работ

24, 25 мая
Предварительные даты защит дипломных работ выпускниками кафедры.

18 мая
Дипломные работы студентов кафедры должны быть присланы по эл. почте (sp@cs.msu.su) и сданы в твердой копии на кафедру до 18 мая. Тексты дипломных работ должны удовлетворять требованиям: http://sp.cmc.msu.ru/info/5/diplom-reqs.pdf
Титульные листы должны быть подписаны автором работы и его научным руководителем. Обратите внимание, что сведения об авторе работы и руководителе должны быть указаны на титульном листе полностью (с указанием полного имени и отчества).

Зачет по семинару и защита курсовых (3.05.11)

Как обычно, для получения зачета все студенты должны отчитаться за пропущенные семинары. Таблица посещаемости прилагается.

Также состоится защита курсовых 4-го курса. Все студенты должны быть допущены научными руководителями.

посещаемость семинара весна 2011

Шаблоны проектирования программ для Hadoop MapReduce (26.04.11)

В докладе освещены шаблоны проектирования распределенных программ в модели MapReduce. В частности уделяется особое внимание разработке для фреймворка Apache Hadoop. Будут рассмотрены проблемы хранения промежуточных данных, сортировки пар ключ-значение по значению(secondary sorting), очередности вычисления данных(например, при вычислении числителя, знаменателя и их отношения).

Докладчик: Алексей Сильвестров

Материалы:

Jimmy Lin and Chris Dyer. Data-Intensive Text Processing with MapReduce. (1-3 главы)

презентация с семинара (ppt)

Семинар 19 апреля отменен

Внимание! Доклад «Координация распределенных процессов обработки данных: Hadoop ZooKeeper» отменен в связи с болезнью докладчика. Семинара в этот день не будет.

Распределённые key-value хранилища: Amazon Dynamo, Project Voldemort, Riak

Key-Value storage — это быстрые распределенные NoSQL хранилища данных, предоставляющие доступ данным по id. Project Voldemort — распределенная база данных типа ключ-значение, предназначенная для горизонтального масштабирования на большом количестве серверов. Voldemort успешно используется компанией LinkedIn. — Riak — написанное на языке Erlang хранилище, используемое множеством компанией, например AOL, Mozilla Foundation. Amazon Dynamo — основа системы хранения сервисов в Amazon, которым достаточно простого доступа к данным по ключу.
В докладе рассмотрены механизмы и архитектура каждой модели и их сравнение.

Докладчик: Зуев Анатолий

презентация с семинара (pdf)

Распределённые NoSQL базы данных: Google BigTable, Hadoop HBase, HyperTable (05.04.11)

Распределённые базы данных — базы данных построенные на распределенных файловых системах, работающие одновременно на нескольких связанных серверах. После того, как в 2004 году Google представил свою систему BigTable, появились еще 2 другие open-source реализации Hadoop Hbase написанная на Java, и HyperTable на С++.
В докладе будут рассмотрены механизмы каждой системы, а так же их различия.

Докладчик: Стариков Николай

Материалы:

BigTable:
http://labs.google.com/papers/bigtable.html

HBase:
http://hbase.apache.org/book/architecture.html

Hypertable:
http://www.insight-it.ru/masshtabiruemost/hypertable/
http://code.google.com/p/hypertable/wiki/ArchitecturalOverview

презентация с семинара (pdf)

Модели распределенной обработки данных (29.03.11)

MapReduce — это модель распределенной обработки больших объемов данных. В докладе будет рассказано о Google MapReduce — первой реализации модели MapReduce, и об Apache Hadoop — реализации этой модели с открытым исходным кодом. Также будут рассмотрены и другие подходы для работы с большими данными: Microsoft Dryad и Sector/Sphere.

Докладчик: Гомзин Андрей

Материалы:

MapReduce, Sawzall:
MapReduce: Simplified Data Processing on Large Cluster
Interpreting the Data: Parallel Analysis with Sawzall

Apache Hadoop:
Hadoop: The Definitive Guide (глава 6)

Sector/Sphere:
Sector and Sphere: the design and implementation of a high-performance data cloud
Дополнительно: Processing Massive Sized Graphs Using Sector/Sphere

Microsoft Dryad:
Dryad: Distributed Data-Parallel Programs from Sequential Building Blocks
DryadLINQ: A System for General-Purpose Distributed Data-Parallel Computing Using a High-Level Language

Презентация с семинара

Распределенные алгоритмы машинного обучения (22.03.11)

Apache Mahout — это библиотека алгоритмов машинного обучения, способная обрабатывать большие объемы данных. Большинство алгоритмов библиотеки реализовано поверх Apache Hadoop с использованием парадигмы Map-Reduce. На данный момент четыре основные решаемые Mahout задачи это анализ рекомендаций, кластеризация, классификация и анализ наборов (frequent itemset mining). В докладе будут освещена архитектура библиотеки, а также рассмотрены примеры распараллеливания алгоритмов
машинного обучения на Map-Reduce.

Докладчик: Бартунов Сергей

Материалы: http://mahout.apache.org/

Презентация: TIFF PDF

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Author Archive

Создание модели открытой системы автоматизированной обработки текста и инструментальных средств его анализа

Дипломные работы

Защита дипломных работ

Зачет по семинару и защита курсовых (3.05.11)

Шаблоны проектирования программ для Hadoop MapReduce (26.04.11)

Семинар 19 апреля отменен

Распределённые key-value хранилища: Amazon Dynamo, Project Voldemort, Riak

Распределённые NoSQL базы данных: Google BigTable, Hadoop HBase, HyperTable (05.04.11)

Модели распределенной обработки данных (29.03.11)

Распределенные алгоритмы машинного обучения (22.03.11)