Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts in Аннотации

Apache Mahout – это библиотека алгоритмов машинного обучения, способная обрабатывать большие объемы данных. Большинство алгоритмов библиотеки реализовано поверх Apache Hadoop с использованием парадигмы Map-Reduce. На данный момент четыре основные решаемые Mahout задачи это анализ рекомендаций, кластеризация, классификация и анализ наборов (frequent itemset mining). В докладе будут освещена архитектура библиотеки, а также рассмотрены примеры распараллеливания алгоритмов […]

В докладе кратко освещены наиболее значимые технологий стека Apache Hadoop: MapReduce, HBase, ZooKeeper, Hive, Pig и некоторые другие. Также подробно рассмотрена распределённая файловая система Hadoop Distributed File System, отвечающая требованиям производительности, масштабируемости, надёжности и высокой доступности данных. Описаны ключевые архитектурные особенности HDFS и приведены результаты бенчмарков. Доклад состоится 15 марта. Начало в 19.00. Докладчик: Рябов […]

В докладе будет дан обзор технологий от высокопроизводительных вычислений до GRID технологий и облачных вычислений. Данный доклад предназначен для определения области, которая будет изучаться на семинаре в этом семестре. Докладчик: Ученый секретарь ИСП РАН, Арутюн Ишханович Аветисян. Презентация с семинара (ppt)

Доклад посвящен марковским моделям и их применению к прикладным задачам обработки текстов. В докладе рассматриваются задачи фильтрации предсказания сглаживания и наиболее правдоподобного объяснения. Приводятся практические примеры их применения и алгоритмы для их эффективного решения. В заключении, рассматривается обобщение скрытой марковской модели на множество независимых последовательностей. Докладчик: Турдаков Денис Материалы: С. Рассел, П. Норвиг. Искусственный интеллект. […]

В докладе рассматривается модель n-грамм для моделирования и обработки естественного языка. Особое внимание уделяется обзору методов решения проблемы разреженности естественных языков. Также рассматриваются прикладные задачи, в основе которых лежит механизм n-грамм (генерация текстов заданной тематики, распознавание речи и др.) Докладчик: Федоренко Денис Материалы: Jurafsky D., Martin G.H. Speech and Language Processing Y.H. Witten and T.C. […]

Доклад посвящен системе Cassandra – распределенной Key/value СУБД, специально созданной Facebook для покрытия основных требований этой наиболее популярной соц. сети: устойчивость к сбоям отдельных серверов, надежность, быстрота, простота масштабируемости. Будет рассказано об особенностях архитектуры всей системы в целом, а также о специфике работы использующихся в системе алгоритмов, обеспечивающих её быстроту и надежность. В докладе дополнительно […]

Морфологический анализ – важная составляющая систем автоматической обработки естественных текстов. В её задачи входит усечение слова до основной формы (стемминг), поиск других форм данного слова, определение числа, падежа, рода и т.д. В докладе будут рассмотрены подходы к решению этих задач для русского языка, применяемые в таких проектах как mystem, АОТ, russianmorphology, а также метрики качества […]

В докладе рассказывается о методе ранжированного поиска в коллекциях XML-документов Xrank. Xrank – это адаптированный к XML алгоритм ссылочного ранжирования Pagerank для HTML. Также в докладе рассматриваются методы улучшенной обработки запросов XML-поиска: такие как использовани DIL, RDIL, HDIL. Докладчик: Зуев Анатолий. Материалы: Lin Guo Feng, Feng Shao, Chavdar Botev, Jayavel Shanmugasundaram. XRANK: Ranked Keyword Search […]

Доклад посвящен задаче обнаружения границ абзацев в тексте (paragraph boundary identification). Будет рассмотрена реализация, основанная на принципе постоянства энтропийной скорости (entropy rate constancy). Докладчик: Сильвестров Алексей Материалы: C. Sporleder, M. Lapata. Automatic Paragraph Identification: A Study across Languages and Domains. EMNLP 2004 (http://ilk.uvt.nl/~caroline/papers/SporlederLapata.pdf) D. Genzel, E.Charniak Variation of Entropy and Parse Trees of Sentences as […]

В докладе будет рассмотрена распределенная Key/value СУБД на примере Bigtable (google). Основной целью было создание хранилища для использования в сервисах Google  быстрого и максимально легко масштабируемого. В докладе описываются требования, которые были поставлены перед разработчиками системы, и рассказывается, как их удалось достичь: чем пожертвовали и на чём сконцентрировали внимание при создании BigTable. Доклад описывает особенности […]