Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts tagged Недумов Ярослав

Интернет – повседневный источник самых разнообразных данных для множества людей уже многие годы. Поиск товаров и услуг, анализ отзывов на них – эти и многие другие варианты использования интернета могут быть автоматизированы. Однако, несмотря на то, что большая часть данных в интернете представлена в виде HTML разметки, это мало помогает автоматическому извлечению семантики. HTML веб-страниц […]

Доклад посвящен результатам совместного проекта с фирмой 1С о решении задачи нормализации информации. Нормализация информации – сложная дорогостоящая задача, решаемая с помощью привлечения большого количества экспертов. Автоматизация их работы может позволить существенно снизить издержки. Основная возникающая при этом проблема – отсутствие формальных описаний знаний экспертов, а также формальной постановки решаемой ими задачи. Существующие средства позволяют […]

Texterra – разрабатываемый в ИСП РАН инструмент для обработки и семантического анализа текстов. В ходе доклада будут показаны некоторые возможности системы Texterra. Кроме того будут рассмотрены архитектура и принцип работы системы Texterra, а также один из способов получения базы знаний для нее. Докладчик: Александр Бабаков Материалы: Viktor Ivannikov, Denis Turdakov, Yaroslav Nedumov. Fast Text Annotation […]

Доклад посвящен одному из алгоритмов машинного обучения – случайному лесу (Random Forest). Случайный лес – метод, предложенный Лео Брейманом и Адель Катлер, заключающийся в использовании комитета (ансамбля) решающих деревьев в задачах классификации, регрессии и кластеризации. Random Forest способен эффективно обрабатывать данные с большим числом признаков и классов, его качество сравнимо с SVM и бустингом. Он […]

Машины Опорных Векторов – это семейство алгоритмов классификации вида “обучение с учителем”. В докладе будут рассмотрены: Определение оптимальной гиперплоскости в случае линейно разделимых и произвольных данных, SVM как задача квадратичного программирования, Ядровые функции и ядровой переход. Все необходимые теоремы и понятия алгебры и  оптимизации будут введены по ходу доклада. Докладчик:  Алексей Сильвестров Литература: http://cs229.stanford.edu/notes/cs229-notes2.pdf – Стенфордский курс Machine Learning http://www.machinelearning.ru/wiki/images/2/25/SMAIS11_SVM.pdf – с/к СМАИС […]

Key-Value storage – это быстрые распределенные NoSQL хранилища данных, предоставляющие доступ данным по id. Project Voldemort — распределенная база данных типа ключ-значение, предназначенная для горизонтального масштабирования на большом количестве серверов. Voldemort успешно используется компанией LinkedIn. – Riak – написанное на языке Erlang хранилище, используемое множеством компанией, например AOL, Mozilla Foundation. Amazon Dynamo – основа системы […]

В докладе делается обзор методов извлечения ключевых слов из текстов. Рассматриваются проблемы возникающие при решении задачи. Разбираются общие подходы к их решению и анализируется несколько реализованных методов, в том числе лучших по итогам SemEval-2010. Докладчик: Рязанцев Дмитрий Материалы: Lopez, Patrice and Laurent Romary, 2010b. HUMB: Automatic Key Term Extraction from Scientic Articles in GROBID. In […]