Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts tagged Недумов Ярослав

Современные поисковые системы хорошо подходят для поиска единичных фактов, конкретных документов, ответов на вопросы. Однако не всегда поисковые потребности пользователей так конкретны. Пользователь может точно не знать, что именно он хочет найти, может не понимать, пора ли закончить поиск или следует продолжать, анализ результатов поиска может требовать значительного времени. В таких случаях говорят о задаче […]

Интернет – повседневный источник самых разнообразных данных для множества людей уже многие годы. Поиск товаров и услуг, анализ отзывов на них – эти и многие другие варианты использования интернета могут быть автоматизированы. Однако, несмотря на то, что большая часть данных в интернете представлена в виде HTML разметки, это мало помогает автоматическому извлечению семантики. HTML веб-страниц […]

Доклад посвящен результатам совместного проекта с фирмой 1С о решении задачи нормализации информации. Нормализация информации – сложная дорогостоящая задача, решаемая с помощью привлечения большого количества экспертов. Автоматизация их работы может позволить существенно снизить издержки. Основная возникающая при этом проблема – отсутствие формальных описаний знаний экспертов, а также формальной постановки решаемой ими задачи. Существующие средства позволяют […]

Texterra – разрабатываемый в ИСП РАН инструмент для обработки и семантического анализа текстов. В ходе доклада будут показаны некоторые возможности системы Texterra. Кроме того будут рассмотрены архитектура и принцип работы системы Texterra, а также один из способов получения базы знаний для нее. Докладчик: Александр Бабаков Материалы: Viktor Ivannikov, Denis Turdakov, Yaroslav Nedumov. Fast Text Annotation […]

Доклад посвящен одному из алгоритмов машинного обучения – случайному лесу (Random Forest). Случайный лес – метод, предложенный Лео Брейманом и Адель Катлер, заключающийся в использовании комитета (ансамбля) решающих деревьев в задачах классификации, регрессии и кластеризации. Random Forest способен эффективно обрабатывать данные с большим числом признаков и классов, его качество сравнимо с SVM и бустингом. Он […]

Машины Опорных Векторов – это семейство алгоритмов классификации вида “обучение с учителем”. В докладе будут рассмотрены: Определение оптимальной гиперплоскости в случае линейно разделимых и произвольных данных, SVM как задача квадратичного программирования, Ядровые функции и ядровой переход. Все необходимые теоремы и понятия алгебры и  оптимизации будут введены по ходу доклада. Докладчик:  Алексей Сильвестров Литература: http://cs229.stanford.edu/notes/cs229-notes2.pdf – Стенфордский курс Machine Learning http://www.machinelearning.ru/wiki/images/2/25/SMAIS11_SVM.pdf – с/к СМАИС […]

Key-Value storage – это быстрые распределенные NoSQL хранилища данных, предоставляющие доступ данным по id. Project Voldemort — распределенная база данных типа ключ-значение, предназначенная для горизонтального масштабирования на большом количестве серверов. Voldemort успешно используется компанией LinkedIn. – Riak – написанное на языке Erlang хранилище, используемое множеством компанией, например AOL, Mozilla Foundation. Amazon Dynamo – основа системы […]

В докладе делается обзор методов извлечения ключевых слов из текстов. Рассматриваются проблемы возникающие при решении задачи. Разбираются общие подходы к их решению и анализируется несколько реализованных методов, в том числе лучших по итогам SemEval-2010. Докладчик: Рязанцев Дмитрий Материалы: Lopez, Patrice and Laurent Romary, 2010b. HUMB: Automatic Key Term Extraction from Scientic Articles in GROBID. In […]