Яцков Александр Константинович

Должность: стажер-исследователь

Образование:

  • 2012-2016 бакалавриат ВМК МГУ (кафедра СП)
  • 2016-2018 магистратура ВМК МГУ (кафедра СП)
  • 2018-н.в. аспирантура ИСП РАН

Контакты:

  • e-mail: yatskov @ ispras.ru
  • vk @alexander_yatskov
  • telegram @yatskov_alex

Научные интересы:

  • Сбор данных из веба (web crawling, web data extraction);
  • Автоматизация процесса сбора данных;
  • Фокусированный сбор данных (focused crawling);
  • Извлечение информации (information extraction);
  • Машинное обучение (machine learning).

Мои научные интересы лежат в области разработки автоматических и автоматизированных алгоритмов сбора и извлечения данных из HTML-страниц и специализированных API. Информационные системы в в современном мире нуждаются в данных, важным источником которых является Интернет.

Любая задача анализа данных начинается со сбора данных. Для каждой из этих задач необходимы свои веб-краулеры, которые собирают именно те данные, которые необходимы для этой задачи.

Одним из направлений наших работ являются задачи, связанные с оптимизацией сбора данных. Разрабатываются различные алгоритмы, которые позволяют как эффективно использовать ресурсы,  так и оптимизировать сбор данных социальных графов. Для формального обоснования предложенных алгоритмов используется теория сложных сетей (complex networks) и модели случайных графов.

Кроме этого ряд исследований посвящён автоматическому распознаванию страниц и извлечению релевантных данных с собранных веб-страниц.  Примером данных, которые можно получать такими методами могут считаться тексты новостей или посты на форумах.

Сеть интернет является беспрецедентным не только по объему, но и по темпам роста хранилищем информации. С увеличением числа постоянно собираемых данных появляются задачи эффективного хранения и распространения собираемых данных. В дополнение к этом с увеличением числа одновременно работающих краулеров необходимо постоянно проверять и качество собираемых данных.

Поучаствовав в наших проектах вы сможете попробовать себя в современном программировании на  таких яхыках как Python, Javascript, Java. Также вы научитесь понимать современный язык разметок в Интернете HTML и CSS. И познакомитесь с современными технологиями такими как Docker, MongoDB, PostgreSQL, Kafka и многими другими.

Потенциальные направления работы студентов 2019-2020:

  1. Разработка подсистемы контроля качества результатов сбора данных. [уже занята]
  2. Разработка инструмента снижающего время разработки и требования к квалификации эксперта для полуавтоматизированного проектирования краулеров. [уже занята]
  3. Разработка подсистемы долгосрочного хранения и интерфейса выдачи медифайлов полученных в результате сбора данных.
  4. Оптимизация сбора новостей при помощи RSS-фидов.
  5. Разработка подсистемы долгосрочного хранения и версионирования собранных данных.
  6.  Разработка методов планирования задач сбора на основе доступных ресурсов и предыдущих запусков.
  7. Разработка инструментов масштабируемого сбора данных через браузер.
  8. Разработка методов планирования задач сбора обновлений данных из веб-ресурсов.
  9. Разработка методов сбора данных с сайтов форумов.
  10. Разработка стратегии сбора данных социальной сети имитирующей работу пользователя.