Должность: стажер-исследователь (ИСП РАН), ведущий программист ВМК МГУ
Образование:
- 2012-2016 бакалавриат ВМК МГУ (кафедра СП)
- 2016-2018 магистратура ВМК МГУ (кафедра СП)
- 2018-2022 аспирантура ИСП РАН
Контакты:
- e-mail: yatskov @ ispras.ru
- vk @alexander_yatskov
- telegram @yatskov_alex
Научные интересы:
- Сбор данных из веба (web crawling, web data extraction);
- Автоматизация процесса сбора данных;
- Фокусированный сбор данных (focused crawling);
- Извлечение информации (information extraction);
- Машинное обучение (machine learning).
Мои научные интересы лежат в области разработки автоматических и автоматизированных алгоритмов сбора и извлечения данных из HTML-страниц и специализированных API. Информационные системы в в современном мире нуждаются в данных, важным источником которых является Интернет.
Любая задача анализа данных начинается со сбора данных. Для каждой из этих задач необходимы свои веб-краулеры, которые собирают именно те данные, которые необходимы для этой задачи.
Одним из направлений наших работ являются задачи, связанные с оптимизацией сбора данных. Разрабатываются различные алгоритмы, которые позволяют как эффективно использовать ресурсы, так и оптимизировать сбор данных социальных графов. Для формального обоснования предложенных алгоритмов используется теория сложных сетей (complex networks) и модели случайных графов.
Кроме этого ряд исследований посвящён автоматическому распознаванию страниц и извлечению релевантных данных с собранных веб-страниц. Примером данных, которые можно получать такими методами могут считаться тексты новостей или посты на форумах.
Сеть интернет является беспрецедентным не только по объему, но и по темпам роста хранилищем информации. С увеличением числа постоянно собираемых данных появляются задачи эффективного хранения и распространения собираемых данных. В дополнение к этом с увеличением числа одновременно работающих краулеров необходимо постоянно проверять и качество собираемых данных.
Поучаствовав в наших проектах вы сможете попробовать себя в современном программировании на таких яхыках как Python, Javascript, Java. Также вы научитесь понимать современный язык разметок в Интернете HTML и CSS. И познакомитесь с современными технологиями такими как Docker, MongoDB, PostgreSQL, Kafka и многими другими.