Архипенко Константин Владимирович

Младший научный сотрудник ИСП РАН

Контакты

  • e-mail: arkhipenko<аt>ispras<dоt>ru
  • telegram: arxikv

Образование

  • ВМК МГУ (2012–2018)
  • ВМК МГУ, аспирант (2018–2022)

Научные интересы

  • методы атак на нейронные сети и методы защиты от атак
  • робастные и интерпретируемые нейросетевые архитектуры

В 2023 году набор студентов 2 курса завершен.
Есть возможность взять одного выпускника бакалавриата для работы и написания магистерской в ИСП.
Есть руководители со схожими направлениями работы.

 

Направления работы

  • регуляризация состязательного обучения. Состязательное обучение (англ. adversarial training) — основной метод защиты от атак на нейронные сети на этапе инференса. К таким атакам относятся градиентная максимизация ошибки модели по входным данных (атаки PGD, C&W), максимизация ошибки при помощи аппроксимации градиента на границе решающего правила (атака HopSkipJump и др.). Состязательное обучение само по себе не обеспечивает удовлетворительной защиты от атак и подвержено оверфиттингу на возмущениях, поэтому нужны и требуют исследований дополнительные техники: регуляризация, сглаживающая функцию потерь, интеграция дополнительных датасетов в процесс обучения (в том числе неразмеченных/синтетических).
  • новые виды атакующих возмущений в состязательных атаках. Наиболее исследованный способ возмущения входных данных в атаках — это возмущения, ограниченные по lp-норме. В некоторых приложениях этот способ неактуален; пример — детекция объектов после съемки камерой, где эффективность атаки снижается из-за зашумления сцены камерой. Даже там, где атаки с lp-нормой имеют смысл — в распознавании изображений, опубликованных в Интернете — простая предобработка картинки может значительно снизить успешность атаки. Поэтому интересное новое направление — атакующие модификации картинок генеративными моделями, где модификации не ограничены по норме, но не должны ухудшать реалистичность изображения.
  • защита от бэкдоров в нейронных сетях. Бэкдор — это свойство модели, заключающееся в заведомо некорректной работе модели (например, предсказании конкретного заведомо некорректного класса моделью) на входных данных с триггером. Триггер — особенность признакового описания объекта, определяемая атакующим таким образом, чтобы она не встречалась в обычных данных и чтобы она выучивалась моделью без существенного снижения точности на обычных данных. Сейчас существуют атаки с бэкдорами как на компьютерное зрение, так и на NLP. Открытые вопросы — как сделать триггер незаметным для жертвы в этих прикладных задачах и как защититься от таких триггеров.
  • интерпретируемые нейросетевые архитектуры. Попытки объяснения результатов работы нейронных сетей ведутся с ~2013 года, но основная группа методов объяснения — градиентная оценка вклада признаков в предсказание (англ. feature attributions) — не снискала большого доверия у разработчиков и пользователей прикладных систем на основе нейронных сетей. Причина этому — разные методы генерируют слишком разные объяснения, а сами объяснения неустойчивы к изменениям входных признаков, в том числе к атакам. Поэтому в научных статьях начали внедрять механизмы объяснения в архитектуру, т.е. в процесс принятия решения моделью. Первая такая архитектура — ProtoPNet, но ее требуется дорабатывать, чтобы она могла соперничать со стандартными state-of-the-art нейронными сетями.
  • защита от кражи моделей. Кражей модели называют восстановление ее решающего правила при помощи многократных запросов предсказаний в режиме черного ящика. Атакующий таким образом строит свою собственную модель, применяя для обучения на предсказаниях модели-жертвы такие методы, как активное обучение (англ. active learning) и дистилляцию (англ. knowledge distillation). Открытое направление — защита от кражи с выявлением подозрительных цепочек запросов к модели.
  • автоматический поиск нейросетевых архитектур, устойчивых к атакам. В научных статьях набирают популярность нестандартные архитектуры сетей для улучшения устойчивости к атакам; примеры — Wide ResNet, RobustResNet (Huang et al. 2022). Уже есть и несколько работ по автоматическому поиску (англ. neural architecture search) таких архитектур, но открытым и требующим исследований вопросом является выбор пространства поиска.