Вредоносные образцы (adversarial example) — входные данные системы машинного обучения, вызывающие ее неверную работу. Атаки, осуществляемые с помощью таких входных данных, могут иметь серьезные последствия, например, если знак «стоп» распознается автомобилем-роботом как знак ограничения скорости. Вместе с тем вредоносные образцы дали пищу для многочисленных исследований в целом ряде областей — они могут быть мощным инструментом построения более надежных и устойчивых к атакам обучаемых моделей для распознавания фейковых новостей и обнаружения ботов в социальных сетях.
В своей знаменитой работе «Вычислительные машины и разум», опубликованной в 1950 году, Алан Тьюринг задается вопросом: «Может ли машина мыслить рационально?» Отчасти ответом стала парадигма машинного обучения, определение которого следующее: «Говорят, что компьютерная программа обучается на основе опыта по отношению к некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E» [1]. Если опыт — сбор данных определенного рода, а задача — решения, которые должна принимать для этого программа, то мерой качества будет оценка способности программы к правильному распознаванию нужного типа данных.
Системы машинного обучения позволяют решать многие задачи — они дают рекомендации покупателям на основе предыдущих покупок, очищают ящики входящих сообщений от спама с учетом ранее полученных нежелательных писем и т. д. Системы распознавания изображений обучают путем подачи им на вход множества размеченных картинок. В 2014 году специалисты Google и Нью-Йоркского университета продемонстрировали возможность обмануть классификатор — ансамбль нейронных сетей ConvNets путем внесения шума в изображение панды. В результате программа с уверенностью 99% классифицировала изображение панды как гиббона. Измененное изображение называют «вредоносным образцом» [2]. Обычно такой образец — это незначительное искажение данных, не воспринимаемое человеком, но из-за которого классификатор относит изображение к неверному классу. Например, дорожный знак «стоп» путем наклейки небольших стикеров можно исказить таким образом, что классификатор будет определять его в качестве знака ограничения скорости [3] (рис.). Другой пример — использование «вредоносных заплат» (adversarial patch). В этом случае злоумышленнику даже не нужно знать, какие именно изображения обучили распознавать классификатор. Достаточно добавить «заплатку» к входным данным, чтобы система пришла к выводу, что такие входные данные являются тем, что изображает заплатка. Популярный пример — эксперимент, в котором обученная модель принимала банан за тостер, когда рядом с бананом помещали «заплату» с искаженным изображением тостера.
Такие примеры демонстрируют риски, обусловленные уязвимостью систем компьютерного зрения для намеренных манипуляций с входными данными. Но сегодня машинное обучение применяют во многих других областях, в частности, растет использование систем машинного обучения, специально предназначенных для ввода в заблуждение других таких систем. Вредоносные образцы, с одной стороны, — серьезная угроза для любых систем с повышенными требованиями к безопасности, когда неверная классификация чревата серьезными последствиями, с другой, они помогают, например, бороться со злоупотреблениями и манипуляциями, осуществляемыми с помощью фейковых новостей и ботов в социальных сетях.
Как защититься от злоумышленников, которые пытаются провести модель с помощью вредоносных образцов? Дело в том, что такие образцы — не только угроза надежности моделей машинного обучения, их также можно использовать и наоборот, в роли весьма эффективного средства повышения устойчивости таких моделей. Самый простой способ — когда разработчики модели принимают на себя роль злоумышленников: создают серию вредоносных образцов для собственной модели и с их помощью обучают ее избегать обмана.
Задача вредоносного машинного обучения (adversarial machine learning, AML) — получить знания о том, когда, по какой причине и каким образом могут быть атакованы модели, а также о методах защиты от таких атак. Рассмотрим два явления, распознавание которых злоумышленники осложняют с помощью вредоносных образцов: фейки и боты социальных сетей. В отличие от компьютерного зрения, полезное применение AML в этих случаях только начинает развиваться. Эксперименты в основном касаются идентификации вредоносных образцов, реже — разработки решений по использованию таких образцов для улучшения распознавания.
Фейковые новости и социальные боты
Фейковые новости — сфабрикованная информация, имитирующая новости из легитимных СМИ по форме, но не по способу подготовки и назначению. Существуют подтвержденные случаи публикации таких новостей на темы политики, вакцинации, рациона питания, финансовых рынков и др.
Дезинформация существует на протяжении всей истории человечества, но почему именно сейчас столько шума вокруг фейковых новостей? С появлением Интернета доступ к новостям упростился, журналистские стандарты снизились, а открытая природа всемирной сети способствует распространению контента, созданного рядовыми пользователями и не проверяемого модераторами.
Обычно фейковые новости публикуются в малоизвестном издании и распространяются через репосты в социальных сетях, часто с помощью ботов — программ, имитирующих активность реальных пользователей и искусственно раздувающих хайп для злонамеренных целей.
За последние годы выросло количество исследований в области борьбы с созданием и распространением фейковых новостей и применением социальных ботов. Сейчас для раскрытия ботов и сфабрикованных новостей обычно используются методы на основе алгоритмов обучения с учителем, которые нередко позволяют достичь высокой результативности в тестовых случаях. Однако такие методы могут быть уязвимы для атак, радикально ухудшающих эффективность алгоритмов обучения. Социальные боты со временем эволюционируют — если первые боты конца нулевых годов можно было легко распознать по статичной информации из профиля и характерным признакам активности, то сегодня самые сложные боты практически неотличимы от реальных пользователей. То же происходит и в мире фейковых новостей — можно лишь незначительно подработать заголовок, содержание или источник новости, чтобы обмануть классификатор, заставив считать истинные сообщения фальшивыми или наоборот.
Распознавание фейковых новостей
Алгоритмы обучения позволяют распознать ложные новости по текстовым признакам — особенностям заголовка и содержания статьи. Было также показано, что признаками, по которым можно обнаружить сфабрикованное содержание, могут служить комментарии пользователей и ответы на них.
Однако алгоритмы можно ввести в заблуждение. Существует, к примеру, фреймворк для атак TextBugger, позволяющий создать вредоносный текст, который обманывает классификаторы тональности высказываний путем незначительной модификации текста, например, добавления или удаления отдельных слов и даже символов. Классификатор фейковых новостей можно сбить с толку, если изменить часть новости или выполнить манипуляции с комментариями и ответами. Пример приведен на рис. (г): детектор верно определяет реальную публикацию, но если ему на вход среди прочего подать специально подготовленный комментарий, он начнет считать ту же статью фейковой. Возможность искажения результата работы таких детекторов путем вмешательства в комментарии дает злоумышленнику преимущество — ему не обязательно быть автором самой статьи, а комментарий, написанный компьютером, сложнее распознать на фоне оставленных людьми. К тому же комментарии обычно принимаются модераторами, будучи написанными разговорным стилем и с ошибками.
Исследователи показали возможность создания вредоносных комментариев высокого качества, имеющих отношение к оригинальной новости и состоящих из полноценных законченных предложений. Благодаря прогрессу в области автоматического создания текста появилась возможность формирования целых осмысленных абзацев. Это делается, например, с помощью языковой модели GPT -2, обученной на наборе данных из 8 млн веб-страниц различной тематики. GPT-2 создает на удивление качественные тексты, показывая лучшие результаты, чем другие языковые модели, обученные на текстах конкретного характера (новости, Литература и др.). Исследована возможность синтеза новостей на заданную тему: в отличие от GPT-2, которая выбирает из словаря слово, наиболее вероятное после текущего, агент обучения с подкреплением пытается подбирать слова, обеспечивающие наибольшее соответствие текста заданной теме.
Наработки в области синтеза текста имеют полезные практические применения, например, в системах машинного перевода, но ими также могут пользоваться злоумышленники для автоматического создания сфабрикованных новостей. Сегодня большая часть дезинформации в Интернете подготовлена вручную, но по мере развития синтеза текста на естественном языке автоматическое создание пропагандистских публикаций и реалистичных фальсификаций будет активно расти. В частности, ученые создали Grover — модель для контролируемого создания текста, которая может синтезировать его по заголовку и наоборот. При этом эксперименты показали, что с точки зрения читателей пропагандистские тексты, созданные моделью, выглядят более достоверными, чем статьи аналогичного характера, написанные людьми. Казалось бы, тем самым показано, как можно создавать убедительные фейковые новости, однако этими же свойствами можно пользоваться для усиления модели: как отмечают ее создатели, лучшая защита от Grover — это сама Grover, так как она позволяет с точностью 92% отличать тексты, написанные человеком и компьютером. Помимо Grover опробован еще ряд генераторов новостей, подавляющее большинство текстов авторства которых вводили в заблуждение как реальных читателей, так и классификатор на основе нейронной сети, специально обученный обнаруживать фейковые новости. Тексты, созданные моделью GPT-3 — преемницей GPT-2, еще сильнее впечатляют своим сходством со статьями, написанными человеком.
Группа исследователей также пришла к выводу о том, что отличить реальные новости от фейковых очень сложно, например, достаточно добавить частицу «не» к сказуемому, и смысл предложения изменится на противоположный. Бороться с искажениями подобного рода можно путем изучения источника новости.
Распознавание социальных ботов
История распознавания вредоносных ботов началась в 2011 году. Параллельно с появлением первых систем обнаружения автоматизированных онлайн-профилей начали эволюционировать и социальные боты. Первые такие боты, появившиеся примерно в 2010 году, представляли собой простые профили с заметными признаками фальсификации. В последующие годы появлялись все более сложные боты, для которых разрабатывались механизмы обхода систем обнаружения. Сравнительные исследования позволили следить за этой эволюцией и заложить основы распознавания ботов с помощью вредоносного машинного обучения. Развитие ботов продолжается, сегодня они имитируют поведение людей гораздо лучше, чем когда-то.
После 2011 года были предложены решения для распознавания эволюционирующих ботов, основанные на алгоритмах обучения с учителем общего назначения. В рамках этих разработок предпринимались попытки выявления признаков, позволяющих обнаруживать более сложных ботов, однако предложенные тогда методы не выдержали проверку временем, уже вскоре прекратив приносить желаемые результаты.
Скачок развития средств обнаружения социальных ботов произошел в 2017 году — были предложены сразу несколько подходов к тестированию возможностей существующих детекторов с помощью искусственно созданных вредоносных образцов. Первыми такими образцами в рамках исследований стали несуществующие профили, чье поведение и характеристики имитировались путем моделирования. С помощью генетических алгоритмов авторы оптимизировали последовательности действий групп ботов так, чтобы они могли достигать поставленных целей и при этом неверно классифицировались в качестве профилей реальных людей. Была также создана модель глубинного обучения скрытым признакам, создававшая фальшивые записи, которые не распознавались детектором TIES от Facebook. Разрабатывались вредоносные образцы социальных ботов, специально предназначенных для оценки способностей различных детекторов. Эксперименты с такими образцами помогли выяснить слабые места существующих систем распознавания ботов и со временем улучшить их. Первые вредоносные образцы ботов, однако, имели большой недостаток — для синтеза ботов использовались узкоспециализированные решения. Часть из них была разработана для тестирования конкретных детекторов, а другие требовали участия человека и имели ограничения по масштабируемости и универсальности.
По мере осознания возможностей вредоносного машинного обучения появились подходы к распознаванию социальных ботов. Важным примером стала работа, авторы которой использовали генеративную состязательную сеть (generative adversarial network, GAN) для синтеза большого количества вредоносных образцов ботов, на которых исследователи обучали созданные ими детекторы. Выяснилось, что такой подход повышает эффективность обучения детектора и, соответственно, результативность его работы. Также GAN использовалась для создания репрезентаций пользователей-злоумышленников на основе данных добросовестных пользователей. Синтезированные репрезентации злоумышленников применялись для обучения классификатора, способного различать пользователей двух типов.
***
Точность работы обучаемых систем важна во многих ситуациях, будь то верное распознавание дорожного знака или обнаружение новости-фальшивки. Вредоносные образцы — входные данные, созданные для ввода в заблуждение обученной модели, также позволяют улучшать характеристики работы такой модели.
Изначально вредоносные образцы начали создавать для систем компьютерного зрения, но сегодня они находят применение и в других областях. В частности, подходы на основе вредоносных образцов используются для создания ложных новостей и фальшивых аккаунтов в социальных сетях, однако исследователи, изучая действия злоумышленников, используют полученные сведения для совершенствования обучаемых систем. Вместе с тем вне области компьютерного зрения таких исследований пока недостаточно, хотя растет число атак на базе вредоносного обучения.
Литература
1. T. Mitchell, Machine Learning. New York, NY, USA: McGraw-Hill, 1997.
2. I. J. Goodfellow, J. Shlens, C. Szegedy, Explaining and harnessing adversarial examples. In Proc. 3rd Int. Conf. Learn. Representations, 2015. [Онлайн]. URL: http://arxiv.org/abs/1412.6572
3. K. Eykholt et al. Robust physical-world attacks on deep learning visual classification. In Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2018, pp. 1625–1634.
Стефано Креши (s.cresci@iit.cnr.it) – научный сотрудник; Маринелла Петроччи (m.petrocchi@iit.cnr.it) – старший научный сотрудник, Институт информатики и телематики (Пиза); Анджело Споньярди (spognardi@di.uniroma1.it) – доцент, Университет Сапиенца (Рим); Стефано Тоньяцци (stefano.tognazzi@uni-konstanz.de) – научный сотрудник, Констанцский университет (Германия).
Stefano Cresci, Marinella Petrocchi, Angelo Spognardi, Stefano Tognazzi, Adversarial Machine Learning for Protecting Against Online Manipulation. IEEE Internet Computing, March/April 2022, IEEE Computer Society. All rights reserved. Reprinted with permission.