Роботы против фейков

Заур Мамедьяров
к.э.н., заведующий сектором экономики науки и инноваций ИМЭМО РАН
16 июля 2018, 00:00

ИТ-гиганты ищут способы фильтрации фальшивых новостей. Растет спрос на специалистов в сфере компьютерной лингвистики и искусственного интеллекта

Читайте Monocle.ru в

Недавно в русскоязычном сегменте Facebook разразился скандал: сотрудница известной компании опубликовала пост, в котором утверждалось, что российские футбольные фанаты жестоко убили девушку. Довольно быстро выяснилось, что эта история — фейк (англ. fake «фальшивка»): праздновавшие победу над Испанией футбольные фанаты к гибели девушки никакого отношения не имели. То, как легко многие поверили недостоверной информации, показывает, что фейки отлично умеют маскироваться под настоящие новости и способны будоражить общество.

Легкость и бесплатность распространения информации привели к ее избытку и усложнили фильтрацию. Помочь решить проблему могут новейшие технологии обработки данных. Гиганты ИТ-отрасли запустили проекты, которые позволят пользователям отличать достоверную информацию от fake news и публикаций, распространяемых ботами. В арсенале компаний — специальные алгоритмы, выявляющие фейки, контекстный и семантический анализ, использование искусственного интеллекта для выявления лжи.

Пока наиболее распространенным методом выявления фейков остается ручной труд. Функции роботов выполняют люди: например, в Facebook для анализа контента используют жалобы на сообщения как от рядовых пользователей, так и от специально нанятых сотрудников, и снижают приоритет показа «плохих» сообщений в новостной ленте. Для этого требуется большое число сотрудников, просматривающих сообщения, и Facebook запустил программу проверки фактов, заключив партнерства со сторонними компаниями, которые предоставляют такие услуги. Контент Facebook контролируют более пятнадцати тысяч человек, к концу года планируется привлечь еще пять тысяч. В прошлом месяце представители Facebook заявили, что за два года программа позволила сократить число фейков на 80%, а в ближайшее время ее расширят еще на 14 стран. Впрочем, скептики указывают, что реальная причина распространения фейков не решается, потому что компании невыгодно мешать росту трафика, который приносит рекламную прибыль.

Тесса Лайонс, менеджер Facebook, недавно признала, что без технологий не обойтись и в компании начинают исследовать возможности решения проблем с помощью машинного обучения. В начале июля Facebook купил британский стартап Bloomsbury AI; по оценкам аналитиков TechCrunch, сумма сделки составила около 30 млн долларов. Главная компетенция Bloomsbury AI как раз в технологиях обработки естественного языка, и Facebook вступил в борьбу за редких специалистов в этой области.

Впрочем, эксперты Массачусетского технологического института (МТИ) указывают на три технологические проблемы, без решения которых реального прогресса в автоматическом противодействии фальшивкам и оскорблениям в Сети не достичь. Две проблемы связаны с колоссальной сложностью естественного языка. Во-первых, алгоритмы пока еще очень плохо улавливают смысл слов, а в случае с фейками это важно. Во-вторых, даже если проблема выявления смыслов сдвинется с места, сразу же появятся технологии, которые будут обманывать алгоритмы, настроенные на поиск недостоверной информации, и эти алгоритмы придется переделывать. Возникнет ситуация гонки вооружений. Третья проблема — видео, которое приобретает все большую роль в информационном пространстве. Машинное понимание видео развито очень слабо, и эксперты MИТ полагают, что основные проблемы в ближайшие годы придут как раз со стороны фейковых видеоматериалов.

 

Интеллектуальный анализ текстов позволяет отслеживать тенденции в изменениях их содержания. Показан результат анализа ежегодных посланий президентов США за период 1790–2014 гг. 42-02.jpg
Интеллектуальный анализ текстов позволяет отслеживать тенденции в изменениях их содержания. Показан результат анализа ежегодных посланий президентов США за период 1790–2014 гг.

Фейки и Трамп

Исследователь из Стэнфордского университета Кумар Шриджан в своей недавней работе предлагает отличать фальшивые новости от ошибок, сплетен, фальшивых отзывов и мистификаций. Под fake news, по мнению ученого, следует понимать классическую дезинформацию, когда автор сообщения намеренно вводит аудиторию в заблуждение для достижения политических, пропагандистских или иных целей. Однако в эпоху интернета понятие fake news можно расширить и включить в него любую недостоверную информацию, маскирующуюся под проверенный новостной повод.

В Pew Research Center, американском исследовательском центре, занимающимся социальными вопросами, отмечают, что активное распространение фейков становится следствием поляризации общества. Самая поляризующая общество тема, конечно, политика, и fake news чаще всего имеют политическую окраску. Но это же происходит и в вопросах здравоохранения, биржевых котировок, криптовалют, проблемы ГМО.

По данным Pew Research Center, в первый год президентства Дональда Трампа градус разногласий между республиканцами и демократами по десяти ключевым политическим и социальным вопросам (расовые и иммиграционные проблемы, национальная безопасность, экология) достиг рекордного уровня. Растет неприязнь представителей партий США друг к другу: если в 1994 году только 16% демократов относились к Республиканской партии резко отрицательно, то к 2017 году этот показатель вырос до 44%. Аналогичным образом ухудшилось и отношение республиканцев к Демократической партии.

В ходе предвыборной гонки противостояние двух главных американских партий вылилось в бесконечный поток fake news как с одной, так и с другой стороны. Исследователи подсчитали, что в последние недели предвыборной кампании в США в 2016 году более четверти взрослых американцев заходили на сайты, намеренно и регулярно публиковавшие fake news с агитацией за Трампа или Хиллари Клинтон. Более того, во время американской предвыборной кампании топ-20 fake news в Facebook оказались совокупно более популярны, чем топ-20 реальных историй (фейки собрали 8,7 млн откликов пользователей, а настоящие новости — 7,3 млн).

Во всем виноваты технологии

После победы Трампа в ведущих западных научных журналах стали появляться статьи, в которых авторы попытались объяснить причины распространения фальшивых новостей, а также оценить возможности противодействия им. Исследования механизмов распространения фейков ведут ученые из Стэнфордского университета, Йеля, MТИ и университета Карнеги—Меллона. Так, Гордон Пенникук и Дэвид Рэнд из Йеля утверждают, что главная причина проблемы — леность мышления современной аудитории, которая зачастую критически не осмысливает поступающую к ней информацию. Эксперименты показывают, что люди довольно легко верят фальшивой информации, даже если она была создана без участия человека.

Другая причина — эффект эхо-камеры. Люди предпочитают верить той информации, которая соответствует их убеждениям, и в социальных сетях чаще окружают себя теми, кто разделяет их взгляды, при этом толерантность к противоположным мнениям резко уменьшается. Система лайков ведет к гомогенизации социальной сети, где альтернативные мнения не приветствуются и создается среда для приятия только идеологически подходящего содержания. Несогласные же приобретают статус противостоящей стороны и образуют «вражеский» информационный лагерь.

Онур Варол и его коллеги из Университета Индианы в Блумингтоне выяснили, что особенно быстро лживая информация распространяется в сети Twitter. При этом выделяют два типа распространения. Представим, что одно и то же сообщение получило более тысячи ретвитов. В одном случае его опубликовал известный человек с большим числом подписчиков, и тысяча пользователей сделала ретвит. При этом дальше сообщение не ретвитили — так бывает, если оно интересно только подписчикам человека. Такое сообщение характеризуется большой широтой проникновения, но малой глубиной. В другом случае сообщение малоизвестного человека получило десять ретвитов от друзей, а затем подписчики каждого из них продолжили делать ретвиты. Так может набраться та же тысяча, но глубина проникновения новости существенно выше. Фейки характеризуются тем, что одновременно обладают очень большой глубиной и шириной.

Еще до избрания Трампа при помощи компьютерных методов другие ученые из Университета Индианы, Майкл Коновер и Джейкоб Раткевич, исследовали 250 тыс. твитов (от 45 тыс. пользователей), содержащих политически окрашенные хештеги. Ученые выявили разную роль двух типов взаимодействия в Twitter: ретвит сообщения и упоминание другого пользователя, — эти взаимодействия рождают совершенно разные структуры (разные сетевые топологии). Если, например, провести анализ политических предпочтений участников Сети и построить граф (где узлы могут быть, например, сообщениями той или иной политической окраски) с использованием силовых алгоритмов, то сеть превратится в набор отстоящих друг от друга плотных клубков. Силовые алгоритмы моделируют силу притяжения и отталкивания между узлами (например, если узлом является сообщение, то на основе частоты ретвитов) и дают картину, в которой наиболее близкие по смыслу, содержанию или частоте упоминаний узлы находятся рядом, а другие отстоят чуть дальше.

В работе Коновера и Раткевича ретвиты дают два плотных, но отделенных друг от друга сообщества. Это феномен политической поляризации — пользователи делают ретвиты только тех, чья идеология им близка. Сетевая топология упоминаний других пользователей совершенно иная — здесь присутствует один плотный массив связей: пользователи, желающие обсуждать и взаимодействовать, обращаются к различным по содержанию твитам в равной степени. Авторы исследования делают вывод, что именно общение в комментариях и упоминания друг друга позволяют пользователям увидеть информацию, которую они рассматривают как нежелательную, что становится сдерживающим рост поляризации фактором.

 

Две особенности сети Twitter 42
Две особенности сети Twitter

«Цифра» против фейков

Ведущие компании меняют свои продукты, чтобы противостоять фейкам. Например, с fake news начал бороться WhatsApp, групповые чаты которого являются отличной средой для распространения фейковых новостей (особенно серьезная ситуация сложилась в Индии, где из-за распространяемых через WhatsApp фейковых сообщений о похищениях детей толпа линчевала нескольких жителей страны). Недавно WhatsApp представил новую функцию: теперь приложение автоматически будет переходить по всем пересылаемым в групповых чатах ссылкам, чтобы проверить, насколько можно верить источнику информации. Если приложение посчитает информацию недостоверной, сообщение будет отмечено красным значком «подозрительная ссылка», чтобы пользователи знали, каким новостям верить не стоит.

Компания Eyeo (создатель блокировщика рекламы Adblock) запустила расширение для Google Chrome под названием Trusted News. Разработчики проанализировали контент множества сайтов и составили их подробную классификацию. Расширение, пока работающее в бета-версии, отмечает сайт зеленым значком, если информации можно верить, желтым — если информация политически предвзятая, синим — если сайт представляет собой сатирический ресурс, в шутку распространяющий выдуманные новости.

Учитывая мультиканальность современных медиа, фейки распространяются не только в виде текстовой информации, но и в виде фотографий. Компания Adobe изучает технические возможности распознавания сфабрикованных фотографий: недавно компания опубликовала результаты исследовательской работы о том, как машинное обучение может обнаруживать фейковые фото. Исследовательская группа Adobe рассмотрела три основных способа манипуляции изображениями: копирование фрагментов оригинальной фотографии и вставка их в другое изображение, копирование и перемещение фрагментов в пределах одного изображения и удаление фрагментов изображения с последующей ретушью. В рамках исследования Adobe учила ИИ анализировать цветовой баланс и шумы изображения, чтобы обнаруживать фрагменты фото, которые подверглись ретуши.

Facebook тоже привлек ученых к исследованию феномена fake news и методов борьбы с ними: компания открыла данные со своих серверов исследователям, входящим в организацию Social Science One. Ученые получат доступ к петабайту данных: множеству постов на Facebook, среди которых есть и ссылки на фейковые новости. Исследователи смогут увидеть возраст, пол, политические взгляды, историю перехода по другим ссылкам всех, кто публиковал, лайкал и репостил эти публикации.

Особенно масштабную борьбу с фейками предпринял Google, который в марте этого года запустил программу Google News Initiative, призванную бороться с фейками и ботами. Всего на программу, рассчитанную на три года, Google выделил 300 млн долларов. Программа включает в себя несколько проектов. Например, проект Disinfo Lab (проводится совместно с программой Гарварда First Draft) призван бороться с дезинформацией во время выборов и в режиме breaking news: с помощью машинного обучения сервис будет определять ненадежные источники информации и исключать их из новостной выдачи.

Появляются и совместные волонтерские проекты исследователей и разработчиков из различных компаний — например, Fake News Challenge, который объединил сто волонтеров. Организаторы проекта устроили конкурс на разработку инструментов противостояния fake news. Участники Fake News Challenge разбили задачу выявления фейковых новостей на части: на первом этапе конкурса они создавали инструменты, позволяющие определять, насколько заголовок соответствует содержанию новости.

Одной из перспективных технологий, способной помочь в решении проблемы, является интеллектуальный анализ текста (text mining) — совокупность методов количественного и качественного анализа данных. Интеллектуальный анализ текста включает в себя методы машинного обучения, прикладной статистики и информационного поиска. Например, в понятие интеллектуального анализа текста включается технология поиска по ключевым словам, которая позволяет проанализировать частоту появления определенных слов в тексте. Соответствующие методы относятся к частным случаям анализа данных (data mining). Технологии позволяют выявлять закономерности и связи в текстовых массивах данных, разделять фрагменты текстов по категориям — среди прочего ученые могут создать каталог характерных для фейковых новостей черт (например, слова, носящие эмоциональную окраску) и на их основании отделять фейковую информацию от достоверной. Другие подходы включают в себя предиктивные модели: они присваивают новости положительные или отрицательные коэффициенты, по которым можно определять вероятность того, что история правдива.

Любопытно исследование Эликса Рула и его коллег из Колумбийского университета. Авторы провели машинный анализ содержания всех ежегодных посланий «О положении страны» президентов США за период с 1790 по 2014 год — это 228 посланий общим объемом более 1,7 млн слов. Ученые создали семантическую сеть на основании частоты совместного появления тех или иных слов в послании и разделили соответствующие слова на категории («преступность», «иммиграция», «флот» и проч.). Результаты показали как близость тем всех посланий, так и выпадение из дискурса одних тем и возникновение других. Подобные исследования гораздо больших массивов онлайн-данных не за горами, и рост вычислительных мощностей крупнейших корпораций откроет новые возможности для манипулирования информацией и политтехнологий.

Постправда

Главный редактор RT Маргарита Симоньян, выступая на Международном конгрессе по кибербезопасности, высказала опасения, что в ближайшем будущем технологии сделают fake news неотличимыми от правды. В качестве примера Симоньян привела фейковую новость о применении химического оружия в Сирии, распространенную организацией «Белые каски». Она подчеркнула, что в будущем нельзя будет доверять даже видеоматериалам, поскольку технологии смогут создать полную иллюзию достоверности.

В 2016 году редакция Оксфордского словаря объявила словом года термин «постправда». Слово описывает обстоятельства, когда при распространении информации эмоции и личные мнения важнее, нежели объективные факты. По мнению профессора Техасского университета Кэтлин Хиггинс, этот термин отлично характеризует состояние современного информационного пространства. Она подчеркивает, что сегодня общество легко верит фейковым новостям, политической пропаганде и ложным обещаниям политиков. Но так было не всегда: например, во времена Ричарда Никсона американцы крайне негативно воспринимали дезинформацию.

Как ни парадоксально, СМИ, которые, казалось бы, должны бороться с fake news, часто сами способствуют распространению фальшивок. Во многих новостных онлайн-изданиях существует правило: на написание новости у корреспондента должно уходить не более десяти минут, если новость срочная — не более пяти. Сайты фейковых новостей и непроверенные источники вроде соцсетей еще больше распыляют внимание журналистов. Появляются и сатирические издания, которые публикуют фейки в шутку: например, американский The Onion или российская «Панорама». Такие медиа специально указывают, что публикуемая ими информация — выдумка. И все же новостные издания часто не замечают этого и со всей серьезностью публикуют выдуманные сатирические новости, появившиеся на The Onion и «Панораме».

Одними только силами роботов, с помощью машинного обучения натренированных на распознавание сомнительных источников информации, в борьбе с фейками не обойтись. Даже ИТ-гиганты признают, что в распространении fake news крайне важен человеческий фактор. В Google News Initiative большое внимание уделяется обучению пользователей самостоятельно распознавать фейки. Вместе с Институтом Пойнтера, Стэнфордским университетом и Local Media Association Google запустил проект MediaWise, в который инвестировал три миллиона долларов. Проект представляет собой учебную программу для подростков: школьников и студентов будут учить самостоятельно определять подлинность информации в интернете. В рамках программы подростки будут работать вместе с профессиональными журналистами: ученики будут тренироваться в умении отличать в интернете правду от вымысла, а результаты их исследований будут опубликованы на различных сайтах и в социальных сетях. Институт Пойнтера планирует, что в программе примет участие один миллион подростков.