Инструменты искусственного интеллекта бросают вызов научным инструментам поиска истины
Использование инструментов искусственного интеллекта (ИИ) в науке стало предметом бурной полемики в академической прессе. За последний месяц в Nature были опубликованы статья «Как ChatGPT и другие инструменты искусственного интеллекта могут исказить систему научных публикаций» и собственный экспертный опрос «ИИ и наука: что думают 1600 исследователей».
Наряду с дежурным технооптимизмом в этих публикациях поставлены проблемы, ряд которых уже привели к организационным решениям в сфере научных публикаций. Самые авторитетные научные журналы ввели ограничения против использования инструментов искусственного интеллекта при подготовке статей: Science вообще перестал принимать статьи, написанные с помощью ИИ, а Nature требует авторов заявлять об его использовании при написании текстов.
«На мой взгляд, основная опасность не в том, что широкое использование инструментов искусственного интеллекта увеличит число статей, представляющих собой наспех приготовленные поделки низкого качества. В конце концов, это неважно: одним графоманом больше, одним меньше… Будет гораздо хуже, если при рецензировании статей и заявок на гранты будут использоваться большие языковые модели. Вот в этом случае будет искоренена всякая оригинальность в науке, будет наказываться любое отклонение от мейнстрима, — считает академик РАН, декан факультета фундаментальной физико-химической инженерии МГУ Алексей Хохлов. — Эта опасность подробно обсуждается в одной из статей в Nature, но предлагаемые меры борьбы с ней как-то не впечатляют. В целом складывается ощущение, что научное сообщество пока еще только нащупывает оптимальные ответы на те вызовы, которые возникают при широком использовании инструментов ИИ в научных исследованиях».
Не следует смешивать две темы, касающиеся использования нейросетей в науке. Первое — это использование инструментов искусственного интеллекта, созданных и обученных специально для решения какой-то научной проблемы. Здесь есть впечатляющие успехи и бурный рост числа публикаций. В части из них сравниваются разные компьютерные модели для решения задач — разной хитрости алгоритмы, разные модели компьютерного обучения и собственно нейронные сети. (Такие машины учатся на больших данных, результаты обучения записывают в форме связей между виртуальными «нейронами» — узлами сети и работают как «черный ящик» — как именно они решают задачи, неизвестно.) Тренд тут очевиден: благодаря прогрессу в вычислительных мощностях и оцифровке данных нейросетевые модели ИИ все чаще выигрывают и у формульных алгоритмов (решающих задачи согласно теории), у статистических методов, а также у других алгоритмов компьютерного обучения.
Самым впечатляющим примером успеха искусственного интеллекта науке остается результат, достигнутый в 2020 году нейросетевой моделью AlphaFold (потомок DeepMind), которая с потрясающей точностью решает одну из главных проблем молекулярной биологии — предсказывает 3D-структуру белков на основе кодирующих их генов. Программа выложена с открытым кодом, ею уже активно пользуются ученые. Это вещь очень практичная: зная структуру белка, вы можете понимать функции генов и направленно проектировать лекарства, которые имеют мишенью данный белок. Кроме того, с помощью ИИ уже открыто несколько перспективных лекарственных формул, предсказаны неизвестные ранее пути химического синтеза и многое другое.
Но в последнее время обсуждение инструментов искусственного интеллекта все чаще связано с выпуском в общий доступ ChatGPT и других больших генеративных языковых моделей (которые учатся на множестве текстов и сами их генерируют). Чат-бот ChatGPT и другие языковые модели респонденты-ученые в исследовании Nature называли чаще всего, когда их просили указать наиболее полезный пример инструментов ИИ в науке (AlphaFold идет на втором месте).
Стадия громкого успеха и роста ожиданий, связанных с разговорными и картиночными чатами, уже прошла, и даже стало проявляться некоторое разочарование их возможностями. Но при этом большие языковые модели прочно вошли в нашу жизнь, иногда несильно ее меняя (многие используют их просто как более удобный поисковик и для составления черновиков для рефератов), иногда значительно (программисты говорят о большой экономии времени при написании фрагментов кода).
Ученые из опроса Nature (были разосланы анкеты 40 тысячам исследователей, опубликовавших свои работы в последние четыре месяца прошлого года), используют чаты для поиска идей, написания кода, а некоторые пробуют их возможности для дизайна новых белковых структур, улучшения прогнозов погоды и постановки медицинских диагнозов.
Как минимум сейчас уже очевидно, что ChatGPT помогает писать научные статьи на более внятном английском тем, для кого этот язык не родной. «Использование инструментов искусственного интеллекта может сделать сферу науки более справедливой», — говорит Тацуя Амано, эколог японского происхождения из Университета Квинсленда (Брисбен, Австралия). Он опросил более 900 коллег-экологов и показал, что начинающие ученые с неродным английским тратят в два раза больше времени собственно на текст статьи, чем носители языка, что несправедливо. На этом основании он пытался оспорить решение редакции Science о запрете использования инструментов искусственного интеллекта при написании статьей, предложив вместо этого заявлять о его использовании и прикладывать вариант рукописи без машинной редактуры.
Нельзя сказать, что сферу программ для редактирования текстов на неродном языке радикально преобразовал именно ChatGPT, программы проверки не только грамматики и орфографии, но и стиля были и до этого, тем не менее ChatGPT дал доступное и универсальное решение, расширив круг тех, кто пытается оптимизировать свою работу над статьями с помощью программ.
И конечно, все общедоступные ИИ все чаще используются для поиска так или иначе структурированной профессиональной информации и реферирования. Так, респондент Nature радиолог из Медицинской школы Вашингтонского университета в Сиэтле Доменико Мастродикаса рассказал, что, когда он «зависает» во время написания статьи, он обращается к ChatGPT: «Я использую его как резонатор для идей, что позволяет написать статью гораздо быстрее». Опрос Nature показывает, что ученые, регулярно использующие искусственный интеллект для написания статей, рецензирования и подачи заявок на гранты, находятся в меньшинстве, многие ожидают, что скоро их будет большинство.
И тут возможны проблемы: одно дело использовать разговорные нейросети для подсказок, поиска фактов и ссылок, а другое дело перекладывать на них куски научной работы или анализа данных без перепроверки.
Доступность инструментов генеративного искусственного интеллекта может облегчить создание халтуры, которая стилистически выглядит похожей на настоящие статьи. Поэтому издатели научной литературы боятся растущих сложностей при рецензировании
В опросе Nature о возможных негативных последствиях использования инструментов ИИ 68% исследователей обеспокоились проблемой распространения дезинформации, столько же, 68%, полагали, что это облегчит плагиат и усложнит его обнаружение, а 66% — что в научные работы могут быть внесены ошибки или неточности. В интервью ученые еще более пессимистичны. «Основная проблема заключается в том, что ИИ бросает вызов нашим существующим стандартам доказательства и истины», — считает Джеффри Чан, изучающий анализ изображений в Лаборатории Джексона в Фармингтоне (США).
Похоже, что использование общедоступных разговорных чатов (а не специально созданных моделей) для финального анализа научных данных — плохая идея. Определенный резонанс в западном научном мире вызвала опубликованная на сайте препринтов статья группы американских авторов, в которой GPT-4 предлагала вероятные диагнозы и методы лечения на основе данных серии клинических испытаний. Обнаружилось, что рекомендации чата носят неправдоподобный и дискриминационный характер по расе и полу пациента: воспроизводя, например, расовые стереотипы, назначая более или менее дорогостоящее лечение в зависимости от цвета кожи пациента. Вероятно, модель добросовестно научилась на базах данных, но от искусственного помощника ждешь не воспроизводства неидеальных социальных практик, а объективно полезных пациенту рекомендаций.
Языковые модели всего лишь генерируют тексты в стиле и на основе образцов, в их ответах не предполагается наличие внутренней логики. Но в формальных языках (языках программирования или математических теорий) большие языковые модели часто дают верные результаты, которые тоже, впрочем надо проверять.
Но для работы в специальных областях нужно обучать модели искусственного интеллекта именно на соответствующих задаче базах данных. Общедоступные чаты, даже когда они дают правдоподобные результаты, конечно, не застрахованы от ошибок.
Популярность и доступность инструментов генеративного искусственного интеллекта может облегчить создание халтуры, которая стилистически выглядит похожей на настоящие статьи. Поэтому издатели научной литературы боятся растущих сложностей при рецензировании. Уже были скандалы, некоторые авторы научных работ использовали ChatGPT для написания статей, попытавшись скрыть это от рецензентов. В некоторых случаях ловить халтуру относительно легко: в текстах остаются фальшивые ссылки или метки, оставленные самим искусственным интеллектом, но авторы не всегда допускают такие явные ляпы.
«Генеративный искусственный интеллект — это автоматизированный плагиат», — говорит Ирис ван Рой, когнитивист из Университета Радбода в Неймегене (Нидерланды). Даже добросовестные исследователи могут использовать чужую интеллектуальную собственность, не зная об этом: информация и тезисы могут быть найдены чатом и не быть снабжены правильными ссылками на источник. А для производителей халтуры и плагиата разговорные модели дают больше возможностей избегать прямого воровства буквально совпадающих кусков текста (что ловится программами антиплагиата), получать результаты, чуть больше похожие на оригинальный текст.
Проблема авторских прав на новое научное знание встает и при использовании языковых моделей для облегчения написания рецензий на присланную в научное издательство новую работу — в результате эта работа сохранится в памяти общедоступного чата и ее куски могут всплыть при запросе других пользователей. Поэтому Национальный институт здравоохранения США и некоторые другие институции в разных странах уже запретили использование ChatGPT и других общедоступных инструментов для проведения экспертных оценок грантов из соображений конфиденциальности.
Издатели научной прессы хотели бы иметь возможность автоматически обнаруживать текст, созданный искусственным интеллектом, — и статьи, и рецензии. И для борьбы с халтурой и утечками логично использовать то же оружие — инструменты искусственного интеллекта. Американское издательство Wiley уже экспериментирует с генеративным искусственным интеллектом, который помогает проверять рукописи, выбирать рецензентов и верифицировать личности авторов.
Борьба с халтурой и плагиатом в научном мире ведется давно и частично выполняется добровольцами из научного сообщества. В России мы знаем проект «Диссернет», который использует программы поиска буквального совпадения текста без цитирования — плагиата. Похожую вещь с оригинальной методикой выявления квазинаучных статей придумали Гийом Кабанак и Сирил Лаббе (с ними взаимодействует и Александр Магазинов из «Яндекса»). Они выявляют странные фразы и тарабарщину — признаки автоматической генерации текста или двойного перевода для ухода от программ антиплагиата или генерирования наукоподобной речи. Они обнаружили, что в научных статьях иногда появляются англоязычные языковые монстры вроде «злокачественного бюста» (bosom malignancy) вместо рака груди, «солнечно-ориентированной силы» (sun oriented force) вместо солнечной энергии, «жуткого подземного ползучего государства» (uderground creepy crawly state) вместо колонии муравьев. Благодаря их активности и программе Problematic Paper Screener (сканер проблематичных статей) были уже отозваны сотни статей, в том числе из приличных научных журналов.
Но даже если автоматические средства проверки будут совершенствоваться, проблему этим не решить. И уж тем более невозможно переложить на плечи искусственного интеллекта проблему содержательного рецензирования.
Издательствам придется чаще проверять, действительно ли настоящий, живой автор стоит за тем, что написано в статье. Немецкое издательство EMBO Press уже сейчас требует от авторов использовать только действующие официальные электронные адреса своих институтов, а от сотрудников редакции — связываться с авторами по видеосвязи, рассказывает руководитель отдела научных публикаций Бернд Пульверер.
Генеративный искусственный интеллект — это автоматизированный плагиат. Даже добросовестные исследователи могут использовать чужую интеллектуальную собственность, информация и тезисы могут быть найдены чатом и не быть снабжены корректными ссылками
Но проблема халтуры все-таки несравнима с перспективами и возможностями, которые открывает искусственный интеллект. Да и халтуру-то главным образом делают люди, а не машины, и нередко это халтура добросовестная, когда исследователи не подозревают, что сделали плохо.
В октябре 2023 года в Nature вышла статья «Проверка воспроизводимости научных результатов: 246 биологов получили разные результаты на одних и тех же наборах данных». Авторы статьи разослали специалистам по экологии и эволюционной биологии два набора неопубликованных данных. Первый набор содержал измерения роста птенцов синички-лазоревки в зависимости от числа братьев и сестер, второй — данные о росте саженцев эвкалипта в зависимости от травяного покрова. В обоих случаях опрошенные ученые дали весь спектр возможных ответов. Это означает, в частности, что истину нельзя найти голосованием (даже ученых) и что, возможно, недостаточные данные или отсутствие компетенций для их анализа не удерживают ученых от того, чтобы делать выводы. И здесь открывается большой объем работы для специализированного искусственного интеллекта (очевидно, сделанного специально для науки). Объективная истина есть, и аккуратный анализ должен дать ответ, меньше ли вес синички, если у нее много братьев и сестер, или нет (или недостаточно данных), а также внятные ответы на другие, более сложные вопросы. Выводы ИИ надо будет проверять, но это лучше, чем постоянно полагаться на негодные статистические данные, проанализированные негодными методами многими живыми людьми, потому что меньшее число хороших специалистов не могут уследить за большим числом средних и нарастающим потоком халтуры. Плохая работа не выдерживает критики хорошим ученым, но с большой вероятностью не попадет к нему в руки.
Понятно, что эту задачу пока нельзя доверить общедоступным инструментам искусственного интеллекта «Но внутри каждой предметной области возможна определенная стандартизация обращения с большими данными, чтобы не получилось так, как это описано в упомянутой статье в Nature», — говорит академик Хохлов. И в этой задаче машина, очевидно могла бы быть точнее сотни ученых, если она хорошо научена анализировать большие данные конкретной области науки. Такие инструменты сейчас активно разрабатываются в разных лабораториях и применяются, например, на астрофизических и генетических данных.
Кроме того, работа ученых стала бы продуктивнее, в ней было бы больше человеческого, а не технического, если бы инструменты искусственного интеллекта могли бы делать обзоры новых публикаций в разных областях наук: отсеивая заведомо малоинтересное и обращая внимание людей на потенциально интересное в растущем потоке научных публикаций — никто из ученых уже не может следить за всеми публикациями даже в своей узкой области. Самый большой научный обзор, созданный людьми, включал около 1600 статей; очевидно, что искусственный интеллект мог бы проанализировать больше — весь объем данных по теме.
Некоторые научные издательства и базы данных (в том числе Scopus) уже используют искусственный интеллект для обзора статей по выбранной теме, но пока он просто делает текстовый мини-реферат статей, найденных обычным поиском. До задачи составления содержательного научного обзора разговорному ИИ еще далеко.