В битвах вокруг ИИ победят корпорации

Наталья Быкова
обозреватель «Монокль»
Александр Ивантер
первый заместитель главного редактора «Монокль»
26 ноября 2023, 14:18

Что создают в OpenAI и стоит ли этого бояться? Об этом — в интервью с экспертом по междисциплинарным исследованиям и стратегической аналитике, бывшим топ-менеджером IBM, SGI и Cray Research Сергеем Кареловым.

СТОЯН ВАСЕВ

— Самая обсуждаемая тема в свете событий с OpenAI, — обнаружение специалистами компании у своей модели новой когнитивной способности самостоятельно находить информацию, которой нет в ее базе данных. Поясните, пожалуйста, что это может быть за модель и как у нее получилось выйти за пределы знаний, сформированных на стадии ее обучения?

— Да, основная причина, из-за которой начался весь этот бардак, заключается в том, что был совершен прорыв в исследованиях в сторону сильного искусственного интеллекта. А поскольку условия соглашения Microsoft и OpenAI были таковы, что в случае приближения к подобным результатам все предыдущие соглашения должны пересматриваться, то фактически OpenAI получала право забрать у Microsoft последние рычаги управления. Чтобы избежать этого, была разыграна многосерийная интрига с увольнением, а потом возвращением Сэма Альтмана. В результате чего совет директоров был кардинально обновлен в пользу интересов Microsoft.

Что же касается прорыва, то здесь мы можем только строить предположения. Есть информация, что в главном сегодняшнем проекте компании под кодовым названием Q* (читается Q-Star) велись исследования по трем направлениям.

Первое — это как раз про способность модели не просто искать информацию во внешней базе данных, в том же интернете или корпоративных базах, но и целенаправленно формулировать вопросы. Это означает, что она не привязана на сто процентов к базам, на которых строилось ее обучение, — а это очень неординарный результат. Дело в том, что все модели создаются схожим образом: учатся по нескольку месяцев на огромных объемах информации, выстраивая свои матрицы весов, свои внутренние представления об этой информации. Далее с ними начинают работать аналитики, задают им вопросы, просят высказаться по определенной теме, а модели в ответ обращаются к вот этой сформированной на этапе обучения матрице и на этой основе формулируют ответ. То есть теоретически модель не может выйти за пределы того, чему научилась на этапе обучения.

Новым лингвоботам Claude-2 и Bing дали возможность прямого обращения в сеть, это, конечно, сильно расширило возможности подобных систем, но эти обращения совершались исключительно на базе тех запросов, которые писали лингвоботам люди. Например, если их спрашивали, какие были группировки североамериканских индейцев за год до начала Гражданской войны в США, то боты искали в сети информацию о группировках индейцев и Гражданской войне в США, не понимая сути вопроса.

А вот тот прорыв, о котором мы говорим, связан с принципиально новой способностью модели. Она начала искать ответы в сети на собственные содержательные вопросы, чтобы лучше разобраться в теме: к примеру, что лежало в основе разделения индейцев на группировки — идеология, борьба за территорию и так далее.

Второе направление, которое получило сильный прогресс, — это системы, подобные AlphaZero, обыгрывающей чемпионов в шахматы. Они работают по другим принципам, осуществляют поиск по деревьям Монте-Карло (эвристический алгоритм поиска для некоторых видов процессов принятия решений, в первую очередь тех, которые используются в программном обеспечении, играющем в настольные игры. — «Монокль»). Интеграция поиска траектории токена по дереву Монте-Карло (как в AlphaZero) с традиционными для больших языковых моделей матрицами весов может быть особенно эффективна в таких областях, как программирование и математика, где есть простой способ определить правильность. И это может объяснять утечки о прорывном улучшении в проекте Q* способностей решения математических задач.

Третье направление — это комбинация Q-обучения и алгоритма A*.

Алгоритм A* — это способ нахождения кратчайшего пути от одной точки до другой на карте или в сети. Представьте, что вы ищете самый быстрый маршрут из одного города в другой. Алгоритм A* проверяет разные пути, оценивая, насколько они близки к цели и сколько еще предстоит пройти. Он выбирает путь, который, по его оценке, будет самым коротким. Этот алгоритм очень эффективен и используется во многих областях, например в компьютерных играх для нахождения пути персонажей или в GPS-навигаторах.

Q-обучение — это метод обучения без учителя в области искусственного интеллекта, который используется для обучения программ принимать решения. Представьте, что вы учите робота находить выход из лабиринта. Вместо того чтобы прямо говорить ему, куда идти, вы оцениваете его действия, давая баллы за хорошие шаги и снимая за плохие. Со временем робот учится выбирать пути, приводящие к большему количеству баллов. Это и есть Q-обучение — метод, помогающий программам самостоятельно учиться на своем опыте.

Насколько мне известно, синергия продвижения по всем этим трем направлениям способствовала критическому прорыву к сильному ИИ, когда модели переходят от простого перебора статистики к динамическим рассуждениям.

— Сохраняется ли возможность контролировать и модерировать настолько совершенные системы искусственного интеллекта?

— Вы знаете, такие понятия, как «контролировать» и «модерировать», сегодня уже не используются, они были в ходу десять лет назад. Даже ChatGPT представляет собой не просто большую языковую модель, как это обычно представляют журналисты, а несколько моделей, соединенных очень сложными алгоритмами. Эта система давно работает не в таком элементарном пинг-понге, как «вопрос — ответ». Там идет довольно сложный диалог с обеих сторон, используются десятки разных методик для генерации текста, чтобы была эффективной работа вот этого нечеловеческого разума. Это уже слишком сложный процесс, чтобы им вот так просто можно было управлять. Единственный действенный метод контроля над этой штукой, который остается у человека, —просто выключить компьютер из розетки. Хотя щелкнуть рубильником, может, тоже будет недостаточно. Все уже погружено в глобальную сеть, которая, по сути, превратилась в инфосферу Земли.

Система могла уже скопировать себя миллион раз на другие дата-центры, и вы даже не узнаете, что она может предпринять. Это, конечно, напоминает идиотские пугалки Голливуда, но надо признать, что сложность подобных коммуникаций заключается не в том смешном диалоге, который ведут сотни миллионов пользователей с чат-ботом GPT. Их будут использовать для нахождения новых формул какой-нибудь генетической корректировки или решения других сложных задач.

Что эта многоэтапная и многозвенная система при этом посчитает правильным и нужным сделать — большой вопрос. Она не имеет никаких моральных ограничений и может предпринять любой шаг, который может оказаться даже фатальным, если не для человечества, то по крайней мере для тех, кто перед ней ставил задачи.

— А в какой точке мы сейчас находимся: системы ИИ уже вырвались на свободу и получили полную независимость от человека или все же остаются возможности их сдерживать и направлять?

— Я вам приведу такой понятный пример. Контролировать трехлетнего ребенка достаточно просто, семилетнего уже сложнее, двенадцатилетнего еще сложнее, а шестнадцатилетнего зачастую просто невозможно. Поэтому когда ИИ имеет пространство возможностей, соразмерное трехлетнему ребёнку, — это один сценарий. Ребенок может закричать, побежать, расплакаться, обидеться, в любом случае в его арсенале лишь несколько десятков линий поведения. Взрослый ребенок может придумать весьма хитрую стратегию, в результате которой он просто вас обманет не сейчас, а через три дня или тридцать дней.

В случае с ребенком мы говорим, что да, увы, дети растут, мы уже не можем ими управлять, но главное — привить им правильные моральные качества, представления о добре и зле и понадеяться на то, что все это понимая и принимая, ребенок не нанесет вреда себе, нам и окружающим. Отношения с системами искусственного интеллекта становятся ровно такими же, как с ребенком, который растет, только не по годам, а по неделям. Но поскольку мы пока не знаем, каким образом можно вложить в него (и можно ли вообще это сделать) вот эти понятия добра и зла, то мы оказываемся в совершенно дикой ситуации. Она заключается в том, что этот наш «ребенок» — очень витиеватый инструмент с десятками тысяч степеней свободы, проконтролировать которые в принципе невозможно, и это все становится очень опасно.

— Если продолжить аналогию с детьми, сколько лет нашим сегодняшним самым совершенным системам искусственного интеллекта?

— Про детей это, конечно, художественная метафора. Но если ее продолжать, мое ощущение как эксперта, что ИИ, который мы имеем сегодня, еще вполне маленький ребенок, трех или, может, семи лет, но вся проблема в том, что он растет с колоссальной скоростью.

— Насколько быстро мы достигнем технологической сингулярности, к которой нас неизбежно ведут события с бурным развитием ИИ?

— Под сингулярностью мы подразумеваем точку, когда рост функции становится настолько быстрым, что будет невозможно предсказать ни то, как дальше будет меняться скорость роста, ни то, какие события произойдут при возрастании этой функции, когда сам ход развития некоего процесса становится чрезвычайно непредсказуем. Думаю, что мы уже вошли в эту зону и в ней плывем. Человечество уже не успевает реагировать на новые события, которые происходят в инфосфере.

— В технологической индустрии есть Илон Маск и другие влиятельные люди, которые призывают не выпускать на свободу ИИ или, по крайней мере, остановить его развитие на несколько лет. Насколько сегодня велико влияние сдерживающих факторов — со стороны общества, государства?

— Все государства начинают понимать опасность и пытаются что-то делать. Но делают с таким запаздыванием и с таким непониманием, что особо на это полагаться я бы не стал. Сейчас в основном идет борьба трех групп — это богатые технооптимисты, рьяные думеры и крупные корпорации. Мне кажется, среди этих акторов в итоге выиграют корпорации, потому как у них больше денег и влияния и до сих пор в мире они представляли собой самую значительную силу, мотивируемую предельно конкретной целевой функцией — максимизация своей прибыли.

Государствам совершенно точно нужно ускоряться в вопросах регулирования сферы ИИ и при этом принимать верные решения. Это значит, что они должны как минимум признать, что ситуация абсолютно критическая и качественное управление здесь должно быть очень высоким приоритетом.

Из государств в этой ситуации, пожалуй, выиграют более авторитарные режимы типа китайского, потому, что Китай действует более быстро, на упреждение принимая законы по ИИ и жестко отслеживая их выполнение.