Искусственный интеллект в литературе, живописи, музыке и кино: идеальный подмастерье

Вячеслав Суриков
редактор отдела культура «Монокль»
25 декабря 2023, 00:00
№3

Как технологии могут изменить различные виды искусств

НЕЙРОСЕТЬ MIDJOURNEY
Нейросеть Midjourney открыта для широкого круга пользователей с 12 июля 2022 года
Читайте Monocle.ru в

ChatGPT, созданный компанией OpenAI и появившийся всего год назад, еще не успел преобразить информационную реальность, но ему удалось сделать очевидной необратимость ее изменений. Он продемонстрировал, насколько еще высок процент рутинных, неэффективно тратящих человеческое время процессов даже в существующей и, казалось бы, такой удобной цифровой среде. А если вспомнить, что в не столь далеком XX веке было нормой потратить день на поход в общественную библиотеку, чтобы получить доступ к неэксклюзивному, но по каким-то причинам недоступному печатному источнику информации, то степень изменений станет еще более очевидной. Искусственный интеллект, еще совсем недавно похожий на ребенка, который учится говорить и совершает нелепые ошибки на каждом шагу, наконец не просто освоил человеческую речь, но научился читать и писать на уровне, позволяющем высвободить колоссальные ресурсы человеческой цивилизации, до сих пор растрачивающей свой творческий и интеллектуальный потенциал по мелочам.

Читка

Один из самых очевидных прорывов произошел в области преобразования печатного текста в звук. Восприятие значительного количества текстов в звуке (процент книг, которые выходят одновременно в печатной и в аудиоверсии, с каждым годом увеличивается) уже революция. Но запись книги остается по-прежнему трудоемким и дорогостоящим процессом. И затраты на него не всегда себя оправдывают. В этом случае важен еще один нюанс: голос и манера чтения часто устраивают не всех читателей. Если чтец слишком выразителен, слишком индивидуален, это может скорее оттолкнуть массового слушателя. Идеальный чтец должен не разыгрывать перед ним спектакль, а стать голосом внутри его головы. И здесь у нейросетевых технологий свои преимущества. Если поддержание единообразия интонации на протяжении многочасовой читки требует от чтеца усилий, то для программ по синтезу речи это само собой разумеется. При этом они смогли научиться тому, что умеет далеко не каждый человек: правильно интонировать при чтении текста.

Программы синтеза речи не отменяют читку человеком — они резко расширяют круг литературы, доступной в аудиоформате, тем самым предоставляя выбор: читать или слушать. У каждого способа восприятия текста свои преимущества. В свою очередь, у каждого человека свои особенности восприятия текстов: кому-то проще читать, кому-то — воспринимать на слух. Ожидания от будущего — более точное интонирование (и здесь совершенству нет предела), а также возможность выбирать наиболее комфортный для себя голос, которым книга прочитана. Пока эта опция недоступна. Но очевидно, что в будущем она станет одним из преимуществ программ по преобразованию текстов в звук. Читка человеком станет эксклюзивной и дорогостоящей. Пока трудно себе представить, что в чтении художественных текстов, где требуется передавать эмоции, можно будет без него обойтись. И все же сомневаться не приходится: технологии будут неуклонно двигаться и в эту сторону и рано или поздно позволят оцифровать человеческие эмоции, пусть и частично.

Тексты

Написание текстов никогда не было исключительно авторской работой. Более того, фигура автора возникла не так давно, и уже в прошлом веке Ролан Барт провозгласил его символическую смерть, утверждая, что текст — это всего лишь «ткань из цитат». Таким он образом он сформулировал суть механизма, лежащего в основе генеративного искусственного интеллекта. Он не вытесняет автора, а наоборот, занимает свое место, до сих пор занятое автором, который был вынужден выполнять несвойственную ему работу: ткать «ткань из цитат». Особенно это очевидно в индустрии новостей, где есть несколько источников, иногда всего один, и многочисленные пересказы полученной от него информации. Их многочисленность во многом определяется вкусовыми предпочтениями аудитории: информация одна и та же, но ее интерпретация и подача могут быть индивидуальными. Однако набор этих интерпретаций не бесконечен, и он тоже может быть оцифрован в соответствии с запросами читателя. В итоге тот получит возможность настроить робота — рассказчика новостей в полном соответствии с собственными индивидуальными потребностям — свое альтер эго.

Насчет художественных текстов тоже не может быть иллюзий: абсолютное большинство из уже написанных тестов лишены яркой индивидуальности, это все та же «ткань из цитат». Практика использовать подмастерьев в литературе возникла в тот самый момент, когда тексты стали продаваться и приносить писателям ощутимый доход. Самый известный автор, не чурающийся задействовать в своем творчестве давние аналоги ChatGPT, — Александр Дюма. Несмотря на то что самые известные его произведения, такие как «Три мушкетера», «Графиня де Монсоро» и «Виконт де Бражелон», были написаны вместе с Огюстом Маке, и это общеизвестный факт, никто не оспаривает авторство Дюма. Он затмевает собой Маке, которому в их дуэте была отведена роль ChatGPT. Сейчас ChatGPT скорее выступает для авторов в роли Огюста Маке, беря на себя черную работу, а иногда всего лишь избавляя от страха чистого листа и давая автору, оказавшемуся в тупике, творческий импульс. В будущем каждому человеку станет доступно написание книги, в которой он сможет рассказать свою личную историю или ту, что возникла в его воображении. Чтобы ее написать, ему понадобятся не годы, а лишь несколько дней, бóльшая часть которых уйдет на редактирование текста, а не на его создание.

Чтение

Чтение — такая же разновидность творческого процесса, как и написание текста. Совсем недавно можно было, хотя и не без труда, в обозримый срок прочитать бóльшую часть текстов, написанных лучшими умами человечества. Еще раньше человек мог дерзнуть впитать в себя всю сумму накопленных знаний. Теперь это невозможно. Перед современным человеком стоит другая проблема. Ему приходится тратить колоссальное количество времени на выбор знаний, которые важны именно для него и именно сейчас. И это то, в чем ему может помочь искусственный интеллект. Когда ChatGPT отвечает на запрос пользователя о чем бы то ни было, он как раз и предоставляет набор знаний, требующийся тому в данное время. В диалоге с искусственным интеллектом важно правильно сформулировать запрос. На это и должны быть направлены творческие и интеллектуальные усилия.

Одна из ближайших задач, которые предстоит решить с помощью нейросетевых технологий, — качественный и доступный перевод художественных текстов. У читателя из любой страны существуют слепые зоны в области мировой литературы. Он по-прежнему ориентируется на общедоступные тексты, которые либо изначально написаны на его родном языке, либо переведены на него. Расширение возможностей машинного перевода уже сейчас сделало доступными большинство публикуемых в медиа текстов. Они еще не в состоянии воспроизвести авторскую интонацию, но информационную составляющую уже не искажают. Любому человеку не хватит жизни, чтобы выучить все действующие пять тысяч с лишним языков, но для машин это всего лишь вопрос времени. Это позволит резко расширить границы научных исследований и обобщения знаний, накопленных цивилизацией, и в конечном счете сделать интеллектуальный опыт, который получает человек в течение жизни, уникальным.

Изображения

Изобразительные искусство — это еще одна область, куда чуть более года назад успешно вторглись нейросетевые технологии. Уровень изображений, которого смогли достичь создатели Midjourney, кажется фантастическим. Написание картины до сих пор оставалось сложным процессом, требующим множества технологических навыков, например умения натягивать холст на подрамник и смешивать краски. Чтобы научиться создавать качественное изображение красками на холсте, требуются несколько лет интенсивного обучения. В современной системе образования полный цикл обучения искусству создавать изображения может занимать до десяти лет жизни. Но годы, потраченные на изучение этого вида искусства, не гарантируют человеку, что он станет признанным художником, чьи произведения высоко ценятся и хорошо продаются на арт-рынке. Для этого потребуются еще десятки лет усилий с непредсказуемым результатом.

Пока у Midjourney, как и у других нейросетей, создающих изображения по текстовым запросам, получается не все. Например, им с трудом даются реалистичные изображения человеческих рук и многофигурные композиции. Но эти недостатки меркнут на фоне уже достигнутого. Нейросети хорошо справляются с лицами, человеческий фигурами и с изображением любых предметов. Они возвращают художника к его изначальной миссии. Он прежде всего создатель образов, а не тот, кто владеет различными техниками написания изображений. Умение создать реалистичное изображение кистью и красками обесценилось, когда появилась фотография. Это позволило живописи свободно погрузиться в мир невидимого — тех образов реальности, которые люди не в состоянии зафиксировать одним нажатием кнопки. Теперь изобразительное искусство выходит на новый этап. Каждый может создать нужный ему визуальный образ за считаные минуты. Так же как и появление фотографии, это не обесценит индивидуальное мастерство, а наоборот, повысит его в цене.

Музыка

Музыка еще больше, чем тексты, тяготеет к «смерти автора». Современная музыкальная индустрия, производящая неимоверное количество музыки, концентрируется вокруг имен, уже сумевших заполучить репутацию в отрасли. Сейчас востребованный композитор, как правило, объединяет вокруг себя группу людей, которые помогают ему реализовать сложный, кропотливый процесс создания музыки. Эти люди могут даже генерировать музыкальные идеи, но, как и Огюст Маке, пребывают в тени главного автора. Выйти из этой тени и остаться в индустрии — шанс, который дается далеко не каждому. Нейросетевые технологии позволят композитору сосредоточиться на самой музыке, а не на технологии ее создания, записи и воспроизведения. Он сможет пробовать все больше вариаций ее звучания и в конечном счете сделать ее более совершенной.

Но самое привлекательное в этих технологиях, как и в технологиях создания изображений, то, что каждый сможет написать свою музыку и даже представить ее широкому кругу слушателей, минуя длительный и сложный процесс обучения. Он, как и в изобразительном искусстве, длится около десяти лет и тоже с непредсказуемым результатом. Композитор, работающий в академическом жанре, может даже написать музыку, но, если ему не удастся уговорить какой-нибудь оркестр сыграть ее, она так и останется никем не услышанной. Качественное воспроизведение уже написанной музыки — это еще одна из задач, которую легко решить с помощью нейросетевых технологий. Человеку будущего не нужно будет посвящать свою жизнь только одному из искусств. Он сможет попробовать себя в чем угодно. Ожидаемый эффект — опыт взаимодействия с различными видами искусства — может вывести индивидуальное творчество на новый, до сих пор недосягаемый уровень.

Кино

Кинематограф — наиболее трудоемкий и дорогостоящий из всех видов искусства. Это часто вынуждает кинематографистов ориентироваться на как можно более массовую аудиторию, иначе фильм не окупится в прокате. Область экспериментов в кино всегда ограничена. Цифровые технологии значительно расширили ее. Они позволили кинематографу еще глубже погрузиться в фантастическую реальность. Процесс создания фильма стал более совершенным, предсказуемым и менее затратным по времени. Нейросетевые технологии, в свою очередь, позволят кинематографистам отпустить свое воображение еще дальше. Они же смогут сделать «путешествия в прошлое» менее затратными. Кинематографисты по-прежнему ограничены в выборе локаций для съемок, но со временем им станет все проще корректировать зафиксированное камерой изображение. Возможно, когда-нибудь им будет достаточно включить режим обработки под требуемый исторический период и нейросети автоматически сделают изображение более убедительным.

Но самая интригующая и уже получившая распространение технология — это deepfake. Кинематографисты в связи с ней мечтают в первую очередь о возможности заполучить актеров прошлого в свои фильмы. Наверное, это всего лишь первый этап. Скорее дальше актерам придется задуматься: а стоит ли им тратить свою жизнь на то, чтобы воспроизводить на экране чужую? При этом сам процесс создания фильма будет все больше ориентирован на реализацию творческого замысла в его первоначальном виде. Сегодня то, что мы видим на экране, — плод коллективного труда. Его качество зависит от множества факторов. Нейросетевые технологии должны сблизить между собой замысел и конечный продукт. Возможно, только тогда мы сможем увидеть нечто по-настоящему необычное. Визуализация каждого из сюжетов будет становиться все дешевле и технологичнее. В итоге для создания фильма окажется достаточно загрузить в генеративный интеллект сценарий. При этом кинематографисты окажутся куда меньше озабочены кассовым успехом фильма. Если это вообще будет иметь хоть какое-нибудь значение.