Спрос на профессии, связанные с ИИ, отмечается во многих университетах. И если еще несколько лет назад казалось, что «цифра» только для «технарей», то сейчас этот миф развеян полностью — будущее искусственного интеллекта, в том числе, за гуманитариями. В частности, лидирующую позицию заняли лингвисты.
Цифровой лингвист
Два года назад Томский государственный университет (ТГУ) открыл магистерскую программу «Компьютерная и когнитивная лингвистика». В этом году состоялся первый выпуск, работать будут молодые специалисты в сфере автоматического анализа естественного языка.
«Если сложить формальную когнитивную лингвистику и компьютерные технологии, мы получим компьютерную лингвистику. Она родилась из романтической идеи, что компьютер будет работать как человеческий мозг, — рассказывает руководитель программы Зоя Резанова. — В середине XX века общество осознало, что не знает, как на самом деле функционирует мозг. В этот момент начала развиваться наука о нем — когнитивистика. Создание программы, объединяющей лингвистов, когнитивистов и компьютерщиков — это наше стремление понять устройство человеческого мозга через язык и на основе этих знаний выстроить отношения в диалоге «человек — компьютер».
В течение двух лет студенты ТГУ «прокачивают» когнитивную лингвистику наравне с программированием. Причем быть программистом «на входе» в магистратуру не обязательно — необходимый уровень будущие цифровые лингвисты получают в процессе обучения. Программирование в данном случае направлено на обработку текстов, а это значительный объем от всей информации в компьютерных процессах.
«О'кей, Google»
Нейронные сети и машинное обучение — «зона комфорта» цифрового лингвиста. Можно сказать, что он — связующее звено между конечным потребителем компьютерных технологий и ИИ. Если перевести это в плоскость наших ежедневных ритуалов взаимодействия с искусственным интеллектом, то нужно вспомнить о голосовых помощниках, онлайн-переводчиках и так далее. Цифровой лингвист задает этим сервисам нужный ритм для обучения.
Нейронная сеть работает на основных принципах машинного обучения (deep learning): чем больше она получает информации, тем больше выделяет закономерных отношений между языковыми единицами. Для корректной работы ей нужны законы построения текста. Именно их и формулируют магистранты ТГУ: они владеют правилами формализации человеческого языка и моделируют их для обучения искусственного интеллекта.
Компьютерный лингвист является своеобразным учителем машины с искусственным интеллектом. Процесс обучения, как правило, выстроен циклично. Как это работает, хорошо видно на примере обучения автоматического переводчика. Первый шаг: лингвист анализирует определенную информацию и дает машине первичный лингвистический анализ. Второй шаг: машина считывает полученные данные, запоминает — то есть, как школьник, заучивает «таблицу умножения» — и выдает результат. Шаг номер три: лингвист проверяет работу автоматического переводчика, совершенствует исходные данные с учетом найденных ошибок и дает машине обновленное задание.
Таких циклов может быть великое множество. Цифровой лингвист работает с машиной до получения идеального результата. «Идеальный» в данном случае — синоним слова «недостижимый»: получить его стремятся все исследователи, но предела совершенству, как известно, нет.
Лингвист обучает машину не только грамматике, но и особенностям говорения. Говорим и пишем мы по-разному, кто-то при этом картавит, кто-то тянет гласные — особенностей масса.
«Мы обучаем машину фонетическим и фонологическим правилам и законам, — говорит профессор Резанова. — Но прежде чем научить, надо описать все комбинации звуков. Знаете, некоторые помощники говорят «деревянными» голосами — это значит, что-то еще недоработано лингвистами, не до конца прописаны правила, которые нужны машине для тонких модификаций. Кроме того, бывают ситуации, когда ты задаешь голосовому помощнику вопрос, а он просит повторить. Значит, вы не попали в ключевые слова. И опять вопрос к лингвистам — недостаточно широко прописаны возможные варианты использования слов».
Новости от роботов
Цифровые лингвисты шаг за шагом приближают момент, когда машина напишет по-настоящему качественный журналистский текст и совершит тем самым переворот в сфере коммуникаций. Первый шаг уже сделан — это агрегаторы, которые формируют подборку новостей или другого контента. Среди новостных одни из самых популярных — Яндекс.Новости, Rambler, Google Новости. Эти интернет-ресурсы ищут и публикуют новости по заданным критериям в автоматическом режиме, заменяя собой журналистов, которым пришлось бы отбирать тексты «вручную».
Впрочем, пока машина не может заменить реальных журналистов, отмечает Резанова. Это задача ближайшего времени. Чтобы научить роботов писать новости, лингвистам необходимо решить задачи автоматического синтеза текста.
«На вход в машину подается большой объем неструктурированной информации: ИИ должен сгенерировать заголовок и краткое «тело» новости. Для этого ему нужно дать правила когнитивных моделей развертывания текста и правила грамматики русского языка. Лингвист прописывает их для машины, она синтезирует новый текст. Уже сейчас это активно используется во многих общественных пространствах, где вы видите «бегущие» новостные строки», — рассказывает профессор.
Однако уже сейчас искусственный интеллект способен «писать под диктовку». Речь о сервисах, переводящих человеческий голос в текст. Банальный пример — голосовой набор сообщений в телефоне.
Преобразование речи в текст открывает большие возможности многим специалистам и социальным группам. С помощью таких программ журналисты, блогеры и другие профессионалы, которые работают с большими объемами текстов, могут сэкономить несколько часов. Студенты и школьники получают профит в виде расшифрованных лекций. Люди с ограниченными возможностями, для которых печать на компьютере невозможна, используют голосовой набор для обучения, работы и решения бытовых задач.
«Компьютерные лингвисты научили искусственный интеллект понимать нашу речь — достигли больших успехов в решении задачи формализации «правильного языка», правильной письменной речи. Но надо учитывать, что в разговорной речи мы многое упускаем, при этом понимая смысл сказанного по контексту. Поэтому новая задача — сформулировать правила игры на поле распознавания естественного языка по контексту. Машину нужно обучить и этому», — рассуждает Зоя Резанова.
Другое востребованное направление в цифровой лингвистике — сантимент-анализ (sentiment analysis), то есть анализ эмоциональной нагрузки текста. Это направление особенно востребовано коммерческими компаниями, которые хотят анализировать отношение клиентов к их работе для моделирования стратегии развития бизнеса. Машина выполняет эту задачу, изучая отзывы клиентов, рабочую переписку и так далее.
Позитивное или негативное отношение может быть выражено как в оценочных высказываниях, так и неявным способом. Со вторым как раз возникает сложность. Не все люди, и уж тем более машины, способны распознавать неявную оценку в тексте. Научить искусственный интеллект этому — еще одна зона ответственности цифровой лингвистики. Шаг за шагом специалисты развивают и совершенствуют сантимент-анализ. Особенно продвинутые соревнуются между собой: в некоторых странах мира, в том числе в России, проводятся чемпионаты, на которых сравниваются системы и программы для определения отношения автора текста к тому, о чем он, собственно, пишет.
Лингвистика для всех
Зоя Резанова отмечает, что магистерская программа является междисциплинарной, поэтому ею интересуются студенты из самых разных направлений бакалавриата. Выпускники-лингвисты добирают знания в области компьютерных технологий и математического анализа. Выпускники факультета информатики доучиваются в вопросах применения компьютерных технологий для анализа естественного языка. Кандидаты исторических наук осваивают автоматическую обработку больших данных для написания диссертаций. Психологи приходят, чтобы эффективно анализировать социальные типы личности: им необходим анализ социальных сетей и других способов коммуникации. Компьютерная лингвистика востребована криминалистами — им она помогает устанавливать авторство текстов и решать другие задачи.
В числе магистрантов программы также социологи. Зачастую они работают с анализом текста, но в их распоряжении только традиционные методы, например, ручная обработка — в буквальном смысле приходится листать анкеты и выписывать данные вручную.
«Представьте, сколько времени это занимает — когда ты должен эффективно проанализировать большие данные, сотни текстов, и извлечь оттуда нужную информацию. Цифровой анализ больших данных повышает эффективность социальных исследований на порядок», — говорит Резанова.
Интерфейсы нового поколения
Профессия «компьютерный лингвист», по оценкам экспертов, в ближайшее время войдет в число наиболее востребованных в сфере развития искусственного интеллекта. По мнению проректора ТГУ Константина Белякова, это ожидаемый эффект от развития отношений в системе «человек — машина».
«Мы с вами живем в эпоху активного общения человека с компьютерными системами, робототехникой. Если раньше это были машинные коды, а потом язык программирования высокого уровня, то теперь — голосовые и видео интерфейсы и многие другие сервисы, ставшие стандартными средствами коммуникациями», — говорит он.
По мнению проректора, подготовка специалистов, которые усовершенствуют существующие интерфейсы и создадут новые — вызовы для Томского государственного университета. Теория, построенная на передовом опыте, и практика в ведущих IT-компаниях научат студентов развивать способность машин понимать не только четкий человеческий голос на разных языках, но и речь с патологиями, с домысливанием.
Таким образом, гуманитарии, долгое время остававшиеся без ответов на вопросы о развитии собственных компетенций в рамках цифровой экономики, вышли на передовую в общении с искусственным интеллектом. Компьютерная и когнитивная лингвистика «пишет код» для эффективного диалога «человек — машина». И в конечном итоге именно на лингвистов ложится ответственность за поиск смыслов в потоке информации, на которых будут базироваться новые правила коммуникации.