«Пока бизнес скорее тратит на ИИ, чем на нем зарабатывает»

Директор по дата-стратегии и искусственному интеллекту группы Arenadata Петр Емельянов — о том, как анализировать защищенные данные, что приносит бизнесу такая аналитика, и о балансе между частными и коммерческими интересами

Читать на monocle.ru

Все очевиднее, что наши действия и данные становятся базой для обучения ИИ: Google включил для части пользователей своей почты и других сервисов ИИ-опции — для анализа содержимого писем; Microsoft запустил функцию Windows Recall, в рамках которой делает скриншоты экрана каждые несколько секунд — для лучшей аналитики.

В то же время компании из реальных секторов — финансовые, торговые, промышленные, медицинские и другие — обязаны строго хранить персональные данные. В этой строгости они видят барьер для обучения нужных им ИИ-моделей, да и просто извлечения из данных пользы.

Существует технология, призванная решить этот вопрос, — так называемые конфиденциальные, или совместные, вычисления. Они позволяют заниматься анализом данных, при этом оставляя сами данные в тайне (о математическом базисе таких вычислений см «Всего лишь математика»). Один из пионеров конфиденциальных вычислений на российском рынке — компания УБИК, в прошлом году она вошла в состав группы Arenadata. В том же году был запущен Ubic Conclave — продукт на основе механизма конфиденциальных вычислений, позволяющий банкам, телекомам и госструктурам совместно анализировать имеющиеся у них данные без их передачи.

Директор по дата-стратегии и искусственному интеллекту группы Arenadata Петр Емельянов рассказал «Моноклю», как именно конфиденциальные вычисления могут преобразить искусственный интеллект, где кроется экономика в анализе данных и почему надо тщательно выбирать себе друзей.

— Лет пять назад были надежды, что конфиденциальные вычисления могут стать неким прорывом в искусственном интеллекте.

— Конфиденциальные вычисления, в отличие от того же искусственного интеллекта, — это технология, которую не видно. Это не чат-бот, в котором можно поговорить с машиной, это инфраструктурная, низкоуровневая технология, которая не создает вау-эффекта. Но за пять лет здесь произошел существенный скачок. Прежде всего, технология вышла из академических исследований в промышленное применение. В России мы первые, кто смог построить коммерческие решения, основанные на технологиях конфиденциальных вычислений, — преимущественно в финтехе, сейчас выходим за границы финансовой области.

— Давайте сразу перейдем к примерам. Возьмем условные четыре небольших региональных банка — из Татарстана, из Якутии, из Северо-Западного региона и, допустим, дальневосточный. У каждого своя база, делиться которой они, естественно, не могут. Что за аналитику они хотят получить на основе конфиденциальных вычислений?

— Прежде всего это скоринг, оценка дохода.

— А зачем для этого нужны конфиденциальные вычисления и данные других игроков? У банков есть доступ ко всем государственным данным, к базе Соцфонда, к базе налоговой, к «Госуслугам». Казалось бы, чтобы принять решение, этого достаточно.

— Когда человек берет кредит, он действительно может дать согласие на все, что вы перечислили. Но есть такая штука, как конверсия. Сегодня у государственных сервисов, в частности у «Госуслуг», конверсия невысока, потому что люди не всегда вспоминают свой пароль от «Госуслуг», а еще есть второй фактор аутентификации — например, код из СМС или сообщения в мессенджере. Банки, безусловно, используют государственные сервисы, но не всегда это удобно и быстро. Поэтому нужны какие-то альтернативные источники данных. И, в принципе, все те данные, которые есть у госсервисов, у банков тоже есть. Просто они распределены по большому количеству игроков, которые не могут обмениваться этими данными между собой или консолидировать их в одном месте — по причине банковской тайны. Я уже не говорю про коммерческую историю.

— Что происходит, если у нас есть два относительно крупных банка, которые работают в одном регионе? Что они могут узнать, «сложив» свои базы? Наверное, ключевой вопрос, могут ли они выяснить, как ведет себя один и тот же клиент в двух разных банках? Или это как раз с помощью конфиденциальных вычислений не выявляется, а выявляются паттерны поведения, характерные для группы клиентов?

— Обычно конфиденциальные вычисления защищают одну из двух вещей. Первая — это конфиденциальность каждого конкретного банка и его отношений с клиентом: это и есть банковская тайна. Условно говоря, в системе могут участвовать пять, шесть, семь, двадцать банков. Они совместно выполняют вычисления и получают результат, например оценку дохода, скоринг или какой-то более сложный агрегированный показатель по конкретному клиенту. Но при этом нельзя установить, в каких банках у этого клиента открыты счета, и сколько на них денег.

— То есть у нас есть некий Иванов Иван Иванович и десять банков. Как минимум в двух из них он обслуживается. Все банки получат доступ к аналитике, узнают, как он себя ведет, но никто не будет знать, в каком именно банке и сколько именно у него денег.

— Да, все верно. Это первый вариант: мы защищаем отношения конкретного банка и конкретного Ивана Ивановича. Есть еще второй вариант — прятать как раз клиента, отдельного человека. В этом случае нельзя разглашать информацию в отношении конкретного Ивана Ивановича, но можно использовать обобщенную информацию о группе людей, которые в чем-то на Ивана Ивановича похожи.

Одни и те же модели

— Допустим, у одного банка одна стратегия в отношении розничных клиентов касательно кешбэка или правил выдачи кредита, а у другого банка совершенно другая. И кажется, что, построив аналитику на данных этих двух банков, которые очень по-разному подходят к рознице, мы можем скорее запутаться или получить не очень релевантный итог.

— Начну издалека. Есть известное явление, называется парадокс Симпсона. Это то, о чем вы сейчас говорите, — некий направленный тренд, который наблюдается в разных группах, исчезает или меняет свое направление при их объединении. Есть канонический пример: где-то в 1970-х годах американский Институт Беркли (Калифорнийский университет в Беркли в России признан нежелательной организацией. — «Монокль») обвинили в том, что они сегрегируют женщин, то есть зачисляют больше мужчин, чем женщин. Это было видно в общей статистике по всем факультетам. Но если посмотреть на статистику по каждому факультету в отдельности, то тренд менялся на противоположный: женщины чаще выбирали факультеты, на которые было сложнее поступить, более конкурентные, поэтому их чаще, соответственно, не брали. Мужчины поступали на суровые технические факультеты, где конкурса не было, и их всегда зачисляли. Как раз тот самый скрытый фактор, который влияет на поведение агрегированных данных. Но этот скрытый фактор сам по себе крайне ценен, и увидеть его очень важно.

С банками может получиться то же самое. Если мы просто бездумно «сложим все вместе», действительно может получиться, что суммарный агрегат покажет не то, что ожидалось. Но уже это само по себе может быть важным сигналом, который стоит учитывать в модели. Более того, различия в подходах и поведении иногда становятся видны только на уровне общей картины.

— На дне инвестора группы Arenadata вы сказали, что будущее ИИ — за его обучением на приватных данных. Наверное, такой ИИ должен быть эффективнее ИИ, обученного на данных открытых. Но за счет чего и насколько эффективнее?

— Если сильно упростить, современный искусственный интеллект — это консолидация огромного объема знаний. Так уж сложилось, что почти все публичные большие языковые модели обучены на доступных данных, которые можно в принципе собрать в интернете, имея необходимые вычислительные мощности и место для их хранения. И эти модели более или менее одинаковы. Поэтому не так принципиально, какую модель использовать: ChatGPT, или Claude, или DeepSeek, — поскольку базовые возможности оказываются близкими. Это стирает конкурентные преимущества. Сейчас появляется все больше стартапов в сфере ИИ, но часто их единственное конкурентное преимущество — это модель, которая есть у всех. И поэтому эти стартапы неконкурентоспособны.

— Вы имеете в виду, что они так или иначе базируются на тех же самых ChatGPT, Claude и так далее?

— Да, и ничего нового они не приносят. Например, давайте сделаем робота, который будет учить нас английскому языку. Но многим людям он не нужен, поскольку они могут использовать нативный интерфейс ChatGPT и практиковать язык напрямую с моделью.

Другое дело, если взять существующий бизнес, который принимает решения на тех данных, которые он накапливает или уже накопил. Сейчас эти решения принимаются либо вручную, либо с использованием методов, не связанных с искусственным интеллектом. При этом сами данные — ключевой актив и реальное конкурентное преимущество компании. Именно они отличают ее от других, и, очевидно, делиться ими с внешними игроками бизнес не готов.

Скажи мне, кто твой друг

— У вас есть продукт Ubic Conclave, разработанный недавно и основанный на конфиденциальных вычислениях. Что он собой представляет, компании из каких отраслей его заказывают и с какой целью?

— Conclave — это консолидация опыта в конфиденциальных вычислениях, накопленного за несколько лет. За это время мы разработали множество методов и алгоритмов конфиденциальных вычислений, каждый из которых решает какую-то свою, чаще всего узкоспециализированную задачу. В Conclave эти подходы объединены в единую систему. Сложность в том, что в основе лежит математика, а она сама по себе довольно плохо «упаковывается» в продукт, ее трудно продавать в привычном формате. С ИИ, кстати, похожая ситуация: многие стартапы пытаются сделать из него продукт, но сталкиваются с теми же ограничениями. С конфиденциальными вычислениями это тоже сложно сделать, но мы движемся в этом направлении. Conclave не совсем коробочный продукт в классическом понимании. То есть нельзя купить коробку, воткнуть в розетку и ждать, пока она принесет какую-то пользу. Нужны кастомизация, настройка, а это длительный процесс. Соответственно и цикл продаж получается длинным. Интерес со стороны клиентов есть, но пока я не могу публично говорить о законченных сделках.

При этом отрасли совершенно разные — телекомы, банки, медицина. Есть кейсы в промышленности, а также кросс-отраслевые истории, например когда банк хочет подружиться с телекомом.

— Что за задачи решают ваши заказчики?

— Про скоринг мы уже поговорили, это классическая банковская задача. Однако он возникает не только на стыке банков между собой, но и на пересечении банков с другими отраслями, потому что поведение клиента за пределами банковского сектора также играет важную роль.

Например, в телекоме: кому клиент звонит, кто кому пишет сообщение, как выстроена его коммуникация — все это влияет на оценку его поведения.

— Каким образом?

— Есть такая довольно старая, но подтвержденная гипотеза: скажи мне, кто твой друг, и я скажу, кто ты. То есть ваше окружение влияет на ваш скоринг. Если вы общаетесь с людьми, которые добросовестно обслуживают свои кредитные обязательства, то, скорее всего, вы тоже такой человек. И наоборот.

— А может быть, это единственный человек в семье, который всех тащит.

— Может быть, но в этом случае у него уже высокая долговая нагрузка. Соответственно, если выдать ему новый кредит, согласитесь, есть риск, что он не справится ни с новыми обязательствами, ни с теми, которые уже тянет.

Типичный наш клиент — это экосистема. Обычно в нее входит несколько активов, четыре-пять, как правило довольно разноплановых. Формально они объединены в одну экосистему, но юридически это разные лица, и между ними возникают ровно те же самые проблемы, связанные с ограничениями на совместное использование данных и сложностями с их обменом.

Поведение клиента за пределами банковского сектора играет важную роль для скоринга. Например, важно, кому клиент звонит, как выстроена его коммуникация

— Материнская компания экосистемы должна посчитать свой потенциальный эффект в деньгах, чтобы понять, отобьется ли внедрение вашего продукта. При том что это достаточно сложная новая история. Как вы с ними ведете переговоры, как вы им объясняете экономическую целесообразность? Или они ее сами видят? Они к вам приходят или вы к ним приходите?

— Есть два пути. Первый, условно, эмпирический, когда мы действительно считаем — ищем какие-то кейсы, выявляем боли и показываем, как их можно вылечить, а эти кейсы решить. И обычно у заказчиков эти кейсы уже оцифрованы и они понимают, какой результат хотят получить. С экосистемами почему удобно? Потому что чаще всего они уже все посчитали. Собственно, ради этого такие экосистемы и создаются, чтобы объединить пользователя в рамках нескольких активов и видеть все его поведение целиком. Но на практике это работает не всегда, потому что активы, даже находясь внутри одной экосистемы, все равно вступают между собой в коллаборации крайне неохотно. По коммерческим или регуляторным причинам.

— Вообще, как экосистема может заработать на пользователе, если она будет больше знать о нем? Даже если ты будешь знать, где он ест, где он стрижется, кто его семья, на что он тратит деньги — а что ты с этим знанием можешь сделать? Ну, кроме как продать ему кредитный продукт, честно сказать, не приходит ничего больше в голову.

— Каждый актив зарабатывает по-своему, и совокупное знание о поведении человека во всех активах сразу или хотя бы в большей их части может быть ценно для каждого из них. Например, банк действительно может лучше скорить, лучше выдавать кредитные продукты, более эффективно управлять капиталом. Для банков это критически важно: потенциальный экономический эффект достаточно велик, чтобы оправдать существенные инвестиции.

Для телекома такие данные тоже имеют прикладную ценность. Например, понять, какая доля их клиентской базы относится к ВИП-клиентам банка.

— А если эта группа богатых клиентов не захочет купить ВИП-продукт у телекома, получится, что затраты на исследование были напрасны?

— Да, но это аналитика, которая всегда немного вероятностная. В девяти случаев из десяти результат может не дать ожидаемого эффекта, зато в одном случае он способен окупить все предыдущие попытки.

К ИИ нужно привыкнуть

— В чем ИИ будет помогать бизнесу и как изменится жизнь благодаря ему в обозримой перспективе?

— По сути, ИИ — это хорошо настроенный универсальный инструмент, с помощью которого можно делать очень разные вещи. Например, можно учить английский язык, а можно встроить в конкретные бизнес-процессы, автоматизировав отдельные этапы, то есть снизить влияние человеческого фактора и сделать процессы эффективнее, быстрее и, возможно, дешевле.

И именно здесь становятся критически важны приватные данные конкретной компании, которая такой автоматизацией будет заниматься, или нескольких компаний, потому что иногда собственных данных недостаточно. Потому что эти данные и есть основа для принятия решений. А ИИ — это просто инструмент, который эти решения будет принимать вместо человека или устаревших алгоритмов.

Еще лет пять-шесть назад многие стремились стать датасайентистами — людьми, которые строят модели машинного обучения. Потому что это довольно высокооплачиваемая работа. Сейчас же их роль сильно трансформировалась, поскольку часть этих задач уже способен выполнять искусственный интеллект. Он по-прежнему не может создавать системы сложнее себя, но вполне справляется с задачами более низкого уровня. А большинство прикладных моделей, включая скоринговые, как раз к таким относятся. При наличии данных ИИ способен строить их быстрее, точнее и стабильнее, чем человек.

— Вообще, вопрос данных очень чувствительный, особенно личных, медицинских, финансовых. Даже если их никуда не передают, почему-то все равно неприятно, что их обрабатывают, анализируют, пытаются на тебе больше заработать. Может ли тут быть найден какой-то баланс между интересами коммерческих, государственных структур и частных лиц?

— Мне кажется, что конфиденциальные вычисления — это как раз попытка соблюсти баланс между интересами каждого конкретного человека и интересами бизнеса. Что я имею в виду? Большие данные обрабатывались и будут обрабатываться. Это данность, которую нужно принять. При этом многие компании давно столкнулись с тем, что собственных данных им недостаточно. В объединении данных есть некоторая дополнительная ценность, может быть эволюционная, может быть революционная, которую все сейчас и пытаются нащупать. И к объединению данных есть два подхода. Централизованный: сложить все в одно место и уже там выполнять расчеты. Очевидно же, когда все яйца сложены в одну корзину, мы все знаем, что происходит. А конфиденциальные вычисления — второй подход — позволяют этого избежать. То есть данные остаются там, где они и так уже есть. Потому что компании, банки, телекомы, госсервисы и так давно данные о нас собрали. Меняется сама логика: не данные перемещаются к вычислениям, а вычисления к данным. Я надеюсь, что со временем маятник качнется в сторону какого-то менее инвазивного подхода к обработке персональных и других чувствительных данных.

— Сейчас по поводу эффективности ИИ делают совершенно противоположные заявления. Представители одних компаний говорят, что никто еще не зарабатывает на ИИ, представители других — что им ИИ уже приносит миллиарды рублей. По вашим ощущениям и по опыту, ИИ все же приносит бизнесу деньги или пока нет?

— По моим ощущениям, пока еще значительных денег ИИ бизнесу не приносит, скорее наоборот. Мы находимся в агрессивной фазе инвестиционного цикла, когда бизнес на ИИ скорее тратит, чем зарабатывает на нем. И здесь хочется вспомнить еще один парадокс — парадокс продуктивности. Начиная с 1940-х годов в Америке довольно активно росла производительность труда. А в 1970-х рост остановился и даже сменился небольшим спадом. Удивительным образом это совпало с массовым распространением информационных технологий. Это явление называли парадоксом Солоу, в честь экономиста Роберта Солоу. Он как-то пошутил, что эффект от внедрения компьютеров виден везде, кроме статистики производительности труда. Назывались разные причины — например, неправильно считали. То есть классическая статистика обычно хорошо оценивает количественные эффекты, а эффекты от внедрения информационных технологий чаще всего качественные. Еще не исключено, что считать нужно было на уровне не целых отраслей, а отдельных компаний: кто-то мог справляться лучше других, но этот эффект терялся в низкой производительности других. Мне больше всего нравится версия с временны́м лагом — такие сложные технологии требуют времени. Недостаточно просто купить компьютер — нужно научиться им пользоваться и перестроить свои бизнес-процессы, прежде чем вы увидите какую-то реальную экономическую отдачу.

Примерно через десять лет производительность восстановилась и даже значительно выросла. Это связали с внедрением информационных технологий — наконец-то научились ими пользоваться. И это подтверждает гипотезу, что на внедрение существенных инфраструктурных технологий нужно время. Мне кажется, сегодня мы видим прямо то же самое на примере искусственного интеллекта. По своей природе, масштабу ИИ, как мне кажется, технология вполне себе революционная, потому что она делает действительно удивительные вещи. То, что еще буквально несколько лет назад было даже трудно себе представить.

— Например?

— Например, говорит лучше, чем многие мои собеседники.

— А какое отношение это имеет к производительности бизнеса? Чат-боты поддержки уже в принципе есть.

— Она же не просто говорит: создается впечатление, что она мыслит. Не бездумно воспроизводит грамматически корректные фразы, а отвечает на конкретные вопросы. И если эти ответы структурировать и превратить в команды, которые робот может выполнять — а именно это делают ИИ-агенты, — получаются какие-то совершенно фантастические возможности для автоматизации. Так что по масштабу — я буду на этом настаивать — технология революционная, но по темпу внедрения, как и многие другие промышленные революции, которые мы уже пережили, она эволюционная. То есть внедряться это будет долго.

Мы будем какое-то время учиться этим пользоваться. Мы будем к этому адаптироваться. Вероятно, увидим период, когда трат будет больше, чем отдачи. Кто-то сможет зарабатывать существенно, но это будут скорее исключения. В какой-то момент система выйдет на плато продуктивности, и тогда уже в агрегированных показателях станет заметен ощутимый эффект — и в экономике в целом, и производительности труда.

Всего лишь математика

Представим, что у Ивана Иванова есть счета в двух банках, в одном лежит один миллион рублей, в другом два миллиона. Эти два банка вместе с третьим, в котором у Ивана Иванова вообще нет счета, хотят узнать, какую сумму гражданин Иванов держит на банковских счетах в рамках этих трех институтов.

Просто обменяться информацией нельзя — это запрещено, да банки и сами не горят желанием. Что можно сделать?

Каждый из банков представляет сумму денег, которую Иванов держит у него на счету, как сумму трех чисел (два из них сгенерированы случайным образом).

Первый банк представит один миллион как 2 + 4 − 5. Второй банк представит два миллиона как 5 − 7 + 4. А третий 0 как 3 + 7 − 10 (напомним, в нем денег у Иванова нет).

Далее каждый банк оставляет одно случайное слагаемое себе, а другие передает двум другим банкам. По отдельности ни одно слагаемое не имеет смысла, а продолжить вычисления участники могут только сообща — поэтому вычисления и называют совместными. И они делают это: складывают случайные числа, которые имеют, и каждый вычисляет одно, тоже случайное число. Первый банк из нашего примера получает −9, второй 13, а третий −1. Каждый передает полученное число остальным, теперь у всех одинаковый набор чисел, остается их сложить. Каждый участник вычисляет −1 − 9 + 13 = 3 и узнает общую сумму денег Ивана Иванова во всех трех банках, без деталей.