Эксперт: у виртуальных ассистентов от Сбера есть более 1000 различных навыков

Екатерина Кобиц
корреспондент Expert.ru
12 июля 2022, 10:56

Виртуальный ассистент Салют поможет распорядиться временем и финансами не только в личной жизни, но и на работе.

Читайте Monocle.ru в

Не имея изначально цели создавать продукты, подходящие под понятие «импортозамещение», SberDevices начинает играть ключевую роль в процессе перехода на отечественные решения в области информационных технологий. Компания продолжает завоевывать рынок и поставлять потребителям различные умные устройства и сервисы.  

О том, как изменился спрос на продукты SberDevices с введением санкций, почему товары «умного дома» не теряют актуальность и как развиваются уникальные умные ассистенты компании «Эксперту» рассказал директор дивизиона В2В-продуктов Салют Сбербанка Денис Афанасьев

— Сейчас Сбер представляет на рынке целый спектр умных устройств и различные приложения с функцией виртуальных ассистентов. Как родилась данная идея?

— Появление умных устройств и виртуальных ассистентов от Сбера было вопросом времени — у компании для этого были все необходимые технологии и ресурсы. Сейчас, с ростом популярности голосовых помощников и умных устройств в России и мире, ассистенты Салют становятся точкой контакта с более чем 100 млн пользователей различных сервисов Сбера. Очевидно, что для всех компаний важны новые «поверхности», как мы их называем, точки соприкосновения с людьми. И наши технологии позволяют создавать полезные решения, которые делают жизнь пользователей лучше. Фактически, наша задача — дать людям возможность максимально эффективно организовывать свое время. Поэтому виртуальные ассистенты должны помогать людям: брать на себя рутину, облегчать выполнение каких-то операций. У ассистентов Салют есть разнообразные финансовые навыки: в приложении СберБанк Онлайн они могут помочь переводить деньги, оплатить мобильную связь, проверить баланс карты, посмотреть самые популярные категории расходов. Но навыки ассистентов Салют не ограничиваются банковской сферой. Они могут помочь с заказом товаров, определить, какая играет песня, рассказать новости спорта, развлечь ребенка — или просто поболтать и поднять настроение. Всего у ассистентов сейчас есть более 1000 различных навыков — созданных как командой Сбера, так и внешними разработчиками на платформе SmartMarket.

— Но на рынке существуют аналоги ваших решений. В чем уникальность виртуальных ассистентов и устройств Sber, и чем они отличаются от того, что предлагают конкуренты? 

— На самом деле, на рынке не так много решений, их разработку могут позволить себе только достаточно зрелые в технологическом плане компании. Нам понятно, с кем мы конкурируем. И у нас есть понимание, чем мы отличаемся от других. Например, мы реализуем концепцию мультимодальности. С ассистентами Салют можно взаимодействовать не только голосом, но и текстом, «тачем» или жестами. Это важно потому, что голос — не всегда самая удобная форма взаимодействия с девайсами. Например, если вы смотрите мультфильм с ребёнком, и ребёнок уснул — не нужно ничего говорить ассистенту, достаточно жестом остановить видео. Многим жестовое управление может показаться непривычным, но у пользователей оно популярно — только за прошедший год ассистенты Салют отреагировали на 6 млн жестов на умных устройствах Sber с камерой. Свою миссию мы видим в помощи клиентам, чтобы предложить им простые, но в тоже время функционально развитые и безопасные решения. Например, к нам обратился один университет, которому нужно было в короткие сроки перейти с популярного зарубежного решения на российский аналог. Они рассказали, что провели анализ рынка и остановили свой выбор на сервисе видеоконференций Jazz by Sber. Причиной выбора в нашу пользу стало как раз то, что продукт отвечал всем их требованиям и оказался самым простым и удобным, а это важно, когда нужно быстро перевести весь преподавательский состав и студентов, чтобы не прерывать учебный и рабочие процессы. Такие кейсы нам особенно нравятся.

— Наверное, еще одна особенность продукции заключается в наличии сразу трех голосовых помощников — Сбера, Афины и Джоя? Ведь у других компаний не такой широкий выбор. 

— Да, три персонажа — это целое семейство, крайне интересная продуктовая особенность. В них воплотилось наше стремление сделать ассистента не только полезным, но и эмпатичным. То есть это три разных характера, и люди выбирают того персонажа, кто ближе им по духу. Мы видим статистику, и все три широко используются. И у нас существует большое направление, которое занимается развитием этих эмпатичных функций. Когда человек разговаривает с ассистентом, последний ему что-то отвечает, старается понимать. И в зависимости от характера персонажа задается определенный тон беседы. 

— А кто из персонажей пользуется наибольшей популярностью среди пользователей?

— У людей разные потребности во взаимодействии с ассистентами — кому-то нужен нейтральный помощник, который, условно, по команде озвучит баланс карты, а кому-то хочется живого общения: чтобы ассистент шутил, добавлял что-то от себя и иронизировал. Если говорить в целом про все наши поверхности, лидирует ассистент Сбер — в частности, в приложении СберБанк Онлайн, где пользователи в основном совершают финансовые операции. Но на «развлекательных» поверхностях, например, смарт-дисплее SberPortal, чаще зовут веселую и ироничную Джой.

— Насколько сейчас продвинулись в интеллектуальном и техническом смысле голосовые ассистенты? Насколько удачно проходит «общение» с человеком, распознавание запросов и речи? И главное — благодаря чему происходит распознавание? 

— Используется целый комплекс технических решений и совместно работают сразу несколько различных платформ. Базовый компонент — это распознавание голоса. У нас есть платформа SmartSpeech, которая за это отвечает и решает следующую задачу — преобразование голоса в текст и текста в голос. Кажется, что это просто, но на деле данный процесс сопровождается сложными техническими решениями. Есть целая масса различных особенностей, связанных, например, с каналом, откуда вы говорите. И что важно — каждое устройство уникально в своем плане, в каждом используется отдельная матрица микрофонов со своими особенностями, будь то мобильное приложение или другая поверхность. Все это требует адаптации. Очень интересная функция — определение пользователя, который в данный момент взаимодействует с устройством. То есть если вы в комнате, где несколько человек, устройство будет слышать именно вас, того, кто его активировал, и стараться сфокусироваться на вашей речи, чтобы не было перебивания. Другая функция — определение окончания фразы, то есть, когда именно вы закончили свою мысль, и пришло время ассистента ответить — это тоже определенное искусство. Например, когда человек хочет включить фильм, но забыл название, он начинает думать или говорить какими-то междометиями — все это важно идентифицировать и дать пользователю время сформулировать свою мысль, не перебивая, чтобы создавалось ощущение комфортного диалога. Затем идет работа с распознанным текстом, для этого в процесс включается платформа SmartNLP, она определяет контекст запроса пользователя, что именно он хотел, на какую тему говорил, с каким устройством взаимодействует и так далее. То есть здесь наша задача правильно понять запрос к ассистенту, а вот как на этот запрос ответить, определяет решение, позволяющее строить диалоговые сценарии. После того, когда найден правильный ответ, мы снова возвращаемся к платформе SmartSpeech, которая озвучивает его с естественной интонацией, и это как раз то, что в итоге слышит пользователь. Для разработчиков платформа SmartSpeech тоже доступна, ее можно легко встраивать в свои решения, где требуется распознавание или генерация речи. Также на базе SmartSpeech есть ряд готовых сервисов, например, YourVoice — услуга для создания собственного голоса для бизнеса. Она имеет каталог готовых голосов, а также позволяет создать собственный голос всего за месяц. Это актуально для многих компаний, которые хотят во всех каналах коммуникации с клиентами использовать свой уникальный голос и ассоциироваться с ним у потребителя. 

— Как сейчас меняется спрос на ваши услуги и товары? Потому что мы часто слышим, что потребительское поведение людей изменилось, и может быть, покупки устройств из той же серии «Умного дома» оставляют до лучших времен...

— Мы видим увеличение спроса. К слову, за первое полугодие 2022 года количество проданных устройств выросло на 40% по сравнению с тем же периодом прошлого года. Тут конечно, два фактора роль сыграли. Во-первых, этому способствовал запуск новых устройств, например, колонок SberBox Time, а также расширение линейки телевизоров под управлением ОС Салют ТВ. Эта операционная система базируется на российском софте, полностью разработанном в Сбере, поэтому устойчива к изменениям внешнеэкономических факторов. Во-вторых, растёт спрос на наши основные устройства, в частности, SberBox. Эта умная ТВ-приставка стала лидером продаж в своей категории в магазинах «М.Видео» за 2021 год. Если говорить о трендах на рынке устройств умного дома, мы наблюдаем рост спроса на товары, связанные с безопасностью — разные видеокамеры, датчики открытия и прочее. Очевидно, у людей есть потребность в безопасности, которая и стимулирует интерес к такого рода устройствам. 

— Давайте вернемся к сервису видеоконференций Jazz by Sber, который появился не так давно. Кстати, сейчас наш диалог идет именно через него. Чем было обусловлено появление такого сервиса? Планировался ли данный проект в качестве импортозамещения западных вендоров?

— Изначально еще в 2020 году сервис представлял собой приложение для звонков между пользователями умных устройств Сбера, но за эти два года он эволюционировал до самостоятельного В2В продукта. В нем предусмотрены все корпоративные требования, он может поставлять данные как из облака, так и по модели on-prem. Продукт отвечает всем требованиям безопасности. Но удобство и лаконичность интерфейса сделали бесплатную версию Jazz популярной и среди обычных пользователей. К Jazz легко подключиться, достаточно просто перейти по ссылке и запустить его в приложении, браузере или на умном устройстве. Трансляцию встречи можно легко перенести с одного устройства на другое, начать общение с телефона, а продолжить его на большом экране телевизора. К слову, про название сервиса. Jazz band — это группа, команда равнозначных участников. Каждый из членов команды одинаково важен, у них нет ведущих или второстепенных. И на этом принципе построена идея. То есть к видеоконференции легко подключиться, все обладают одинаковыми правами, все могут одновременно показывать свои экраны, говорить, использовать разные функции. Здесь нет ярко выраженного «главного участника».  Рыночная ситуация сложилась так, что позволила нам начать прямую конкуренцию с западными решениями в корпоративном секторе. Пришлось быстро адаптировать продукт и расширять функционал. Так, у нас появилась транскрибация встречи. В Jazz вы можете включить текстовую расшифровку звонка, и все сказанное будет отображаться в чате, как будто люди переписываются. Это очень удобно на встречах, особенно, когда человек целыми днями сидит в конференциях. Функция транскрибации дает ему возможность отвлечься, а потом просто пролистать чат и посмотреть, что было озвучено или скачать всю расшифровку беседы. Плюс есть удобное голосовое управление, управление через ассистентов, которое позволяет быстрее включать и организовывать встречи. Сейчас мы работаем над функцией саммаризации разговора — выдачи по итогу некой выжимки с фокусом на основные идеи и темы. Подобные функции у нас уже в работе, и они сильно отличают нас от других сервисов. 

— С введением санкций спрос на Jazz вырос? Ведь компании еще больше озаботились вопросом своей безопасности, в том числе — и в сфере внутренней коммуникации. 

— Я бы сказал, что спрос начал расти резко после массового ухода зарубежных решений с российского рынка. По нашей статистике с марта спрос на Jazz вырос в 9 раз. И это мы наблюдаем не только по этому сервису, но и по всем другим продуктам. Спрос растет, потому что все корпоративные клиенты озабочены поиском аналогов западным решениям, независимо от того, остались они пока на рынке или уже ушли. 

— У кого Jazz пользуется сейчас наибольшей популярностью?

— Я бы сказал, что у бизнеса. К нему подключено уже более 400 компаний и организаций. В день в среднем проводится около 20 тысяч конференций. 

— На ваш взгляд, в дальнейшем спрос на ваши решения будет расти также стремительно? 

— Я думаю, что он в какой-то момент стабилизируется. Воспринимаю как некий фазовый переход. Сейчас все, кто хотел, уже нашли альтернативы, а дальше мы будем работать в условиях конкурентной среды, как это было и раньше. Просто конкуренты будут меняться. Когда это произойдет, точно не скажу, но я думаю, что до конца года мы будет испытывать такое же повышенное внимание, как и сейчас.

— К вопросу о конкурентной среде. Какими еще новинками планирует удивить Сбер? Какие технологии, на ваш взгляд, станут еще популярнее в будущем? 

— Мы стараемся говорить о новых продуктах, когда они уже готовы. У нас действительно много планов по развитию тех решений, которые уже есть. Будущее и настоящее за технологиями, которые позволят человеку эффективно использовать свое время. Мы видим задачу в развитии виртуального ассистента, который сможет помочь человеку правильно им распоряжаться не только в личной жизни, но и на работе. Потому у нас и появились решения именно для корпоративного сектора. И мы идем вперед и в этой области.