Рынок систем видеоаналитики развивается бурными темпами. Если несколько лет назад его показатели были почти равны нулю, то сейчас исчисляются миллиардами. Согласно данным международной консалтинговой компании MarketsandMarkets, по итогам текущего года мировой объем продаж систем видеоаналитики достигнет 2,6 млрд долларов. Рост этого рынка в ближайшие годы составит 33% в год, к 2022-му он достигнет порядка 12 млрд долларов.
Хотя за последнее время технологии видеоаналитики сделали большой рывок, они не обеспечивают абсолютно точного распознавания людей. «Ни один алгоритм сейчас не покажет стопроцентной точности», — подтвердил в интервью «Эксперту» Сергей Щербина, директор по маркетингу российской компании «Воркорд», разработки которой считаются одними из лучших в мире. В частности, технологии этой компании занимают высшие строчки в авторитетных отраслевых мировых рейтингах Megaface и NIST.
«Проблема заключается в особенностях самой задачи идентификации лиц как таковой, — объясняет Павел Сажин, генеральный директор компании “Видеоинтеллект”. — Сама по себе автоматическая идентификация лиц не является чем-то фантастическим. Все мы, условно говоря, имеем в нашем мозгу хорошо обученную систему распознавания лиц и успешно ею пользуемся. Мы легко узнаем родственников, знакомых, приятелей, в том числе мимолетом в толпе на улице, и, казалось бы, нет никаких оснований считать, что эффективности нашей собственной системы может быть недостаточно для ряда случаев. Но давайте посмотрим на это внимательнее. Мы годами запоминаем людей, их мимику, походку, повадки и прочие характерные черты. Это первое. Второе — мы за свою жизнь находимся в активном контакте в среднем с несколькими сотнями, в редких случаях с тысячами человек. Если перейти к техническим терминам, мы запоминаем в своем мозгу на порядки больше информации о каждом конкретном человеке, чем имеется на обычном фото. А объем выборки, то есть количество людей, которых нам надо узнавать, составляет от нескольких сотен до тысяч человек. Отсюда становятся видны и проблемы технических средств распознавания лиц. Эти системы, в отличие от людей, оперируют лишь одним или несколькими опорными изображениями лица, часто недостаточного разрешения, плюс к тому объем базы данных людей в таких системах может достигать миллионов человек. То есть имеющегося объема входной информации от систем видеонаблюдения просто недостаточно для безошибочного разделения большого количества человек».
Работа современных камер уступает совершенству восприятия человеческого глаза. «Когда вы видите знакомого человека, вы, как правило, можете рассмотреть его с разных ракурсов и, скорее всего, смотрите на него двумя глазами — это позволяет вам получить объемное изображение. Если вы хорошо видите человека, но общаетесь с ним редко, вы можете просто не вспомнить его лицо. Камера же висит неподвижно, видит человека под определенным углом и все-таки больше нуждается в освещении, чем ваши глаза. Зато память биометрическую систему подвести не может», — говорит Дмитрий Дырмовский, генеральный директор компании «Центр речевых технологий».
Впрочем, по словам представителей компании «Воркорд», современные системы распознавания человеческих лиц могут достигать довольно высоких показателей — 96–98% узнавания людей. При этом большое значение имеют настройки системы в отношении ложных срабатываний. В целом любой алгоритм распознавания человека машиной характеризуется двумя параметрами. Первый — когда компьютер может узнать или не узнать нужного человека; такой параметр называется ошибкой ложного отказа (False Rejection Rate, FRR). Второй — когда система ошибочно принимает одного человека за другого; такая характеристика называется ошибкой ложного принятия (False Acceptance Rate, FAR). «В качестве примера рассмотрим систему распознавания лиц, установленную в метро, — говорит Сергей Щербина. — Допустим, у нас используется разыскная база на десять тысяч лиц, а на станцию за час заходит одна тысяча человек. Это означает, что за час система будет делать десять миллионов сравнений. Если у нас ошибка ложного принятия FAR составляет один процент, это будет означать, что в час система дает сто тысяч ложных тревог. Очевидно, что никакой оператор не сможет обработать такое количество срабатываний и система будет неработоспособной. Если исходить из того, что оператор может обрабатывать в час десять тревог, получается, что ошибка ложного принятия (FAR) должна быть не более 0,0001 процента. Таким образом, вероятность ложных срабатываний является существенным параметром, характеризующим работу системы».
По словам разработчиков, спрос на внедрение систем видеоаналитики сейчас растет в различных сферах. Особенно востребованными они становятся в системах безопасности и охраны транспортных узлов, объектов массовых мероприятий. В частности, с помощью решения компании «Воркорд» недавно обеспечивалась безопасность Кубка мира по биатлону в Ханты-Мансийске, где присутствовало более десяти тысяч зрителей. Оборудование компании использовалось на Expo-2017 в Астане, где присутствовали пять с половиной миллионов гостей. И за время работы выставки благодаря системе было выявлено несколько десятков человек, числившихся в базах розыска.