Так что же такое этот мир больших данных, о котором в век глобальной информатизации так много говорят? Сам термин Big Data — «большие данные», с каждым днем все активнее использующийся не только в ИТ, но и бизнес-среде в целом, по мнению экспертов, требует уточнения. Данным материалом журнал «Эксперт-Сибирь» открывает серию публикаций, посвященных разным аспектам проблематики Big Data — технологиям, меняющим нашу жизнь.
Большие данные — большие проблемы
Вокруг самого термина, его значений и даже написания на российской почве до сих идут споры. Обратившись к Google или Яндексу, вы узнаете, что в первую очередь, под терминами Big Data, «большие данные» или просто «биг дата» скрывается «огромный набор информации». Причем объем ее настолько велик, что обработка данных стандартными программами представляется крайне сложной, а хранение гигантских объемов информации является настоящей большой проблемой.
По словам Дмитрия Свириденко, доктора физико-математических наук, вице-президента и совладельца компании «EyeLine Communication, inc», специализирующейся на разработках и внедрении решений в сфере коммуникационных технологий, Big Data — чрезвычайно многоплановое и многоуровневое понятие.
«Обычно под ним понимают огромные массивы информации, которые характеризуются рядом свойств. Первое — это большой, гигантский объем данных. Второе — неструктурированность или плохая структурированность этих данных. И, наконец, третье свойство — высочайшая, и с каждым днем все больше увеличивающаяся, скорость обработки данных, — рассказывает Дмитрий Свириденко. — Наша группа компаний много лет занимается «большими данными», в том числе разрабатывает и обслуживает некоторые сервисы для сотовых операторов. Например, в МТС есть услуга «баланс счета», когда для получения информации о балансе вам просто нужно набрать на телефоне *100#. Мы создали и обсуживаем этот сервис. Более 50 млн абонентов оператора каждый день пользуются этой услугой. Мы должны в реальном времени обслужить этот запрос, кроме того, небольшую рекламу туда включить. Да, и хорошо бы, чтобы реклама была таргетированной и учитывала профиль клиента. Все это и есть в чистом виде проблема больших данных: очень плохо структурированная информация, плюс интерпретировать ее нужно в понятных для пользователя, сделавшего запрос, терминах».
По словам ученого, с вопросами структурирования данных, методами и технологиями работы с ними и связан второй уровень проблематики Big Data. Большинство технологических стартапов, решающих конкретные узконаправленные задачи — будь то изобретение беспилотника или разработка приложения для поиска дешевых авиабилетов — работа именно на этом уровне, и связана она преимущественно с искусственным интеллектом.
Например, мобильные операторы сегодня активно выходят на систему умных ботов, способных распознать запрос человека и понять, как ему ответить. Как поясняет Евгений Павловский, заведующий лабораторией аналитики потоковых данных и машинного обучения в Новосибирском госуниверситете и много лет реализующий проекты в области искусственного интеллекта, основная задача на этом уровне — создание алгоритмов искусственного интеллекта для обработки информации и анализа контента в любой форме. К примеру, возглавляемая Евгением лаборатория и ее партнеры занимаются проблемами распознавания искусственным интеллектом лиц, голосов, звуков, текста.
С помощью подобной системы алгоритмов, распознающей в потоковом режиме звуки и жесты, разработчики из Новосибирского Академпарка (УК «Ломоносов-капитал», РАТМ Холдинг) смогли создать уникальную программу для автоматического сурдоперевода «Сурдофон» и ряд продуктов на ее основе. К слову, небольших компаний, предлагающих свои узкие решения конкретных задач в сегменте «больших данных» в новосибирском Академгородке, славящемся своей «айтишной» средой, немало.
И, наконец, третий уровень проблематики Big Data — социально-экономический, и именно он напрямую связан с этическим и политическим аспектами.
«Кто владеет информацией, тот владеет миром»
«Представьте себе, что появилась система, которая контролирует все потоки информации, хранит это все, имеет доступ ко всем хранилищам информации, обрабатывает эти данные — такой спрут, который фактически управляет миром», — рассказывает Дмитрий Свириденко. Но тут же отмечает, что бизнес сегодня в первую очередь интересуют первые два уровня. Что вполне объяснимо.
Всплеск интереса к технологиям Big Data в последние годы напрямую связан с постоянным ростом данных, которыми приходится оперировать компаниям. Причем, если раньше в этом контексте речь шла только о крупных компаниях, с развитием коммуникационных каналов потребности в обработке растущего не по дням, а по часам контента растут и у бизнеса среднего и малого звена.
Так, одним из основных источников генерации больших данных стали глобальные коммуникационные каналы: Интернет и мобильная связь. Накопленная информация для многих организаций является важным активом, однако обрабатывать ее и извлекать из нее пока научились далеко не все, да и стоит это недешево.
По мнению эксперта в области решений для Big Data — генерального директора DIS Group (Москва) Павла Лихницкого, активности бизнеса в сфере «больших данных» часто сопряжены с желанием компании строить свой бизнес и свои бизнес-процессы вокруг данных, а значит, меняется и само отношение к данным. Появляется необходимость использовать решения так называемого класса Data Governance, которые позволяют превратить данные компании в информационный актив и обеспечить общие правила и возможности работы с этими активами для широкого круга пользователей компании.
Если же говорить о рынке решений для «больших данных», то на сегодняшний момент, по мнению эксперта, — это зонтичное понятие, которое покрывает большое количество технологий и решений. Набор тех или иных технологий во многом зависит от решаемой задачи и стратегии компании.
Например, существуют различные решения в области потоковой обработки и аналитики, позволяющие не анализировать информацию постфактум, а своевременно реагировать на возникающие события, вычленяя из них правильные точки контакта с клиентом, защищая его, предлагая ему услуги совершенного нового качества и характера, поясняет Павел Лихницкий.
«В целом мы видим тренды в постоянно растущей необходимости бизнеса в анализе данных. В банках, телекомах и секторе розницы мы видим интерес к расширенной аналитике клиентов с тем, чтобы предугадывать желание клиента, зная его поведенческий анализ и склонности, формировать для него индивидуальные предложения в правильный момент времени. Все разработки, направленные на помощь компании монетизировать и извлекать максимум пользы из своих данных, будут крайне востребованы в ближайшее время», — уверен глава DIS Group.
Опасность или достижение?
Границы личной жизни, неприкосновенность персональных данных, культура, образование и безопасность — все это с развитием технологий и социальных сетей в разных смыслах попадает под угрозу.
Летом 2016 года Госдума РФ в заботе о безопасности государства и населения приняла пакет «антитеррористических» законопроектов, который в СМИ называют пакетом, или законом Яровой. Российские власти ужесточили и ввели несколько новых уголовных статей, обязали операторов связи хранить данные обо всех разговорах и переписке россиян, придумали способ требовать от владельцев мессенджеров предоставлять силовикам доступ даже к зашифрованной переписке. Все эти данные необходимо будет передавать силовикам, если им они понадобятся.
Комиссия Российского союза промышленников и предпринимателей (РСПП) по связи и информационно-коммуникационным технологиям оценила затраты на предложенную Минкомсвязи реализацию антитеррористического пакета законов в 10 триллионов рублей.
Согласно оценке экспертов, к 2019 году крупные мобильные операторы будут хранить по 20 эксабайт пользовательской информации. Чтобы выполнить подобные требования, им придется в несколько раз поднять цены на услуги связи, что в свою очередь повысит уровень инфляции в России на 1–2 процента.
По мнению Дмитрия Свириденко, запланированные правительством меры требуют корректировки. «Технологии позволяют, но это очень дорогие технологии. Современный Центр обработки данных (ЦОД) — огромнейшее предприятие, потребляющее сумасшедшую электроэнергию. Там климат-контроль, электропитание самих серверов, защита, безопасность, копирование данных».
«Мне кажется, что для сектора телеком-операторов работа с максимально возможным объемом данных (включая историю и детализацию собственных данных, всевозможные внешние источники и т.д.) — это уже вопрос не требований регулятора, а вопрос жизнеспособности бизнеса и перспектив его развития, — считает Павел Лихницкий. — Все прекрасно понимают, что эра классических телеком-операторов заканчивается: сегодня многие из нас уже предпочтут звонок по skype или viber обычному разговору через сеть мобильного оператора. По крайней мере, каждая компания из большой тройки уже заявила о том, что так или иначе трансформирует свой бизнес в этом направлении».
С другой стороны, очевиден рост расходов бизнеса на хранение контента согласно требованиям закона. Поэтому, по мнению экспертов, перспективы довольно очевидны: небольшие компании, ориентированные на минимизацию расходов, могут не выдержать конкуренцию. Поэтому может происходить дальнейшая консолидация игроков в отрасли.
По словам заместителя директора макрорегионального филиала «Сибирь» ПАО «Ростелеком» Вячеслава Куца, «Ростелеком» видит значительный потенциал рынка дата-центров в России.
«В 2015 году мы приобрели компанию SafeData, что позволило ему увеличить количество стоек до 3 900 и стать крупнейшим игроком на этом рынке. В 2016 году наша компания совместно с «Росэнергоатомом» также начала строительство крупнейшего дата-центра в стране мощностью 4 000 стоек. Дата-центр в Новосибирске, построенный в 2009 году, до сих пор является крупнейшим в Сибири и на Дальнем Востоке. Объект построен на основе новейших технологий и мировых стандартов, предъявляемых к современным центрам обработки данных».
По словам представителя «Ростелекома», Дата-центр в Новосибирске — это не только масштабное «хранилище» серверов, это уникальный программно-технический комплекс, который позволяет консолидировать на единой площадке сетевые ресурсы разных компаний, гибко управлять ими, синхронизировать их с бизнес процессами. Объект ориентирован как на решение собственных задач «Ростелекома», так и на ИТ-аутсорсинг. Уже сегодня Дата-центр в состоянии обрабатывать массивы данных для крупных предприятий, заводов, государства и прочих потребителей. Сотрудничает с такими компаниями, как Google, Yandex, Yota, Теле2, Скартел и другими.
Сейчас наибольший интерес к Дата-центру проявляют представители корпоративного сегмента, преимущественно крупные компании. Они заинтересованы в обеспечении высокой надежности, доступности и защищенности своих ИТ-ресурсов, безопасности своих баз данных, высокоскоростных каналах связи. В дальнейшем дата-центры останутся для оператора одним из приоритетных направлений бизнеса, сообщили в компании.
В целом, на вопрос обработки, хранения и анализа «больших данных» представители рынка решений Big Data предпочитают смотреть с точки зрения целесообразности для бизнеса.
«Такие вещи, как переориентирование компании на новый подход, запуск новых продуктов и услуг, опирающихся на полученные компанией знания, не могут быть навязаны государством, — считает Павел Лихницкий. — Они будут эффективно работать только в том случае, если будут идти со стороны самого бизнеса. При этом государство, конечно, должно частично возглавить этот процесс и помочь с созданием базовой инфраструктуры и обеспечением эффективной нормативно-правовой базы, поддержанием соответствующих научных исследований и молодых компаний (или стартапов), ведущих соответствующие передовые разработки, а также развивая специализации профильных вузов по подготовке молодых кадров в этой области. Все-таки Big Data — это, во-первых, достижение, а уже на втором месте — проблема, которую надо решать постоянно».