Объем информации, собираемой в России, достигнет в текущем году 980 эксабайт, составив, по оценке International Data Corporation (IDC), 2,2% от мирового объема данных.
Развивающийся рынок Big Data к 2024 году обеспечит эффект в 0,3% ВВП или 1,3 трлн рублей в денежном выражении. Это сопоставимо с 15% выручки от экспорта нефти в 2018 году. Об этом на форуме «BIG DATA 2020 онлайн: Данные в основе цифровой экономики»* рассказал исполнительный директор Ассоциации больших данных Алексей Нейман.
По его мнению, для достижения этих показателей нужно преодолеть пять барьеров.
— Первая проблема — дефицит кадров: сектору не хватает специалистов по всем направлениям, связанным с обработкой и внедрением больших данных. Сейчас многие коммерческие компании готовят кадры самостоятельно, но этого недостаточно, чтобы решить эту проблему. Вторая — инфраструктура. По количеству ЦОД и вычислительных мощностей РФ существенно уступает развитым странам. В США, например, они занимают около 65 млн кв. метров. В РФ — на порядок меньше. Нужно развивать инфраструктуру как для обработки данных, так и для передачи этих данных на высокой скорости, — констатирует Алексей Нейман. — Третья — доступность данных. У нас есть серьезные ограничения по обработке и обмену разными типами данных. Необходимы стандарты по анонимизации и деперсонализации данных, возможность свободного оборота данных, которые перестали быть персональными. Четвертая проблема — исследования и идеи. Нет необходимой экспериментальной среды и ресурсов для разработки и внедрения новых технологий работы с Big Data. Для инноваторов необходимо создать облегченный доступ к большим данным, кросс-отраслевые инкубаторы. Пятая — невозможность массово имплементировать большие данные в масштабах всей экономики.
Лидерами использования больших данных считаются банки, телеком-операторы, интернет-индустрия, ритейл и электронная коммерция. В традиционных отраслях о реализации крупных проектов Big Data говорят энергетики. Так, Росатом использует новый инструментарий управления знаниями в сфере технологий атомной энергетики на основе Big Data с использованием нейросетей и машинного обучения. Генеральный директор ПАО «МРСК Центра» (Россети) Игорь Маковский заявил, что в 2020 году «Россети Центр» и «Россети Центр и Приволжье» (дочерние предприятия компании) прежде всего нацелены продолжать цифровую трансформацию. (Подробнее о возможностях технологии в ТЭК, см. «Big Data в энергетике», с. 24.)
Интеллекту нужен мотиватор
Традиционные отрасли, составляющие большую долю в ВВП, пока не имеют ни внутренних, ни внешних стимулов для внедрения технологий Big Data. По мнению Алексея Неймана, стимулирующие меры позволят оцифровать эти сектора и существенно увеличить показатели производительности труда.
— Большие данные — это, возможно, новая нефть, но как ее перерабатывать, мы пока знаем плохо, — подтверждает необходимость развития рынка первый заместитель руководителя Аналитического центра при правительстве РФ Владислав Онищенко. — Если рассматривать большие данные как новый актив, сосредоточение интересов государства, бизнеса и общества, то для получения результатов необходимо обеспечить четыре составные части в реализации цифровых технологий — сформировать нормативно-правовую базу, преодолеть организационные трудности, разработать методологию, создать доступные ИT-решения и достаточные серверные мощности.
По его мнению, необходимы формальные основания использования больших данных и технологий искусственного интеллекта для обеспечения нового качественного ИT-взаимодействия: «Большая часть усилий в настоящее время направлена на придание юридической значимости данных против бумажного документооборота».
В качестве примера Владислав Онищенко привел статистику: «Статистика опирается на отчетность, а переход от бумаги к цифре здесь очень сложен, потому что требует пересмотра всей нормативно-правовой базы. Оргтрудности заключаются в регламентации, но не только — есть и вопросы однократного использования данных. Множество данных, собранных для какой-то определенной цели, можно деперсонализировать, объединить и использовать для принятия решений, но это методологически сложная задача.
А если для этого разработать алгоритм, например искусственный интеллект, возникнет вопрос безопасности и этики использования данных».
Перевод со словарем
В мае технический комитет ТК 164 «Искусственный интеллект», созданный на базе Российской венчурной компании, подготовил и вынес на общественное обсуждение первую редакцию стандарта «Информационные технологии. Большие данные. Обзор и словарь». Проект стандарта разработан Национальным центром цифровой экономики МГУ и Институтом развития информационного общества и призван обеспечить взаимопонимание между заинтересованными сторонами — органами власти, коммерческими компаниями и научно-образовательным сообществом.
— Сегодня технологии работы с большими данными достигли высокого уровня зрелости, их применение приносит ощутимые эффекты в разных отраслях экономики и областях социальной сферы. Стандартизация процессов разработки и использования технологий хранения и анализа больших данных позволяет обмениваться лучшими практиками, использовать подходы и решения, подтвердившие результативность как в России, так и во всем мире, — комментирует работу председатель совета директоров Института развития информационного общества Юрий Хохлов.
По мнению начальника аналитического управления департамента информационных технологий Москвы Дмитрия Онтоева, тема больших данных актуальна для управления столицей: «Сбор больших данных из разных источников и их последующий анализ позволяют государству не только реагировать на те или иные явления, но и действовать в проактивном режиме».
По словам Владислава Онищенко, необходима методология для целей госуправления, без нее не обеспечить корректное исполнение решений с опорой на большие данные: «Этот вопрос стоит очень остро, в том числе потому, что, несмотря на опыт Москвы, реализованных кейсов пока немного. Также часто не находится приемлемых для задач государства в масштабах страны ИT-решений».
Руководитель Центра цифрового развития Агентства стратегических инициатив Вера Адаева считает, что главное ограничение в развитии сферы применения больших данных связано с тем, что в России пока не сформировалась культура работы с большими данными и не накоплены соответствующие компетенции: «Нередко возникают проблемы диалога между властью как заказчиком и профессиональным сообществом».
АСИ год назад запустило «Конкурс цифровых решений для регионов», в котором в 2019 году приняли участие 43 региона и более 1000 data-аналитиков России. В результате в финал вышли девять регионов, внедрившие десять разработанных цифровых решений. Среди победителей — «Анализ профиля бедности», позволяющий провести оценку реального уровня и структуры бедности, определить граждан, находящихся в «группе риска», скорректировать усилия различных ведомств по помощи малоимущим; «Анализ цифрового следа туриста» — решение для более точного таргетирования рекламных кампаний в сфере туризма и организации событийных мероприятий; решение, позволяющее автоматизировать модерацию анонсов мероприятий в сфере культуры.
Наибольший вклад в сектор пока вносит применение аналитики с использованием больших данных. Так, старший менеджер по внедрению продуктов больших данных Tele2 Константин Загуменнов рассказал, как оцифровать пространство для повышения эффективности разных видов бизнеса: «Например, геопространственный анализ необходим при выборе места расположения точек продуктового ритейла. Нужно проанализировать не только трафик в конкретной локации, но и уровень доходов людей, которые живут или работают рядом, маржинальность торговых точек по соседству, наличие других центров притяжения. Все это можно рассчитать с высокой степенью точности на основе моделей с использованием Big Data. Аналитические продукты также эффективны для транспортных компаний, которым необходимо рассчитывать трафик; для застройщиков, которым нужно понимать объемы загрузки инфраструктуры и т.д.».
Тренды для умных
Алексей Нейман обозначил ключевые тренды рынка на 2020 — 2021 годы: «Первый — риск-ориентированный подход к данным. Игроки рынка при работе с особо чувствительными данными понимают существующие ограничения и оценивают риски деятельности. Второй тренд — сдвиги регуляторных барьеров. Есть инициативы по доработке нормативной базы, которая касается работы с большими данными. Ждем несколько законопроектов, которые готовы простимулировать развитие этой отрасли. Третий — больше экспериментов. Если раньше компании-лидеры в основном копировали западные идеи и разработки, то сейчас переходят в режим внедрения экспериментов. Четвертый — усиление кибербезопасности. Для экспансии на новые рынки или создания новых ниш использования данных при снижении регуляторных барьеров необходимо обезопасить пользователей. Пятый — продолжится охота за опытными специалистами. Шестой — влияние кризиса повысило спрос на аналитику. Эффективность требует больше данных для настройки работы компании».
— Значимость такого актива, как большие данные, будет нарастать по мере нарабатывания опыта использования, — итожит Владислав Онищенко. — В ближайшее время их активное применение возможно в медицине, на транспорте, в туризме, строительстве и статистике.