То, что личные данные — наши письма и в целом все, что мы делаем на своих компьютерах и смартфонах, — станут «кормом» для языковых моделей, было вопросом времени. Тем не менее пользователи вздрагивают от каждой новости по этой теме и готовы даже судиться с разработчиками нейросетей.
Совсем недавно, в июне 2026 года, министр цифровых технологий Японии выступил с предложением об изменении закона о защите персональных данных. Суть предлагаемых поправок — разрешить разработчикам обучать ИИ на чувствительной информации (например, на медицинских или криминальных протоколах) без согласия граждан. Власти объясняют это необходимостью не отставать в технологической гонке. Инициатива вызвала споры в японском парламенте: противники нововведения опасаются утечек и злоупотреблений.
В конце 2025 года в Калифорнии американцы подали коллективный иск против Google: компания включила ИИ-помощника Gemini в сервисах Gmail, Google Chat и Google Meet по умолчанию. Для людей это стало тревожным звоночком: теперь все их личные переписки и вложения — включая сканы паспортов, банковскую, медицинскую и служебную информацию — могут оказаться доступными третьим лицам. И хотя Google заявляет, что не обучает Gemini на таких данных, а лишь использует их для умных функций, истцов возмутило, что опцию отключения спрятали глубоко в настройках конфиденциальности, из-за чего многие не смогли ее найти.
Куда уходят данные
«Крупные корпорации десятилетиями собирают информацию о поведении пользователей: для антиспама, рекомендаций, поиска, безопасности, рекламы, автодополнения, персонализации интерфейсов. ИИ делает эту тему эмоционально более острой, но технически она является продолжением давно существующей практики обработки данных, а не принципиально новым апокалиптическим сценарием», — говорит Дмитрий Зубрецкий, технический директор разработчика решений на основе ИИ targetai.
В сознании граждан и СМИ нередко смешиваются два процесса, продолжает Николай Долгов, эксперт в области информационной безопасности. Первый — умные функции, которые обрабатывают получаемые сведения, чтобы сервис мог нормально работать: сортировать письма, подсказывать ответы и т. д. Второй — обучение базовой ИИ-модели. То, что ИИ анализирует содержимое писем или документов для создания краткого пересказа или ответа, не означает автоматически, что вся личная переписка попадает в датасет для нейросети.
«Главный риск для пользователя не мифическое “обучение на ваших письмах”, а резкое расширение поверхности возможной атаки: чем больше чувствительной информации скапливается в одном месте, тем дороже обходится утечка или взлом аккаунта», — подчеркивает Николай Долгов.
ИТ-компании хотят с помощью личных данных получить три конкретных результата: сделать нейросеть точнее, полезнее и коммерчески ценнее, объясняет Михаил Шрайбман, член правления «Руссофт», эксперт по ИИ-платформам, корпоративным ИИ-агентам и внедрению ИИ в бизнес-процессы. Во-первых, письма, чаты, документы и действия на устройстве дают модели контекст, которого нет в открытых источниках: здесь можно наблюдать, что и как человек пишет, с кем общается, какие задачи решает, какие документы использует, что для него важно. Во-вторых, это помогает удерживать пользователей внутри экосистемы: людям становится сложнее отказаться от умного помощника, так как тот уже встроен в почту, календарь, документы и рабочие процессы. В-третьих, более точный ИИ можно продавать дороже, использовать как преимущество в подписках, корпоративных тарифах и рекламных продуктах.
«Технологическим компаниям выгоден доступ к большим массивам личных сведений, — рассуждает Михаил Шрайбман. — Утверждать, что российские разработчики массово обучают ИИ именно на персональных данных пользователей, пока нельзя. Однако тревожные сигналы есть. В СМИ уже обсуждаются инициативы по обмену обезличенной информацией между компаниями для обучения ИИ, возможный доступ нейросетей к государственным реестрам и масштабная ИИ-обработка электронных медкарт. Это показывает общий тренд: рынку нужны большие данные, в том числе чувствительные».
Угроза возникает, если данные плохо обезличены, если уязвимость позволяет получить доступ к исходной информации либо если речь идет о медицинской, финансовой, юридической или корпоративной тайне
Но специалисты подчеркивают: это не должно пугать. «Даже в тех случаях, когда массив используется для улучшения работы нейросети, у крупных компаний это не выглядит как “взяли почтовый ящик Иванова и скормили модели”, — рассказывает Дмитрий Зубрецкий. — Перед формированием датасетов информация проходит многоступенчатую обработку: фильтрацию, обезличивание, маскирование персональных сущностей, удаление или подмену имен, адресов, телефонов и других идентификаторов. Цель такой обработки как раз в том, чтобы модель училась общим языковым, поведенческим и продуктовым закономерностям, а не анализировала биографию конкретного пользователя».
Больше страха, чем вреда
Нельзя сказать, что передача личных данных нейросетям автоматически несет критические угрозы. К тому же от персонализации сервиса люди получают ощутимую пользу: алгоритмы экономят время поиска, адаптируя выдачу под запрос. Доступ к чувствительной информации скорее вызывает у пользователей неприятное ощущение тотального контроля и цифровой слежки. Опасность возникает лишь при стечении определенных обстоятельств — проще говоря, при взломе. «Компрометация аккаунта открывает доступ уже не к отдельной переписке, а к агрегированному досье обо всей вашей цифровой жизни», — отмечает Николай Долгов.
Дмитрий Зубрецкий также полагает, что для массового пользователя вероятность прямого вреда от самого факта участия обезличенных сведений в улучшении моделей ничтожна. «Теоретически можно вообразить сценарий, в котором нейросеть “вспоминает” фрагмент чьей-то частной информации. Но практически это маловероятно: нужно, чтобы данные конкретного человека попали в обучение в узнаваемом виде, чтобы модель их запомнила, а затем в разговоре с другим человеком возник такой запрос и такой контекст, который активирует именно этот фрагмент. Все описанное гораздо менее реалистичный риск, чем привычные проблемы цифровой безопасности: утечка пароля, фишинг, взлом аккаунта, заражение компьютера вредоносным ПО», — объясняет специалист.
Угроза возникает, если компания нарушает свои же правила, если данные плохо обезличены, если уязвимость позволяет получить доступ к исходной информации либо если речь идет о медицинской, финансовой, юридической или корпоративной тайне. Важно понимать, когда сведения представляют медицинскую тайну, а когда уже нет. Например, в Москве есть цифровая библиотека рентгеновских снимков, 35 обезличенных наборов открыты для скачивания — разработчики ИИ могут использовать их для обучения нейросетей. Ключевое слово здесь — обезличенные: хотя выложенные снимки содержат медицинскую информацию, по ним нельзя определить имя пациента, а значит, тайны подобные данные уже не содержат.
При этом последствия использования ИИ для обработки личной и корпоративной информации будут очень разными — и беспокоиться стоит скорее именно бизнесу. Одно дело — скормить условному ChatGPT историю покупок или свой рацион, чтобы получить совет, и совсем другое — спросить его по поводу рабочих документов. «В бытовом сценарии последствия взаимодействия с нейросетью могут быть относительно мягкими: более навязчивая персонализация, рекламные рекомендации — а OpenAI уже тестирует показ рекламы, ощущение постоянного наблюдения», — констатирует Михаил Шрайбман. Совершенно иначе дело обстоит в бизнес-среде, где неконтролируемая передача сведений в ИИ-сервисы может стать опасным юридическим и операционным инцидентом. В этом случае компании грозят административные штрафы. А если нарушение связано с утечкой персональных данных, причем крупной, суммы перестают быть символическими: компанию могут оштрафовать на сумму до 15 млн рублей и до 3% годовой выручки (до 500 млн) за повторное нарушение (по старым правилам, действовавшим до мая 2025 года, суммы составляли 100 и 300 тыс. рублей соответственно).
Правда, прецедентов миллионных штрафов в России пока не было. Онлайн-академию «Юкидс», допустившую утечку персональных данных более чем 300 тыс. человек, суд оштрафовал всего на 400 тыс. рублей, сославшись на ее статус микропредприятия. РЖД и «Почта России» также в прошлом году заплатили по 150 тыс. рублей. Интересно, что РЖД, допустившую утечку 17 млн строк с информацией о сотрудниках, суд первой инстанции признал виновной, однако Девятый арбитражный апелляционный суд штраф отменил, посчитав вину компании недоказанной.
Отдельная угроза — компрометация внутренних наработок, баз данных и вообще всего, что может представлять коммерческую тайну. «Если во внешний ИИ-сервис попали корпоративные разработки, бухгалтерские документы, клиентские базы или коммерческие условия, компания рискует потерять контроль над конфиденциальной информацией», — предупреждает Михаил Шрайбман. А это чревато серьезными репутационными и финансовыми потерями: клиенты и партнеры вправе предъявить претензии, потребовать компенсации ущерба или расторгнуть договор. Особенно жесткие санкции последуют, если в контрактах были прописаны NDA (соглашение о неразглашении), строгие требования по информационной безопасности или прямой запрет на передачу сведений третьим лицам.
Управляемая прозрачность
Убеждение, что на пользовательских данных нейросети обучают только бесплатные сервисы, не выдерживает проверки. По мнению экспертов, жесткого водораздела между платными и бесплатными сервисами не существует, и платная подписка сама по себе не является гарантией приватности. «Грубое правило “бесплатные обучают, платные — нет” порой работает, но далеко не всегда. Ориентироваться нужно не на стоимость, а на договор», — подчеркивает Николай Долгов. Ключевое значение имеет не сам факт оплаты подписки на почтовый или другой сервис, а условия использования: что конкретно указано в соглашении, можно ли запретить обучение на данных клиента, где физически хранится информация, кто имеет к ней доступ и применяется ли она для улучшения работы ИИ. В описании корпоративных тарифов, например Google Workspace или Microsoft 365 Enterprise, прямо говорится, что личный контент в датасетах не используется. Это контрактное обязательство, а не маркетинговое обещание.
Для бизнеса Михаил Шрайбман рекомендует ориентироваться не на дихотомию «бесплатно/платно», а на модель работы с информацией: отдельный договор, прямой запрет на обучение модели на данных клиента, хранение в нужной юрисдикции, журналирование доступа, возможность развертывания on-prem (установка и эксплуатация на собственной инфраструктуре компании) или в закрытом контуре.
Ключевое значение имеет не сам факт оплаты подписки, а условия использования: что конкретно указано в договоре, можно ли запретить обучение на данных клиента, где физически хранится информация, кто имеет к ней доступ
Полностью избежать обработки персональных сведений в современном мире почти невозможно. «Данные собирают практически все крупные цифровые сервисы: бесплатные, платные, корпоративные, мобильные, облачные. Защитить от этого могут только конкретный договор, политика обработки данных, техническая архитектура, настройки администратора, режим хранения и юридические обязательства провайдера. Но переход на платную почту сам по себе не является достаточной причиной, если других преимуществ нет. С учетом крайне низкой вероятности “эксплойта данных” (использования данных для обучения ИИ-модели. — “Монокль”) через нейросеть покупать подписки только из-за этого страха, скорее всего, нерационально», — заключает технический директор targetai.
К тому же существенно снизить объем и чувствительность передаваемой информации вполне реально. Специалисты выделяют три практических пути.
Первый — корпоративный тариф с отдельным соглашением об обработке данных и отключением обучения на клиентских переписках. Такие планы дают документальные гарантии и позволяют контролировать, как именно используется информация.
Второй — развертывание ИИ в закрытом контуре или on-prem, когда письма, документы и базы данных не покидают периметра компании и не уходят во внешнее облако. Альтернатива — переход на сервисы со сквозным шифрованием (Proton, Tuta и аналоги), где провайдер физически не видит содержимое писем, а значит, не может его обрабатывать.
Третий — технические ограничения на стороне пользователя: запрет сотрудникам загружать персональные данные во внешние нейросети, маскирование имен, телефонов, паспортных данных и реквизитов перед отправкой в модель, отключение умных функций в настройках.
Главный вопрос не столько в том, будут ли данные использоваться для обучения ИИ в принципе, сколько в том, есть ли согласие, обезличивание, контроль доступа, запрет на обратную идентификацию и ответственность за утечки.

