«Зануда с ужасной прической» — так однокурсники звали Ляна Вэньфэна, сына простых учителей из портового года Чжаньцзян. Десять лет назад, окончив престижный китайский университет, Лян задумался о создании алгоритмов искусственного интеллекта для биржевых операций. Так в 2019 году появился преуспевающий хедж-фонд High-Flyer, который вскоре уже управлял фондовыми активами на десятки миллиардов долларов.
А совсем недавно, в конце января, Лян Вэньфэн вывел на рынок обновленную версию ИИ-сервиса DeepSeek — и всего за несколько дней она побила все рекорды скачивания, обрушила биржевые котировки мировых хайтек-корпораций и заставила говорить о новом витке развития технологий искусственного интеллекта, максимально приближенном к человеческому мышлению.
Переполох на бирже поднялся после публикации данных об инвестициях в китайский проект. Было объявлено, что разработкой последней модели DeepSeek занималась команда из 200 человек, которая, по официальной версии, создала продукт всего за два месяца, инвестировав в него 5,9 млн долларов. Для сравнения: американская компания OpenAI, владеющая популярным ChatGPT, была создана десять лет назад, а штат ее сотрудников насчитывает около 4500 человек. Инвесторы, такие как Microsoft и другие крупные компании, вложили в OpenAI уже более 6,6 млрд долларов. Как говорится, почувствуйте разницу.
И при столь небольших ресурсах DeepSeek оказался серьезным конкурентом ChatGPT, а по некоторым параметрам даже превзошел американский сервис. Прежде всего потому, что китайский продукт — это решение на открытом коде и его разработчикам удалось применить оригинальные технологии, оптимизирующие вычислительные мощности.
Чипов меньше, точность больше
Первая версия DeepSeek (модель Coder) появилась еще в 2023 году; в мае и декабре 2024-го стали публично доступны усовершенствованные версии V2 и V3 соответственно, но фурор вызвало вышедшее в январе 2025 года последнее семейство языковых моделей DeepSeek-R1 и DeepSeek-R1-Zero, основанных на версии V3. По данным Statista, после появления этого продукта веб-трафик сайта deepseek.com взлетел в 23 раза, до 278 млн посещений. А в App Store приложение с чат-ботом от DeepSeek заняло первое место в 157 странах.
Согласно официальному техническому отчету, для обучения последней модели DeepSeek китайцы задействовали кластер примерно из 2000 чипов Nvidia (приобретенных еще до санкций США), тогда как ранее для похожих работ использовались десятки тысяч чипов. И при этом новый ИИ-сервис показывает отличные результаты в независимых тестах, которые оценивают бенчмарк — точность моделей искусственного интеллекта в различных задачах: обработке текста, распознавании изображений, выполнении сложных математических расчетов и др. «Китайская разработка показала большую точность на бенчмарке. Уровень качества DeepSeek близок к коммерческой версии ChatGPT, но для обучения китайской нейросети не потребовалось ни огромного количества видеопамяти, обеспечиваемой дорогостоящими процессорами GPU, ни инфраструктурных затрат, без которых не может обойтись OpenAI с ее ChatGPT», — комментирует Михаил Красильников, директор департамента разработки и внедрения систем искусственного интеллекта IT-компании BIA Technologies.
Сейчас любой желающий, в том числе в России, может скачать на смартфон приложение DeepSeek и пользоваться им, например, в виде чат-бота, умеющего отвечать на разные вопросы. Китайский сервис также умеет писать и переводить тексты разных объемов и жанров, искать информацию в интернете, генерировать креативные идеи (сюжеты, дизайн-концепции и пр.) и программировать на многих языках.
Пока пользоваться услугами DeepSeek предлагается бесплатно. Деньги сервис просит лишь в том случае, если нужно обрабатывать большие объемы информации. За 1 млн единиц — токенов (частей) текста, под которыми подразумевается один знак или одно слово, — придется заплатить от 0,07 до 2,19 доллара в зависимости от задачи. Для среднего уровня задач траты составят всего несколько долларов в месяц — это ощутимо дешевле, чем ChatGPT, подписка на который обойдется в 200 долларов за тот же срок.
Впрочем, в некоторых случаях «китаец» уступает американскому аналогу. «В простых запросах DeepSeek не дает предсказуемого результата. Например, ChatGPT за считаные секунды выдает шаблоны деловых писем или пишет короткие тексты, требующие минимальной редактуры. DeepSeek выполняет эти задачи чуть дольше, а корректировок приходится вносить больше, — отмечает Евгений Перов, директор по продукту в корпоративном мессенджере Compass. — Разница обусловлена тем, что ChatGPT давно работает с реальными задачами пользователей и постоянно дообучается на основе обратной связи. Сервису же DeepSeek такое дообучение еще предстоит. Но на горизонте двух-трех лет китайская модель сможет выполнять базовые запросы так же быстро, как и ее конкурент от OpenAI».
Продвинутые пользователи и компании могут использовать DeepSeek как цифровую платформу и инструмент для решения более сложных задач. Так как DeepSeek — продукт c открытым кодом (open source), его можно использовать при создании, например, своей системы для заполнения стандартных юридических документов, проверки наличия нужной номенклатуры товара на складе или отслеживания правильной отгрузки.
На плечах других разработчиков
Напомним, что, согласно принципам open source, исходники программного продукта открыты, их разрешается беспрепятственно анализировать и улучшать. ChatGPT, напротив, работает по модели закрытого кода (closed source), когда никто за пределами компании не знает, например, так называемые веса — параметры, которые алгоритм регулирует в процессе обучения, чтобы минимизировать ошибки и улучшить производительность.
Китайцы же воспользовались тем, что в мире уже накопился достаточно большой массив ИИ-моделей с открытым кодом. В частности, разработчики DeepSeek изучили модель LLaMa от американской корпорации Meta (признана в России экстремистской), которая, потратив сотни миллионов долларов, выложила все детали и схему тренировок своих алгоритмов в открытый доступ. Собственные модели open source есть и у китайских корпораций Alibaba и Tencent — их наработки также попали в новый сервис.
Уровень качества DeepSeek близок к коммерческой версии ChatGPT, но для обучения китайской нейросети не потребовалось ни огромного количества видеопамяти, ни инфраструктурных затрат, без которых не может обойтись OpenAI с ее ChatGPT
Но инженеры DeepSeek не просто использовали чужие модели, а предложили ряд нестандартных решений на их основе, улучшив работу алгоритмов. «В сравнении с другими моделями китайская более эффективно использует память. Вместо традиционных 32-битных чисел с плавающей точкой (FP32) в DeepSeek-R1 применяются 8-битные числа (FP8), — объясняет Филипп Щербанич, IT-эксперт, разработчик программных решений. — Здесь также реализована технология сжатия буфера обмена (кеша), который занимает большую часть видеопамяти (VRAM). Это позволило достичь коэффициента сжатия в 93 процента. Новый подход значительно снижает объем памяти, необходимой графическим процессорам, — в итоге DeepSeek использует меньше процессоров, чем тот же OpenAI. А чем меньше памяти и графических процессоров, тем дешевле ИИ в развертывании и обучении».
Кроме того, в китайском сервисе успешно внедрен принцип многозадачности. «Другой важной оптимизацией стало многотокенное прогнозирование. В отличие от многих существующих нейросетей, генерирующих текст последовательно (по одному токену или фрагменту за раз), DeepSeek выдает несколько токенов одновременно, что заметно увеличивает скорость решения задач», — продолжает эксперт.
Стоит отметить и удачно реализованный принцип параллельных вычислений. «В DeepSeek используется архитектура Mixture of Experts (MoE), — подчеркивает Филипп Щербанич. — Разработчики не стали создавать единую гигантскую нейросеть, а разбили ее на несколько компактных специализированных подмоделей. Все подмодели работают параллельно, поэтому DeepSeek можно запускать даже на потребительских видеокартах. Требования к вычислительным мощностям невелики, но качество при этом не теряется».
Ну и наконец, китайским инженерам удалось приблизить алгоритм к человеческому мышлению, заложив принцип самообучения. «Важнейшим элементом модели стало использование обучения с подкреплением (Reinforcement Learning, RL). В отличие от традиционного подхода, когда модель обучается на готовых данных, DeepSeek позволяет нейросети генерировать собственные данные, оценивать их и получать награды за качественные результаты, — говорит Филипп Щербанич. — С RL экспериментируют уже несколько лет, но китайцам удалось соединить разные подходы и довести их до практического применения. А одним из важнейших достижений стало то, что DeepSeek доказал эффективность “чистых” методов RL на этапе постобучения. В результате модель продемонстрировала улучшенные способности к рассуждению. Мы видим, как простые и эффективные методы RL существенно повышают качество обучения, — значит, затраты на развитие новых мощных языковых моделей можно сократить».
Удержаться на высоте
Принцип открытого кода может сыграть с DeepSeek злую шутку, если находящимися в открытом доступе наработками компании воспользуются конкуренты. Но китайцы полны решимости удержать взлет на фоне стремительно растущего ИИ-рынка. По данным Statista, в прошлом году он достиг 298 млрд долларов — это на 43% больше, чем позапрошлом. Ожидается, что по итогам 2025 года рынок вырастет еще на 40%, до 420 млрд, а в 2028 году перешагнет планку в 1 трлн (см. график).
Сразу после появления DeepSeek 27 января акции ведущего американского производителя графических процессоров Nvidia упали на 17%, на столько же рухнули акции американского производителя полупроводников Broadcom, хайтек-гигант Oracle потерял 13%, Microsoft — 3%. Бумаги европейской Siemens Energy, производителя энергетического оборудования для ИИ-инфраструктуры, подешевели на 20%, а американская энергетическая корпорация Constellation Energy лишилась 21% своей стоимости, поскольку связывала рост своей прибыли с увеличением расхода энергии на нейросети. Впрочем, к середине февраля биржевое падение удалось скорректировать: американские корпорации убедили инвесторов, что ради лидерства на рынке нужно продолжать финансовые вливания.
На этом фоне западные страны объявили DeepSeek очередной китайской угрозой. В первые дни на сервис посыпались обвинения в том, что его создатели украли технологии у американских конкурентов и лукавят с реальными данными об инвестициях в проект, а у самого алгоритма имеются проблемы с безопасностью. Однако постепенно накал страстей утих. Президент США Дональд Трамп сдержанно заявил, что не воспринимает DeepSeek как угрозу Америке, но отметил, что это тревожный звоночек для местного хайтек-бизнеса.
Несмотря на это, давление на новый сервис продолжается. Так, норвежский парламент запретил местным политикам использовать DeepSeek из соображений безопасности. Италия заблокировала чат-бот компании из-за недостатка информации об обработке персональных данных, а власти Франции, Нидерландов, Бельгии, Люксембурга и ряда других стран запросили у разработчиков разъяснения по вопросам информационной безопасности.
В Азии с заявлением об угрозе DeepSeek выступила разведка Южной Кореи; сотрудникам некоторых японских компаний (Toyota, Mitsubishi Heavy Industries, SoftBank) не разрешается использовать китайское решение. Зато другая японская компания, Nissan, вдруг неожиданно объявила, что собирается внедрять сервис в свой новый электрический седан N7. Китайские же компании, в частности крупные автопроизводители BYD и Chery, объявили о сотрудничестве с DeepSeek.
Интеллектуальный пример
Представители многих стран говорят, что вдохновлены взлетом китайского стартапа. Например, в Объединенных Арабских Эмиратах сейчас готовятся к запуску новых моделей искусственного интеллекта. В России же, по данным Yota, DeepSeek стал самым скачиваемым ИИ-сервисом по итогам января. При этом наблюдатели оптимистично оценивают перспективы развития российских массовых сервисов подобного типа. «Технически это, безусловно, возможно, — говорит Андрей Смирнов, руководитель IT-компании Serverspace. — Современные научные исследования доступны всему миру, а в нашей стране традиционно сильные школы математики, лингвистики и компьютерных наук. Создание полноценного отечественного аналога китайского алгоритма зависит прежде всего от уровня инвестиций, наличия подходящих вычислительных ресурсов и возможности собрать команду высококвалифицированных специалистов. Большие облачные платформы или собственная вычислительная инфраструктура, грамотная организация процесса обучения и доступ к обширным датасетам — все это критически важно для успеха проекта. При достаточной политической и финансовой поддержке, а также при скоординированной работе научного сообщества, бизнеса и государства российские языковые модели смогут достичь уровня ChatGPT или DeepSeek».
«Если сейчас технологическая гонка пойдет в области совершенствования алгоритмов, а не в области оборудования, как ранее, успех перестанет зависеть от закупки видеокарт и постройки ЦОДов. Тогда отечественные модели получат возможность догнать и перегнать иностранные. Уверен, аналогичные решения с похожими результатами появятся на российском рынке уже в ближайшее время», — соглашается Михаил Красильников.
Свои ИИ-технологии у нас сегодня развивает ряд крупных компаний, есть и заметные стартапы. «Наиболее близки к созданию собственного продвинутого сервиса компании “Яндекс”, Сбер, Т-банк, МТС, — считает Дмитрий Зборошенко, ИИ-архитектор компании Softline Digital (ГК Softline). — Они уже успешно обучили свои языковые модели или дообучили имеющиеся под русскоязычный домен. Отдельно можно отметить инженеров-исследователей из Vikhr Models (“Вихрь”), которые развивают модели open source в русскоязычном домене».
Впрочем, серьезным сдерживающим фактором для развития ИИ-проектов остается ограниченный доступ к вычислительным ресурсам. «Лучшие на сегодня российские продукты — это, пожалуй, большие языковые модели (LLM) от “Яндекса” и Сбера, — указывает Константин Попандопуло, технический директор компании Umbrella IT. — Но пока они ощутимо отстают от актуальных зарубежных аналогов, в том числе от DeepSeek. Причина такого положения кроется в ограниченных финансовых ресурсах, а также в действующих санкциях, которые затрудняют доступ к необходимым вычислительным мощностям и приводят к повышению цен на оборудование».