Китайская компания DeepSeek планирует выпустить языковую модель DeepSeek-R2 в период с 15 по 30 августа 2025 года. Новая разработка появится через несколько дней после релиза ChatGPT-5 от OpenAI. Архитектура DeepSeek-R2 будет использовать усовершенствованную систему Mixture of Experts (MoE) с улучшенным механизмом маршрутизации запросов.
По данным инсайдеров, модель может содержать до 1,2 трлн параметров, что почти вдвое превышает показатели предыдущей версии DeepSeek-R1 с 671 млрд параметров. При этом она останется меньше ChatGPT-4/5, где число параметров превышает 1,8 трлн. Обучение проводилось исключительно на китайских чипах Huawei Ascend 910B, что снизило затраты на 97% по сравнению с тренировкой GPT-4.
Кластер Huawei с производительностью 512 PFLOPS (FP16) демонстрирует 91% эффективности решений Nvidia A100. Такой подход соответствует стратегии Китая по сокращению зависимости от американских технологий. Введение DeepSeek-R2 может повлиять на рынок API-доступа к ИИ, где доминируют OpenAI и Anthropic, за счет более конкурентных цен.
На фоне новостей акции китайского производителя чипов Cambricon выросли на 20%, а капитализация компании превысила 355 млрд юаней ($49,7 млрд). Параллельно Huawei представила фреймворк Unified Cache Manager (UCM) для ускорения работы ИИ-моделей. Технология оптимизирует обработку кэшированных данных между разными типами памяти, включая HBM, DRAM и SSD.
В тестах с China UnionPay UCM сократил задержки на 90% и увеличил пропускную способность в 22 раза. Компания намерена открыть исходный код фреймворка в сентябре 2025 года.
