9 месяцев назад 14 августа 2025 в 12:41 15445

Китайская компания DeepSeek планирует выпустить языковую модель DeepSeek-R2 в период с 15 по 30 августа 2025 года. Новая разработка появится через несколько дней после релиза ChatGPT-5 от OpenAI. Архитектура DeepSeek-R2 будет использовать усовершенствованную систему Mixture of Experts (MoE) с улучшенным механизмом маршрутизации запросов.

По данным инсайдеров, модель может содержать до 1,2 трлн параметров, что почти вдвое превышает показатели предыдущей версии DeepSeek-R1 с 671 млрд параметров. При этом она останется меньше ChatGPT-4/5, где число параметров превышает 1,8 трлн. Обучение проводилось исключительно на китайских чипах Huawei Ascend 910B, что снизило затраты на 97% по сравнению с тренировкой GPT-4.

Кластер Huawei с производительностью 512 PFLOPS (FP16) демонстрирует 91% эффективности решений Nvidia A100. Такой подход соответствует стратегии Китая по сокращению зависимости от американских технологий. Введение DeepSeek-R2 может повлиять на рынок API-доступа к ИИ, где доминируют OpenAI и Anthropic, за счет более конкурентных цен.

На фоне новостей акции китайского производителя чипов Cambricon выросли на 20%, а капитализация компании превысила 355 млрд юаней ($49,7 млрд). Параллельно Huawei представила фреймворк Unified Cache Manager (UCM) для ускорения работы ИИ-моделей. Технология оптимизирует обработку кэшированных данных между разными типами памяти, включая HBM, DRAM и SSD.

В тестах с China UnionPay UCM сократил задержки на 90% и увеличил пропускную способность в 22 раза. Компания намерена открыть исходный код фреймворка в сентябре 2025 года.

Никто не прокомментировал материал. Есть мысли?