Вышел DeepSeek-V4 с 1,6 трлн параметров и окном в миллион токенов

2 месяца назад 25 апреля 2026 в 16:19 36707

Компания DeepSeek сделала общедоступной предварительную версию своей новой большой языковой модели DeepSeek-V4. Новинка вышла в двух редакциях: флагманская DeepSeek-V4-Pro с 1,6 триллиона параметров и облегчённая DeepSeek-V4-Flash с 284 миллиардами параметров. Обе сборки работают на архитектуре Mixture-of-Experts, которая задействует лишь малую долю всех параметров при обработке каждого отдельного запроса — 49 миллиардов у Pro и 13 миллиардов у Flash.

Система поддерживает контекстное окно объёмом один миллион токенов, что сопоставимо с содержанием 15-20 романов среднего размера. При работе с таким длинным контекстом вычислительные затраты на один токен у версии Pro составляют лишь 27 процентов от показателей предшественницы V3.2, а кэш ключей и значений сократился до 10 процентов. Для младшей модели Flash эти цифры ещё ниже: 10 и 7 процентов соответственно. Архитектурно такого результата удалось достичь за счёт гибридного механизма внимания, объединившего два подхода — компрессионное разреженное внимание (Compressed Sparse Attention) и сильное компрессионное внимание (Heavily Compressed Attention).

Разработчик предоставил модели под лицензией MIT, разрешающей свободное использование и коммерческую доработку. В области тестов на знания об окружающем мире версия Pro превзошла все прочие открытые системы и уступила лишь закрытой модели Google Gemini-3.1-Pro. В бенчмарках на программный код, по данным независимой платформы Vals AI, новая модель обошла всех открытых конкурентов и приблизилась к уровню GPT-5.4. При этом компания признала, что по некоторым направлениям производительность новой модели отстаёт от передовых американских систем на три-шесть месяцев.

Ценовая политика DeepSeek традиционно остаётся одной из самых доступных на рынке. За использование версии Flash через прикладной интерфейс (API) взимается 0,14 доллара за миллион входящих токенов и 0,28 доллара за миллион исходящих. Для сравнения, GPT-5.4 Nano стоит 0,20 доллара за миллион входящих и 1,25 доллара за миллион исходящих токенов, а Claude Haiku 4.5 — 1 и 5 долларов соответственно. Версия Pro оценена в 1,74 доллара за миллион входящих токенов и 3,48 доллара за миллион исходящих, тогда как у закрытых аналогов цены достигают 25-30 долларов за тот же объём вывода.

Дмитрий Павлов

Никто не прокомментировал материал. Есть мысли?

Вышел DeepSeek-V4 с 1,6 трлн параметров и окном в миллион токенов

Отменить ответ