Разработчик модели DeepSeek приступил к ограниченному тестированию функциональности, увеличивающей объём обрабатываемого контекста до одного миллиона токенов. Данное нововведение распространяется на веб-версию и мобильные приложения, при этом официальное наименование обновлённой модели пока не объявлено. Параллельно с расширением контекстного окна компания актуализировала встроенную базу знаний, включив в неё сведения до мая 2025 года включительно, что подтверждается способностью системы точно воспроизводить события апреля 2025 года без обращения к внешним источникам.
Предшествующая версия DeepSeek V3.1, выпущенная в августе 2025 года, оперировала контекстным окном в 128 тысяч токенов . Нынешний показатель в 1 миллион токенов означает восьмикратный рост данного параметра и выводит модель на один уровень с такими системами, как GPT-5 и Gemini 3 Pro, в части способности единовременно анализировать сверхбольшие объёмы текста . Практические испытания демонстрируют, что обновлённая версия DeepSeek способна принять и корректно интерпретировать полный текст романа «Джейн Эйр», содержащий более 240 тысяч токенов, а также, по оценкам специалистов, может обрабатывать объёмы, сопоставимые с трилогией «Три тела» Лю Цысиня .
Увеличение контекстного окна реализовано без кардинальных изменений в базовой архитектуре нейросети. Доступные технические обзоры свидетельствуют, что DeepSeek V3 и его последующие итерации используют механизм Multi-Head Latent Attention, который за счёт сжатия ключей и значений в низкоразмерное пространство существенно экономит объём кеш-памяти KV-Cache при обработке длинных последовательностей . Принцип работы этого механизма предполагает обратную проекцию сжатых тензоров до исходной размерности непосредственно перед вычислением внимания. Данный подход, внедрённый ещё в версии DeepSeek V2, обеспечивает масштабирование контекстного окна без пропорционального роста требований к вычислительным ресурсам.
Одновременно с технологическим усовершенствованием модель сохраняет ограничения в области восприятия визуальной информации. DeepSeek по-прежнему не поддерживает анализ изображений и не является мультимодальной системой, работая исключительно с текстовыми запросами и голосовым вводом . Таким образом, компания следует стратегии углублённого развития лингвистических и аналитических способностей в ущерб расширению модальностей восприятия.
Параллельно с текущим обновлением в отраслевых источниках обсуждается состояние разработки флагманской модели следующего поколения. Предполагается, что она будет построена на архитектуре с параметрами триллионного масштаба, однако её выход откладывается из-за возросшей сложности обучения такой системы . Специалисты связывают задержку не только с инженерными трудностями, но и с необходимостью оптимизации работы на графических процессорах — DeepSeek ранее адаптировал своё программное обеспечение для китайских чипов Huawei, но впоследствии, согласно публичным данным, вернулся к использованию ускорителей NVIDIA .
Рыночный контекст происходящего обновления включает активное расширение кадрового состава разработчика. В последнее время компания разместила десятки вакансий для исследователей в области глубинного обучения, инженеров машинного обучения и специалистов по предобучению больших языковых моделей . Открыты позиции для выпускников вузов, опытных сотрудников и стажёров, что указывает на планомерное наращивание исследовательского потенциала, а не на разовые точечные улучшения.
В ходе тестирования пользователи отмечают не только возросший объём контекста, но и изменение стилистики генерируемых ответов. Язык модели стал характеризоваться как более детализированный и адаптированный к запросам, что некоторые наблюдатели сравнивают с качеством диалоговых систем семейства Claude . Подобная трансформация, вероятно, является следствием дополнительного этапа дообучения, нацеленного на повышение удовлетворённости при непосредственном взаимодействии с системой.
Обновление базы знаний до мая 2025 года имеет значение прежде всего для задач, требующих актуальной информации без использования поисковых модулей. В то время как многие конкурирующие модели ограничены сведениями годичной или большей давности, DeepSeek обеспечивает доступ к событиям восьмимесячной давности в автономном режиме. Это особенно востребовано в сценариях, где подключение к интернету нежелательно по соображениям безопасности или конфиденциальности.
