Китайская компания Alibaba 16 февраля 2026 года разместила в открытом доступе модели новой линейки Qwen3.5, реализовав в них смену базовой архитектуры по сравнению с предшественниками. Флагманская версия Qwen3.5-397B-A17B, построенная по гибридной схеме с разреженной смесью экспертов (MoE) и линейным вниманием Gated DeltaNet, обладает общим объемом 397 миллиардов параметров, но активирует из них только 17 миллиардов при каждом прямом проходе. Этот подход позволил создателям модели добиться прироста скорости инференса: в задачах с контекстом в 256 тысяч токенов пропускная способность при декодировании возросла в 19 раз по сравнению с моделью Qwen3-Max, имеющей более триллиона параметров.
Разработчики сделали акцент на расширении мультимодальных возможностей и поддержке языков. В отличие от предшественников, обучавшихся преимущественно на тексте, Qwen3.5 проходила предобучение на смешанных визуально-текстовых данных, что позволяет ей обрабатывать изображения и видео наравне с текстом без использования отдельных модулей. Модель способна напрямую принимать видеопотоки длительностью до двух часов благодаря контекстному окну в 1 миллион токенов. Кроме того, языковой охват увеличили со 119 до 201 языка и диалекта, расширив словарь с 150 до 250 тысяч токенов, что должно повысить эффективность кодирования для ряда языков на 10–60%.
Разработчики модели предоставили результаты сравнительных тестов, в которых Qwen3.5 демонстрирует показатели на уровне или выше некоторых проприетарных систем. В тесте на понимание естественного языка MMLU-Pro модель набрала 87,8 балла, в тесте GPQA, включающем вопросы уровня докторантуры по естественным наукам — 88,4 балла . По данным команды Qwen, в бенчмарке на следование инструкциям IFBench модель получила 76,5 балла, а в тестах агентных возможностей BFCL-V4 и Browsecomp её результаты оказались выше показателей Gemini 3 Pro. Вместе с флагманской моделью выпущена облегченная версия Qwen3.5-Plus, доступная через API и веб-интерфейс на платформе chat.qwen.ai. Стоимость использования API для Qwen3.5-Plus составляет 0,8 юаня за миллион токенов.
Инженеры Alibaba внедрили в новую модель ряд технологических решений, направленных на повышение эффективности обучения и инференса. При обучении использовалась 8-битная точность FP8 для части операций, что позволило сократить потребление памяти активациями примерно на 50% и ускорить процесс тренировки на 10% без потери стабильности при масштабировании до десятков триллионов токенов. Для этапа обучения с подкреплением исследователи создали асинхронный фреймворк, который поддерживает взаимодействие с миллионами агентных сред и ускоряет процесс от начала до конца в 3–5 раз.
