Технологическая компания DeepSeek объявила об открытом доступе к своей последней модели DeepSeek-VL2. Согласно предоставленной информации, эта новая визуальная модель достигла превосходной производительности по различным оценочным метрикам, что стало важной вехой в переходе компании к архитектуре Mixture of Experts (MoE).
Модель DeepSeek-VL2 может похвастаться несколькими ключевыми особенностями, о которых говорится в официальном пресс-релизе. Качество данных, используемых для обучения модели, удвоилось по сравнению с предыдущим поколением DeepSeek-VL, появились новые возможности, такие как понимание мемов, визуальная локализация и создание визуальных историй.
Архитектурный дизайн DeepSeek-VL2 включает стратегию нарезки для поддержки изображений с динамическим разрешением для визуального компонента, в то время как языковая часть использует структуру MoE для достижения низких затрат и высокой производительности. Процесс обучения основан на трехэтапном подходе, использованном в DeepSeek-VL, с дополнительными усовершенствованиями для решения проблемы обработки переменного количества фрагментов изображений за счет балансировки нагрузки и стратегий параллельной обработки изображений и текстовых данных.
Одной из примечательных особенностей DeepSeek-VL2 является поддержка динамических разрешений. Модель использует один SigLIP-SO400M в качестве кодера изображений и применяет стратегию разделения изображения на несколько подизображений и глобальную миниатюру для обеспечения этой функциональности. Такой подход позволяет модели работать с разрешениями до 1152×1152 и экстремальными соотношениями сторон 1:9 или 9:1, что расширяет ее применимость в различных случаях использования.
Кроме того, в модель DeepSeek-VL2 было включено больше данных из документов научных исследований, что позволило ей понимать широкий спектр научных графиков и диаграмм. В модели также появилась функция Plot2Code, которая может генерировать Python-код на основе предоставленных изображений.