2 недели назад 27 января 2026 в 20:04 29122

Компания DeepSeek представила модель распознавания документов DeepSeek-OCR 2. Этот продукт стал развитием предыдущей версии DeepSeek-OCR. Основные изменения сосредоточены на архитектуре визуального кодировщика, который теперь анализирует информацию в логической последовательности.

Модель DeepSeek-OCR 2 использует новый кодировщик DeepEncoder V2. Он способен динамически менять порядок обработки визуальных данных в зависимости от семантики изображения. Эта технология позволяет системе сначала интеллектуально упорядочивать визуальный контент, а затем приступать к непосредственному распознаванию текста. Разработчики утверждают, что такой подход дает машине возможность обрабатывать документы более близко к человеческой логике чтения.

Традиционные модели компьютерного зрения обычно работают по фиксированному алгоритму. Они делят изображение на отдельные токены, которые затем обрабатывают в жестком порядке — слева направо и сверху вниз. Такой метод, хотя и отличается простотой реализации, имеет существенный недостаток. Он не соответствует тому, как человек читает сложные документы, таблицы или математические формулы. Человеческое восприятие часто совершает смысловые скачки, следуя логическим связям между элементами, а не их строгому пространственному расположению.

Исследователи из DeepSeek в своей научной работе указывают на проблему традиционного подхода. В документах со сложной версткой между визуальными элементами часто существуют четкие логические связи и иерархия. Если модель анализирует их только на основе координат на плоскости, это может ограничить ее способность понимать общую структуру и смысл содержимого. Например, при чтении финансового отчета человек сначала ищет заголовки, затем ключевые показатели, а после этого переходит к примечаниям и сноскам, не обязательно двигаясь строго построчно.

Ключевым нововведением в DeepSeek-OCR 2 стала концепция «визуального причинно-следственного потока» (visual causal flow). Для ее реализации инженеры DeepSeek заменили стандартный визуальный модуль, основанный на архитектуре CLIP, на структуру, которая напоминает языковую модель. Этот новый модуль DeepEncoder V2 не просто пассивно кодирует фрагменты изображения. Он активно выстраивает между ними связи, определяя, какой элемент является логическим предшественником для другого, формируя тем самым граф зависимостей.

Такое изменение в архитектуре имеет потенциальные практические последствия. Системы оптического распознавания символов применяют для автоматизации ввода данных, архивирования документов, анализа сканированных форм и помощи людям с нарушениями зрения. Повышение точности и, что более важно, контекстуального понимания сложных документов может расширить границы этих применений. Модель может стать лучше в интерпретации научных статей со смешанным текстово-формульным содержимым, юридических договоров со специфичной структурой или исторических документов с нестандартной версткой.

Никто не прокомментировал материал. Есть мысли?