2 месяца назад 16 марта 2026 в 15:33 32810

Исследовательское подразделение Alibaba, лаборатория Tongyi, представило и открыло для широкого доступа новую мультимодальную модель под названием Fun-CineForge. Эта разработка ориентирована на профессиональный дубляж видео и призвана решить комплекс технических проблем, с которыми ранее сталкивались алгоритмы при озвучивании фильмов. В основе системы лежит подход, объединяющий работу с четырьмя типами информации, что позволяет ей учитывать не только текст и видеоряд, но и временные параметры сцен.

Ключевое отличие модели от предшественников заключается в обработке так называемого временного модального параметра. Обычные системы синтеза речи ориентируются преимущественно на текст и изображение, но для киноиндустрии критически важна точность в миллисекундах. Fun-CineForge получает на вход не только немой видеофрагмент и текст роли, но и данные о том, когда именно персонаж должен начать и закончить говорить. Это становится особенно важным в сценах, где лицо актера не попадает в кадр, закрыто другим объектом или смазано движением. В таких случаях алгоритм полагается на временные метки, чтобы голос появился строго в нужный промежуток.

Для обучения модели в лаборатории создали специализированный набор данных CineDub. Процесс его сборки автоматизирован и включает очистку исходных аудиодорожек от посторонних шумов, транскрипцию речи и разделение голосов разных персонажей. Разработчики применили механизм двусторонней коррекции на основе больших языковых моделей, что позволило снизить частоту ошибок распознавания текста: для китайского языка показатель упал с 4,53 до 0,94 процента, а для английского — с 9,35 до 2,12 процента. Ошибки разделения спикеров сократились с 8,38 до 1,20 процента. В итоговую базу вошли данные более чем из 350 фильмов на китайском и английском языках.

Архитектурно Fun-CineForge базируется на наработках предыдущей модели синтеза речи CosyVoice3. В дополнение к временным меткам система анализирует визуальный ряд для отслеживания движений губ и мимики, что необходимо для синхронизации артикуляции. Текстовая модальность передает не только реплики, но и описание требуемых эмоций и особенностей голоса персонажа. Аудиоинформация служит эталоном тембра, который модель старается сохранить на протяжении всего ролика, даже при смене кадров или в диалогах с участием нескольких действующих лиц. Возможность клонирования голоса по короткому референсу также заявлена в числе функций.

Экспериментальная проверка показала, что модель наиболее убедительно работает со сценами, где говорит один человек. В режиме монолога или закадрового текста частота ошибок по символам для китайского языка составила 1,49 и 1,90 процента соответственно. Однако главным достижением разработчики называют успешную работу со сценами, включающими диалоги двух и более персонажей. До настоящего времени именно этот сценарий представлял наибольшую сложность для автоматизированных систем дубляжа.

В текущей версии Fun-CineForge накладывает ограничение на длину обрабатываемого фрагмента — до 30 секунд. Это означает, что на данном этапе модель пригодна скорее для покадровой обработки или работы с короткими сценами, чем для автоматического дублирования полнометражных фильмов целиком. Тем не менее, для создателей короткого контента, анимационных роликов, рекламы или разработчиков игр инструмент может представлять практический интерес уже сейчас. Исходный код, веса модели и необходимые файлы опубликованы на платформах GitHub, Hugging Face и ModelScope, что позволяет специалистам со всего мира проводить собственные эксперименты и дообучать систему под конкретные задачи.

Никто не прокомментировал материал. Есть мысли?