Лаборатория Tongyi (Alibaba) выпустила языковую модель Qwen3.5‑LiveTranslate‑Flash. Новинка способна распознавать аудио на 60 языках и воспроизводить речь на 29 языках практически в реальном времени. Ключевая особенность этой системы – задержка передачи информации между источником и получателем (end‑to‑end latency) не превышает 2,8 секунды.
Модель умеет не просто переводить, но и копировать голосовую окраску говорящего человека. После анализа короткого речевого фрагмента синтезированный голос начинает разговаривать на другом языке, сохраняя исходные акустические особенности тембра. Такой эффект достигается за счет фирменного алгоритма Real‑time Voice Cloning, работающего прямо в процессе сеанса перевода.
Архитектура переводчика включает в себя технологию Readable Unit. Система не дожидается окончания предложения, а делит речевой поток на осмысленные фрагменты и на лету превращает их в текст или голос. По сравнению с предшествующим выпуском Qwen3‑LiveTranslate‑Flash время задержки снизилось почти на 30% – с 3 секунд до текущих 2,8 секунды. Количество поддерживаемых языков выросло в три с лишним раза: если прошлая версия понимала 18 языков, то новая охватывает уже 60. Объем синтезируемой речи также расширился с 10 до 29 языков.
Инженеры компании внедрили в алгоритм механизм приоритезации терминов. В память нейросети можно загрузить до тысячи специальных слов и выражений: имена, географические названия, бренды, номера моделей, медицинские или юридические термины. При переводе система автоматически распознает эти слова и обрабатывает их согласно заданным правилам. Эта настройка особенно полезна для технических презентаций, медицинских конференций, юридических слушаний и корпоративных тренингов.
Qwen3.5‑LiveTranslate‑Flash относится к классу мультимодальных систем. В отличие от классических переводчиков, она использует не только звуковой поток, но и визуальный контекст. При возникновении неоднозначной ситуации, наложении шумов или наличии у слова нескольких смыслов алгоритм анализирует окружающую картинку. Распознавание движения губ, жестов рук, текста на экране и физических объектов вокруг помогает уточнить перевод и выбрать верную интерпретацию.
На бенчмарках многоязычного аудиоперевода FLEURS и CoVoST2 новая разработка от Alibaba обошла по точности популярные сегодня модели, среди которых Google Gemini‑2.5‑Flash и GPT‑4o‑Audio‑Preview. Качество перевода, измеренное по этим тестам, оказалось ощутимо выше показателей предшествующей версии на базе Qwen3‑LiveTranslate‑Flash. При этом запас прочности практически не пострадал: по заявлениям разработчиков, перевод практически не уступает по качеству неспешным офлайн‑системам, для которых не требуется мгновенная выдача результата.
Создатели модели видят её применение в нескольких востребованных направлениях. Система помогает вести многоязычные конференции в реальном времени, где участники говорят на разных языках. Организаторы трансляций для зарубежной аудитории могут накладывать переведённый звук прямо во время эфира. Учителя онлайн‑школ и бизнес‑переговорщики также получают возможность общаться без языковых барьеров. В тестовом режиме технологию уже использовали в смарт‑очках для общения с продавцами в Таиланде.
Модель основана на мыслительной архитектуре Thinker‑Talker, характерной для всей линейки Qwen3.5‑Omni. Блок Thinker занимается анализом перемежающегося видеоряда и звука, создавая письменный перевод. Затем в дело вступает блок Talker, который синтезирует речь, используя исходные аудиосвойства голоса оригинала. Вместе эти компоненты работают в режиме потоковой передачи данных по небольшим частям (chunk‑wise streaming), что и обеспечивает столь малую задержку.
