Ziyue 4: мультимодальная модель и синтез речи в открытом доступе

4 часа назад 25 мая 2026 в 20:19 1330

Компания NetEase Youdao открыла глобальный доступ к двум ключевым компонентам своей платформы Ziyue 4 версии 4.0 — мультимодальной модели с 27 миллиардами параметров и движку синтеза речи. Первая составляющая ориентирована на образовательные задачи с визуальным вводом данных и демонстрирует лидирующие показатели в решении математических и физических проблем, которые сопровождаются графиками и чертежами. Второй компонент обеспечивает клонирование голоса по трёхсекундному образцу с переносом эмоций и произношения без акцента на четырнадцать языков.

Официальное объявление о переводе активов в разряд открытого программного обеспечения состоялось 22 мая 2026 года. С этого момента любой разработчик получил право бесплатно загружать обе модели, разворачивать их на собственных мощностях и создавать на их основе производные продукты без отчислений правообладателю. Исходный код TTS-движка размещён на платформе GitHub в репозитории netease-youdao/Confucius4-TTS, а мультимодальная модель — на Hugging Face в разделе netease-youdao/Confucius4. Параллельно компания обновила и собственный переводческий модуль, однако его исходные тексты в пакет открытых материалов не вошли.

Мультимодальная модель Ziyue 4 насчитывает 27 миллиардов параметров и относится к категории решений, которые одновременно обрабатывают текст и изображения. Её главная специализация — распознавание условий в задачах с визуальной составляющей: геометрических построениях, функциональных зависимостях, диаграммах, схемах физических экспериментов и тому подобных иллюстрациях. По утверждению создателей, в своём размерном классе модель достигает планки SOTA, то есть показывает лучшие результаты среди аналогов при решении сложных визуально-математических тестов. На испытаниях с чисто текстовыми китайскими задачами уровень точности составил 81,4 процента. Эта цифра означает, что примерно в четырёх случаях из пяти ответ оказывается полностью корректным, а ошибки чаще возникают в заданиях олимпиадного уровня с нестандартной логической структурой.

Одной из центральных технических находок проекта стала переработка механизма цепочек рассуждений. В стандартных больших языковых моделях каждый шаг логического вывода сопровождается генерацией промежуточного текста, что увеличивает объём вычислений и замедляет получение окончательного результата. Разработчики NetEase Youdao собрали массив высококачественных и при этом лаконичных примеров рассуждений, после чего обучили на них модель. Итогом такого подхода стало сокращение длины цепочки на 43,2 процента относительно прежней версии. На практике это ведёт к уменьшению числа обрабатываемых токенов для одного и того же вопроса, а следовательно — к заметному снижению затрат на инференс. При массовой эксплуатации в образовательных сервисах, где запросы исчисляются миллионами в день, экономия вычислительных ресурсов превращается в весьма ощутимую финансовую величину.

Разработчики также адаптировали модель к реальным сценариям учебного процесса в Китае. Для дообучения использовались корпуса данных из домашних заданий, экзаменационных билетов и типовых вопросов, которые школьники и студенты задают в электронных образовательных средах. Благодаря этому модель научилась не просто механически выдавать ответ, а строить объяснение в логике, привычной учащемуся: выделять ключевые этапы решения, указывать на типичные ошибки и предлагать альтернативные способы получения результата.

Второй открытый компонент — движок синтеза речи — построен на архитектуре «речевой кодировщик плюс большая языковая модель». Пользователь загружает короткую аудиозапись с голосом диктора, и система в течение трёх секунд формирует его цифровой слепок. После этого можно вводить произвольный текст и получать озвучивание с сохранением индивидуальных тембральных характеристик исходного образца. Точность идентификации говорящего превышает 97 процентов, а показатель сходства синтезированной речи с оригиналом достигает 85 процентов. Движок умеет переносить не только голос, но и эмоциональную окраску: если человек на предоставленной записи говорит сердито или радостно, сгенерированная речь унаследует ту же интонацию. Поддерживаются четырнадцать языков — китайский, английский, японский, корейский, немецкий, французский, испанский, индонезийский, итальянский, тайский, португальский, русский, малайский и вьетнамский. При кросс-языковом переносе не возникает характерного акцента, который часто проявляется при традиционных методах синтеза. Технология нулевого образца означает, что от пользователя не требуется ни транскрипция загруженного аудио, ни дополнительное обучение модели под конкретного диктора — система работает «из коробки».

Дмитрий Павлов

Никто не прокомментировал материал. Есть мысли?

Ziyue 4: мультимодальная модель и синтез речи в открытом доступе

Отменить ответ