Китайская компания Alibaba открыла публичный доступ к модели синтеза видео HappyHorse-1.0, разместив её на платформе Arena.ai для тестирования. Разработчики объявили, что продукт находится на завершающем этапе доводки перед полноценным релизом, который намечен на конец апреля 2026 года. По заявлениям команды, ранние оценки показывают высокое качество работы нейросети в задачах видеомонтажа и генерации.
Технология HappyHorse-1.0 построена на архитектуре из 150 миллиардов параметров и 40 слоёв, использующих механизм самовнимания. Ключевое отличие этой модели от аналогов заключается в способности одновременно создавать видеоряд и звуковую дорожку в едином процессе прямого вывода. В отличие от традиционного подхода, где сначала генерируется немая картинка, а потом отдельно подбирается аудиосопровождение с последующей синхронизацией, новый алгоритм изначально формирует целостный ролик со встроенным звуком. Система поддерживает точное совпадение артикуляции губ для семи языков, включая английский, китайский (путунхуа и кантонский диалект), японский, корейский, немецкий и французский.
Скорость работы модели достигается за счёт технологии дистилляции DMD-2, сокращающей количество шагов денойзинга до восьми, а также компилятора MagiCompiler, ускоряющего выполнение кода. В результате на одном ускорителе H100 создание пятисекундного ролика в разрешении 1080p занимает около 38 секунд, а предварительная версия с низким разрешением 256p готова уже через две секунды. При этом разработчики заявляют о снижении потребления вычислительных ресурсов на 60 процентов по сравнению с отраслевыми стандартами.
В начале апреля 2026 года модель появилась в рейтинге Artificial Analysis Video Arena под анонимным именем и без указания принадлежности к какой-либо компании. В слепом тестировании, где пользователи сравнивают ролики, не зная, какая нейросеть их сгенерировала, HappyHorse-1.0 занял первую строчку сразу в нескольких категориях. В текстовой генерации видео без звука показатель ELO достиг 1383 баллов, что на 110 пунктов выше результата ближайшего преследователя, модели Seedance 2.0 от ByteDance. В категории создания роликов из статичных изображений без аудио новинка набрала 1413 баллов, установив рекорд платформы. Однако в задачах с одновременной генерацией изображения и звука разрыв между лидерами оказался минимальным.
Инженеры Alibaba рассчитывают на активное участие сообщества в выявлении мелких недочётов в работе алгоритмов. Доступ к API для внешних разработчиков планируется открыть 30 апреля 2026 года, после завершения текущей фазы оптимизации. На этот же срок назначен полноценный коммерческий релиз продукта на облачной платформе Alibaba. В отличие от некоторых других проектов китайского гиганта, исходный код HappyHorse-1.0, по имеющейся информации, публиковаться не будет, что соответствует недавней стратегии компании по переходу к закрытым моделям.
