Новая модель искусственного интеллекта ZAYA1 от компании Zyphra использует графические процессоры AMD Instinct MI300X для обучения. Архитектура смешанных экспертов содержит 8,3 миллиарда параметров при активации только 760 миллионов параметров. Система демонстрирует результаты на уровне или выше современных открытых моделей в тестах на логику, математику и программирование.
Модель ZAYA1-Base демонстрирует конкурентные показатели относительно Qwen3-4B от Alibaba, Gemma3-12B от Google, Llama-3-8B от Meta и архитектуры OLMoE. Тестирование проводили на стандартных наборах данных для оценки способностей искусственного интеллекта к рассуждению, математическому анализу и генерации программного кода. Архитектура смешанных экспертов активирует только часть параметров для каждой конкретной задачи.
Объем памяти 192 ГБ в каждом ускорителе MI300X позволил избежать разделения экспертов или тензоров между устройствами. Этот подход уменьшил сложность архитектуры и повысил общую пропускную способность системы. Оптимизированная система ввода-вывода AMD сократила время сохранения модели более чем в десять раз по сравнению со стандартными решениями.
Инфраструктура для обучения построена на основе сотрудничества компаний AMD и IBM. Система использует высокопроизводительную сетевую архитектуру IBM Cloud и специализированную структуру хранения данных. Совместный проект анонсировали в третьем квартале 2024 года как платформу для работы со сложными вычислительными нагрузками.
Графические процессоры AMD Instinct MI300X основаны на архитектуре CDNA 3 и производятся по 5-нанометровому технологическому процессу. Каждый ускоритель объединяет вычислительные модули и память HBM3 в едином корпусе. Пропускная способность памяти достигает 5,2 терабайта в секунду при энергопотреблении 750 ватт.
