2 недели назад 24 января 2026 в 14:34 36512

Компания AMD представила обновленную версию программной платформы ROCm 7.2 для графических ускорителей серии Instinct. Этот релиз содержит ряд оптимизаций для повышения производительности в задачах искусственного интеллекта и высокопроизводительных вычислений. Ключевые улучшения затронули вычислительные библиотеки, поддержку новых форматов данных и механизмы управления многопроцессорными системами.

Версия 7.2 включает набор доработок для библиотеки hipBLASLt, которая ориентирована на операции с матрицами. Эти доработки расширяют возможности тонкой настройки, добавляют функции для воспроизводимости результатов, такие как восстановление параметров из журнала, и оптимизируют шаблоны доступа к памяти через метод swizzle A/B. Для ускорителей AMD Instinct MI200 и MI300 эти изменения обеспечили измеримый прирост производительности по сравнению с предыдущей версией ROCm 7.1.

Для моделей графических процессоров MI350X и MI355X в релиз добавили улучшения, связанные с технологией SR-IOV и отказоустойчивостью. Система теперь может избегать использования поврежденных страниц памяти, что повышает доступность GPU при сбоях. Комплекс мер по безопасности включает очистку энергозависимой памяти и защиту от фаззинга регистров MMIO. Эти функции важны для облачных и корпоративных сред, где работают многопользовательские виртуализированные нагрузки.

Инженеры AMD провели глубокую настройку ядер GEMM для форматов данных FP8, BF16 и FP16 на платформах MI300X, MI350 и MI355. Оптимизации затронули выбор вычислительных ядер, стратегии разделения данных, организацию памяти и перемещение данных. Целью было лучшее соответствие формам и шаблонам выполнения конкретных моделей, таких как GLM-4.6 и Llama 2. В результате задачи обучения и вывода нейросетей должны выполняться с более высокой пропускной способностью и меньшей задержкой.

Компиляторная инфраструктура и графовый стек ROCm, включая компоненты rocMLIR и MIGraphX, теперь поддерживают форматы пониженной точности FP8 и FP4. Эта работа закладывает основу для эффективного использования новых типов данных в перспективных задачах искусственного интеллекта. Поддержка также стала важным элементом для подготовки вывода на рынок новых продуктов линейки MI350.

В новой версии улучшили механизмы коммуникации между графическими процессорами. Библиотека rocSHMEM теперь поддерживает бэкенд GPUDirect Async как для внутрисистемного, так и для межсерверного взаимодействия. Это позволяет GPU обмениваться данными напрямую или через сетевые адаптеры с поддержкой RDMA, минуя центральный процессор и сокращая задержки.

Библиотека коллективных операций RCCL стала лучше учитывать топологию сети. При наличии конфигурации с четырьмя сетевыми интерфейсами, система может распределять коммуникации по всем доступным каналам, а не использовать их как единый логический линк. Алгоритмы оптимизируют выравнивание потоков данных, чтобы минимизировать конфликты и повысить общую utilization пропускной способности. Интеграция функций из NCCL 2.28 привнесла более продвинутые алгоритмы коллективных операций, что повысило стабильность и скорость распределенного обучения.

Обновления инфраструктуры компилятора в ROCm 7.2 добавили поддержку технологии ThinLTO для GPU AMD. Этот метод позволяет компилятору проводить оптимизации сразу по нескольким объектным файлам, принимая более обоснованные решения о встраивании функций и удалении неиспользуемого кода. Такой подход дает преимущества глобальной оптимизации, но без существенного увеличения времени сборки, что критично для фреймворков вроде PyTorch, Triton, XLA и пользовательских стеков ядер.

AMD провела работу по оптимизации производительности популярных языковых моделей на своих ускорителях. Для GPU MI355X и MI350X настроили модель Llama 3.1 405B, применив оптимизации на уровне ядер и памяти. Модели Llama 3 70B и Llama 2 70B также доработали, чтобы они полнее использовали архитектурные возможности этих процессоров. Для серии MI300X сфокусировались на оптимизации операций GEMM для модели GLM-4.6 и внесли улучшения в DeepEP для более эффективной загрузки GPU.

В релиз включили функцию Node Power Management для динамического управления электропитанием в узлах с несколькими GPU. Система использует телеметрию и алгоритмы контроля, чтобы автоматически регулировать тактовые частоты графических процессоров и удерживать общее энергопотребление узла в заданных рамках. Статус NPM можно проверить с помощью утилиты AMD SMI. Функция доступна для ускорителей AMD Instinct MI355X и MI350X в средах bare-metal и виртуализации KVM SR-IOV при условии использования пакета Platform Level Data Model версии 01.25.17.07.

Никто не прокомментировал материал. Есть мысли?