3 недели назад 17 октября 2024 в 18:46 10668

NVIDIA выпустила модель Llama-3.1-Nemotron-70B-Instruct — большую языковую модель, основанную на Llama3.1 70B от META. Модель Nemotron была адаптирована NVIDIA для улучшения полезности ответов языковой модели.

Компания использовала методы тонкой настройки с помощью структурированных данных, чтобы направить модель и позволить ей генерировать более полезные ответы. Несмотря на наличие всего 70 миллиардов параметров, модель Nemotron, как сообщается, превосходит лучшие модели ведущих исследовательских лабораторий ИИ, такие как GPT-4o от OpenAI и Claude 3.5 Sonnet от Anthropic.

В таких оценках, как Arena Hard, модель NVIDIA Llama3.1 Nemotron 70B набрала 85 баллов, в то время как GPT-4o и Sonnet 3.5 получили 79,3 и 79,2 балла соответственно. Модель Nemotron также занимает первое место в других бенчмарках, таких как AlpacaEval и MT-Bench, с результатами 57,6 и 8,98 баллов соответственно. Для сравнения, Claude и GPT достигли 52,4 / 8,81 и 57,5 / 8,74 соответственно.

Модель Llama-3.1-Nemotron-70B-Instruct была обучена с помощью обучения с подкреплением на основе человеческой обратной связи (RLHF), в частности с использованием алгоритма REINFORCE. В процессе обучения использовалась модель вознаграждения, основанная на архитектуре большой языковой модели, и пользовательские подсказки, разработанные для управления поведением модели. В качестве начальной точки отсчета использовалась уже существующая языковая модель, настроенная на инструкции.

Для локального запуска модели Llama-3.1-Nemotron-70B-Instruct пользователям понадобятся либо четыре 40 ГБ, либо два 80 ГБ VRAM GPU и 150 ГБ свободного дискового пространства. NVIDIA разместила модель на своем сайте.

Модель Nemotron также прошла «клубничный» тест, в котором нужно было сосчитать определенные буквы в слове. Однако, похоже, что этот тест был частью тонкой настройки, так как модель провалила следующий тест, показанный на изображении.

Никто не прокомментировал материал. Есть мысли?