Официально вышла новейшая модель большого языка (LLM) Llama 3. Новая модель представлена в двух вариантах: Llama 3 8B с 8 миллиардами параметров и Llama 3 70B с 70 миллиардами параметров.
Llama 3 превосходит по производительности предшественников, Llama 2 8B и Llama 2 70B. Разработчики утверждают, что новые модели Llama 3 являются одними из самых производительных генеративных моделей искусственного интеллекта, доступных в настоящее время, поскольку они были обучены на двух специально созданных кластерах с 24 000 GPU.
Набор обучающих данных для Llama 3 значительно больше, чем для Llama 2: более 15 триллионов токенов, собранных из общедоступных источников. Этот набор данных в 7 раз больше, чем тот, что использовался для Llama 2, и включает в себя в 4 раза больше кода.
Модели Llama 3 скоро будут доступны на различных платформах, включая AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM и Snowflake. Кроме того, модели будут поддерживаться аппаратными платформами от AMD, AWS, Dell, Intel, NVIDIA и Qualcomm.
В ближайшие месяцы разработчики LLama планируют представить новые возможности, более длинные контекстные окна, дополнительные размеры моделей и повышенную производительность для этой модели.