Исследователи из Калифорнийского университета и Microsoft Research представили новый подход под названием Flow-DPO (Flow and Direct Preference Optimization) для расширения возможностей математических рассуждений больших языковых моделей (LLM). Этот метод использует совместную работу двух LLM для создания более детальных и точных путей рассуждений для решения математических задач.
Традиционный подход, при котором для решения математических задач используется одна LLM, часто сталкивается с ограничениями, связанными с отсутствием достаточной информации об обратной связи и качеством аннотированных данных. Flow-DPO решает эти проблемы за счет использования потоков онлайн-обучения и прямой оптимизации предпочтений.
Техника Flow-DPO состоит из двух основных компонентов:
- Поток производства с инкрементным выходом
Flow-DPO использует инкрементный поток производства вывода, в котором два независимых LLM, называемых Answer LLM и Stop LLM, работают вместе посредством итеративного взаимодействия для построения решения. Answer LLM генерирует конечные блоки ответов, а Stop LLM определяет, достиг ли частичный ответ своего конечного состояния. Оба LLM проходят итеративное обучение для постоянного совершенствования.
Хотя они построены на одной и той же базовой модели, Answer LLM и Stop LLM настраиваются с помощью различных адаптеров LoRA, что позволяет им специализироваться на выполнении соответствующих задач. В процессе обучения Flow-DPO обеспечивает тонкий контроль над размерами блоков, адаптируясь к различным концепциям и методам, при этом большие размеры блоков приближаются к генерации одной модели.
- Онлайн-обучение потока с развертыванием
Flow-DPO также включает в себя онлайн-обучение DPO и развертывание для улучшения процесса Flow. Для каждой входной задачи Answer LLM генерирует фрагмент ответа до тех пор, пока не будет получен полный ответ. На каждом выходном узле модель выполняет случайный откат, генерируя другой фрагмент ответа на основе предыдущего частичного ответа.
Если два ответа различаются по корректности, они рассматриваются как пара DPO для модели языка ответов, направляя модель на выбор предпочтительного ответа, ведущего к правильному ответу.
Строгая оценка и значительные улучшения
Чтобы проверить эффективность Flow-DPO, исследовательская группа провела точные эксперименты, используя следующую схему:
Набор данных: В экспериментах использовался набор данных MetaMath, который основан на наборах данных GSM8K и MATH и расширен с помощью методов увеличения объема данных.
Выбор модели: Использовались две различные шкалы моделей: Llama-3-8B-Instruct и Phi-3-medium-128k-instruct (14B).
Фаза потокового обучения: Во время фазы обучения потоку, Answer LLM и Stop LLM были тонко настроены с помощью различных адаптеров LoRA, что позволило им специализироваться на соответствующих задачах для обучения DPO.
Фаза компиляции: На этапе компиляции были собраны и независимо оценены правильные пути рассуждений, сгенерированные Flow и базовыми моделями.
Окончательные результаты продемонстрировали значительное улучшение способностей к математическим рассуждениям для моделей Llama3 и Phi3 после применения Flow-DPO.
- Точность прогрессивной валидации
Точность прогрессивной валидации измеряет совокупную точность модели на входных обучающих данных до обучения, как определено формулой и значениями переменных, показанных на рисунке.
Эксперименты показали, что онлайн-обучение DPO значительно улучшило способность Flow к обобщению. Для модели Llama-3-8B-Instruct онлайн-обучение DPO улучшило производительность Flow на 20 % при использовании всего 2 000 обучающих примеров. Для модели Phi-3-medium-128k-instruct онлайн-обучение DPO увеличило точность на 4 процентных пункта, достигнув 83 %.
- Качество путей рассуждений
Пути рассуждений, сгенерированные Flow, также продемонстрировали превосходное качество по сравнению с базовыми и сгенерированными моделью правильными путями рассуждений.
Для модели Llama-3-8B-Instruct точность тонкой настройки сгенерированных Flow путей рассуждений увеличилась на 6 % и 7,8 % на наборах данных GSM8K и MATH соответственно.
Для модели Phi-3-medium-128k-instruct точность точной настройки сгенерированных Flow путей рассуждений увеличилась на 1,9 % и 2,1 % на двух наборах данных, соответственно.
В своей работе исследователи привели множество примеров решения реальных задач и сравнений, демонстрирующих расширенные возможности рассуждений LLM благодаря подходу Flow-DPO.