banner
Центр новостей
Хорошее качество сырья, строгий контроль качества.

Исследователи Стэнфорда и Google предлагают DoReMi: алгоритм искусственного интеллекта, изменяющий вес доменов данных для обучения языковых моделей

Sep 02, 2023

Наборы данных часто извлекаются из различных областей при обучении языковых моделей (LM). Например, значительный общедоступный набор данных под названием The Pile содержит 24 % онлайн-данных, 9 % Википедии, 4 % GitHub и т. д. Состав данных предварительного обучения существенно влияет на эффективность работы LM. Должно быть очевидно, какая часть каждого домена должна быть включена, чтобы создать модель, которая превосходно справляется с рядом последующих задач. Существующие исследования используют интуицию или ряд последующих задач для установления весов доменов или вероятностей выборки для каждого домена. Например, The Pile использует эвристически выбранные веса доменов, что может быть не лучшим выбором.

В этом исследовании исследователи из Google и Стэнфордского университета пытаются определить веса доменов, которые обеспечивают модели, которые хорошо работают во всех доменах, минимизируя потери в худшем случае по доменам, а не оптимизируя веса доменов на основе набора последующих задач. Учитывая, что каждый домен имеет уникальные оптимальные потери (также известные как энтропия), наивная стратегия наихудшего случая придаст больший вес доменам с наиболее зашумленными данными. Однако обучение, возможно, тысяч LM различным весам доменов и возможность переоснащения для конкретного набора последующих задач связаны с существующими LM, такими как PaLM и GLaM, которые корректируют веса доменов на основе набора последующих действий.

Это служит движущей силой их метода — повторного взвешивания доменов с минимаксной оптимизацией (DoReMi), который использует устойчивую к распределению оптимизацию (DRO) для корректировки весов доменов, не зная о задачах, которые будут выполняться позже (рис. 1). DoReMi начинается с традиционного обучения крошечной эталонной модели с 280 млн параметров. Чтобы уменьшить избыточные потери в худшем случае (по сравнению с потерями эталонной модели), они также вводят крошечную языковую модель, устойчивую к распределению (DRO-LM). Примечательно, что они используют веса доменов, полученные в результате обучения DRO, а не надежный LM. Вместо создания надежной модели их стратегия использует структуру DRO-LM для оптимизации весов доменов. Затем большой (8B) LM обучается на новом наборе данных, заданном этими весами доменов.

Вместо подвыбора экземпляров из мини-пакета они используют оптимизатор на основе онлайн-обучения от Group DRO, который динамически изменяет веса доменов в соответствии с потерями в каждом домене для изменения масштаба цели обучения. Затем DoReMi использует веса доменов, усредненные на этапах обучения DRO. Чтобы оптимизировать вес доменов в The Pile и наборе данных GLaM, они запускают DoReMi на 280M прокси и эталонных моделях. LM с параметром 8B, который более чем в 30 раз больше, обучается с использованием весов домена DoReMi. Даже если вес домена уменьшен, DoReMi снижает недоумение в The Pile во всех доменах по сравнению с базовыми весами доменов.

При выполнении продуктивных задач с несколькими попытками DoReMi достигает базовой точности нисходящего потока в 2,6 раза быстрее, чем базовая модель, обученная на весах доменов The Pile по умолчанию, улучшая среднюю точность нисходящего потока на 6,5%. Они выпускают настроенные веса доменов, чтобы улучшить будущие LM, полученные с помощью The Pile. Они обнаружили, что DoReMi постоянно улучшает обучение LM, когда изменяются размеры основной модели, обученной с оптимизированными весами доменов, и прокси-модели. DoReMi даже превосходит настройку веса домена по производительности последующих задач в наборе данных GLaM, где можно настроить веса домена на последующих задачах.

ПроверьтеБумага.Не забудьте присоединитьсянаш субреддит из более чем 22 тысяч ML,Дискорд-канал, иИнформационный бюллетень по электронной почте , где мы делимся последними новостями исследований в области искусственного интеллекта, интересными проектами в области искусственного интеллекта и многим другим. Если у вас есть какие-либо вопросы относительно приведенной выше статьи или мы что-то пропустили, напишите нам по адресу:Асиф@marktechpost.com

🚀 Ознакомьтесь с инструментами AI 100 в клубе AI Tools.

Аниш Тику — стажер-консультант в MarktechPost. В настоящее время он учится на степень бакалавра в области науки о данных и искусственного интеллекта в Индийском технологическом институте (IIT) в Бхилаи. Большую часть своего времени он проводит над проектами, направленными на использование возможностей машинного обучения. Его исследовательский интерес — обработка изображений, и он увлечен созданием решений на ее основе. Он любит общаться с людьми и участвовать в интересных проектах.