Что такое RLHF?
Обучение с подкреплением на основе отзывов людей (RLHF) – это метод машинного обучения, который использует полученную от человека обратную связь для оптимизации моделей машинного обучения, позволяя организовать более эффективное самообучение. Методы обучения с подкреплением (RL) позволяют программам принимать решения с максимизацией вознаграждения, что делает результаты более точными. RLHF включает в функцию вознаграждения полученную от людей обратную связь, что позволяет моделям машинного обучения принимать решения, лучше соответствующие человеческим целям, желаниям и потребностям. RLHF используется в приложениях генеративного искусственного интеллекта, в том числе в больших языковых моделях (LLM).
Подробнее об обучении с подкреплением
Для чего важен процесс RLHF?
Сферы применения искусственного интеллекта широки: от беспилотных автомобилей до обработки естественного языка (NLP), прогнозирования фондового рынка и персонализации розничной торговли. Независимо от конкретного приложения, искусственный интеллект в идеале должен имитировать человеческие реакции, поведение и принятие решений. Модель машинного обучения должна закодировать полученные от человека данные в формат обучающих данных, чтобы искусственный интеллект точнее имитировал поведение человека при выполнении сложных задач.
RLHF – это особый метод, который используется наряду с другими методами, такими как обучение с наблюдением и обучение без наблюдения, для корректировки систем искусственного интеллекта, чтобы их ответы выглядели более человечными. Первым делом ответы модели сравниваются с ответами человека. Затем человек оценивает качество ответов компьютера и определяет, какие из них звучат более человечно. Оценка может основываться на таких исключительно человеческих качествах, как дружелюбие, настроение и правильная степень учета контекста.
RLHF играет важнейшую роль в понимании естественного языка, но используется также и в других приложениях генеративного искусственного интеллекта.
Подробнее об искусственном интеллекте (ИИ)
Подробнее об обработке естественного языка (NLP)
В чем разница между обучением под наблюдением и обучением без наблюдения?
Повышает производительность искусственного интеллекта
RLHF делает модель машинного обучения более точной. Модель можно обучить на основе данных, предварительно созданных человеком, но дополнительные циклы обратной связи с участием человека значительно повышают производительность модели по сравнению с исходным состоянием.
Например, при переводе текста с одного языка на другой модель может создать текст, который технически корректен, но звучит неестественно для читателя. Для улучшения можно поручить перевод профессиональному переводчику, сравнить его с машинным переводом, а затем оценить качество серии переводов, созданных машинным способом. Дополнительное обучение позволяет модели улучшить свои переводы, чтобы они были более естественными.
Добавление сложных параметров обучения
В некоторых случаях бывает сложно правильно обучить модель генеративного искусственного интеллекта по определенным параметрам. Например, как определить настроение музыкального произведения? Тональность, темп и другие технические параметры могут дать некоторое представление о настроении, но дух музыкального произведения обычно более субъективен и определяется менее строго, чем технические характеристики. Вместо этого можно поручить композиторам создать произведения с разными настроениям и промаркировать произведения, созданные машиной, в соответствии с уровнем их настроения. Это позволит компьютеру гораздо точнее изучить эти параметры.
Повышение удовлетворенности пользователей
Модель машинного обучения может оказаться очень точной, но недостаточно «человечной». RL используется для того, чтобы подсказать модели самый лучший и наиболее интересный ответ с точки зрения пользователей.
Например, если вы спросите погоду у чат-бота, он может ответить: «Сейчас 30 градусов по Цельсию, облачно и наблюдается высокая влажность» или: «Температура около 30 градусов. На улице облачно и влажно, поэтому воздух может казаться густым!» По сути оба ответа дают одинаковую информацию, но второй звучит более естественно и содержит больше контекста.
По мере получения оценок от пользователей, какие ответы модели им нравятся больше, вы можете применять RLHF для сбора отзывов и оптимизации модели, чтобы она наилучшим образом соответствовала желаниям людей.
Как работает RLHF?
RLHF должна пройти четыре этапа, прежде чем модель будет считаться готовой. Здесь для примера мы используем языковую модель внутреннего чат-бота для взаимодействия с базой знаний компании, для доработки которой применяется процесс RLHF.
Мы даем только обобщенное описание процесса обучения. Конкретные детали обучения модели и ее уточнения с помощью RLHF содержат достаточно сложные математические вычисления. Но эти сложные процессы уже хорошо определены в RLHF и часто для них есть уже готовые алгоритмы, которым остается лишь передать ваши уникальные входные данные.
Сбор данных
Перед выполнением задач машинного обучения с использованием языковой модели нужно создать набор сгенерированных человеком подсказок и ответов в качестве обучающих данных. Этот набор будет применяться в процессе обучения модели.
Например, он может содержать следующие подсказки:
- «Где находится отдел кадров в Бостоне?»
- «Каков процесс одобрения публикаций в социальных сетях?»
- «Что показал отчет о продажах за первый квартал в сравнении с предыдущими квартальными отчетами?»
Затем специалист в сфере знаний подготовит точные и естественные ответы на все эти вопросы.
Точная настройка языковой модели под наблюдением
В качестве базовой модели для RLHF можно использовать коммерческую предварительно обученную модель. Модель можно точно настроить в соответствии с внутренней базой знаний компании, используя такие методы, как генерация с дополненной выборкой (RAG). После доработки модели нужно сравнить ее реакцию на заранее подготовленные подсказки с ответами человека, собранными на предыдущем шаге. Математические методы применяются для оценки степени сходства между ними.
Например, ответам, генерируемым машиной, можно присвоить оценку от 0 до 1, где 1 – самая точная, а 0 – наименее точная. При наличии таких оценок модель сможет скорректировать политику формирования ответов так, чтобы они были ближе к ответам людей. Эта политика ложится в основу всех будущих решений, принимаемых моделью.
Создание отдельной модели вознаграждения
Суть RLHF заключается в обучении отдельной модели вознаграждения на основе искусственного интеллекта, которая основывается на отзывах людей. Эта модель применяется в процессе RL в качестве функции вознаграждения для оптимизации политики. Получив набор из нескольких ответов модели на один и тот же запрос, люди могут оценить качество каждого из этих ответов. Полученные оценки ответов применяются для создания модели вознаграждения, которая автоматически оценивает каждый ответ основной модели с точки зрения людей.
Оптимизация языковой модели с помощью модели, основанной на вознаграждении
Теперь языковая модель будет применять модель вознаграждения для автоматического уточнения политики перед ответом на любой запрос. Используя модель вознаграждения, языковая модель внутри себя оценивает набор возможных ответов и выбирает из них тот, который с наибольшей вероятностью принесет наибольшее вознаграждение. Под вознаграждением здесь понимается наилучшее соответствие человеческим предпочтениям.
На следующем изображении представлен обзор процесса обучения по схеме RLHF.
Как RLHF используется в области генеративного искусственного интеллекта?
RLHF считается отраслевым стандартом, который позволяет гарантировать правдивость, безвредность и полезность контента, создаваемого большими языковыми моделями. Но человеческое общение является субъективным и творческим процессом, поэтому полезность большой языковой модели во многом зависит от человеческих ценностей и предпочтений. Каждая модель обучается немного по-разному и на нее влияет обратная связь от разных респондентов, поэтому результаты будут разными даже для однотипных больших языковых моделей. Уровень учета человеческих ценностей в каждой модели всецело зависит от ее создателя.
Области применения RLHF выходят за рамки больших языковых моделей и распространяются на другие типы генеративного искусственного интеллекта. Ниже приведены некоторые примеры.
- RLHF можно использовать для генерации изображений с помощью искусственного интеллекта. Например, люди могут оценивать степень реалистичности, техническое исполнение или настроение художественного произведения.
- RLHF может помочь в создании музыки, соответствующей определенному настроению, или саундтреков для определенных занятий.
- RLHF для голосового помощника поможет получить более дружелюбный, любознательный и доверительный голос.
Как AWS обеспечивает соответствие вашим требованиям к RLHF?
Amazon SageMaker Ground Truth включает самый полный набор функций обучения с оператором в контуре управления, позволяющих учитывать обратную связь от человека на протяжении всего жизненного цикла машинного обучения для повышения точности и релевантности моделей. С помощью интерфейса самообслуживания или управляемой AWS системы вы можете выполнять разные задачи с участием человека, от генерации данных и присвоения меток до создания моделей вознаграждения, анализа моделей и персонализации.
SageMaker Ground Truth включает средство присвоения меток для поддержки обучения с подкреплением на основе отзывов людей (RLHF). Для обучения с подкреплением вы можете предоставить прямую обратную связь и рекомендации по результатам прогнозирования, применяя ранжирование и (или) классификацию к ответам модели. Данные сравнения и ранжирования фактически представляют собой модель вознаграждения или функцию вознаграждения. Они используются в процессе обучения модели. Данные сравнения и ранжирования можно использовать для настройки уже существующей модели под особый вариант использования или для точной настройки созданной с нуля модели.
Начните использовать методы RLHF на AWS, создав аккаунт уже сегодня.
AWS: дальнейшие шаги
Получите мгновенный доступ к уровню бесплатного пользования AWS.