Что такое трансферное обучение?
Трансферное обучение (TL) – это метод машинного обучения (МО), при котором модель, предварительно обученная выполнению одной задачи, перенастраивается для выполнения другой, похожей на предыдущую. Обучение новой модели МО – это трудоемкий и длительный процесс, требующий большого количества данных, достаточной вычислительной мощности и прохождения нескольких итераций, прежде чем модель будет готова к запуску. Вместо этого организации используют метод TL для переобучения существующих моделей, подготавливая их к решению смежных задач с использованием новых данных. Например, модель машинного обучения, способную идентифицировать собак, можно также научить распознавать кошек, используя набор изображений, подчеркивающий различия между этими животными.
Каковы преимущества трансферного обучения?
TL предлагает исследователям, создающим приложения на основе машинного обучения, несколько из следующих преимуществ.
Повышенная эффективность
Тренировка моделей машинного обучения требует времени, поскольку они накапливают знания и выявляют закономерности. Этот процесс также требует большого набора данных и больших вычислительных затрат. В TL предварительно обученная модель сохраняет основные знания о задачах, особенностях, весах и функциях, что позволяет ей быстрее адаптироваться к новым задачам. Вы можете использовать гораздо меньший набор данных и меньше ресурсов, добиваясь при этом лучших результатов.
Повышенная доступность
Создание нейронных сетей глубокого обучения требует больших объемов данных, ресурсов, вычислительной мощности и времени. TL преодолевает эти препятствия, позволяя организациям использовать машинное обучение для индивидуальных сценариев использования. Вы можете адаптировать существующие модели к своим требованиям за небольшую часть затрат. Например, используя предварительно обученную модель распознавания изображений, вы можете с минимальными настройками создавать модели для анализа медицинских изображений, мониторинга окружающей среды или распознавания лиц.
Повышение производительности
Модели, разработанные с помощью TL, часто демонстрируют большую надежность в разнообразных и сложных условиях. Они лучше справляются с изменчивостью и шумом в реальном мире, поскольку на начальном этапе обучения они сталкивались с широким спектром сценариев. Они дают лучшие результаты и более гибко адаптируются к непредсказуемым условиям.
Какие существуют стратегии трансферного обучения?
Стратегия, которую вы используете для облегчения обучения, будет зависеть от функциональной области создаваемой модели, задачи, которую она должна выполнить, и наличия обучающих данных.
Трансдуктивное трансферное обучение
Трансдуктивное трансферное обучение предполагает перенос знаний из определенной исходной функциональной области в другую, но связанную целевую область, при этом основное внимание уделяется целевой области. Это особенно полезно, когда маркированных данных из целевой функциональной области мало или совсем нет.
Трансдуктивное трансферное обучение предлагает модели делать прогнозы на основе целевых данных, используя ранее полученные знания. Поскольку целевые данные математически аналогичны исходным, модель находит закономерности и работает быстрее.
Например, рассмотрите возможность адаптации модели анализа эмоциональной окраски сообщений, основанной на обзорах продуктов, для анализа оценки фильмов. Исходная функциональная область (обзоры продуктов) и целевая (оценки фильмов) различаются по контексту и специфике, но имеют сходство в структуре и использовании языка. Модель быстро учится применять свое понимание эмоциональной окраски сообщений из области обзора продуктов для оценки кино.
Индуктивное трансферное обучение
Индуктивное трансферное обучение – это метод, в котором исходная и целевая области совпадают, но задачи, которые должна решать модель, различаются. Предварительно обученная модель уже знакома с исходными данными и быстрее обучается новым функциям.
Примером индуктивного трансферного обучения является обработка естественного языка (NLP). Модели предварительно обучаются на большом наборе текстов, а затем дорабатываются с помощью индуктивного трансферного обучения к конкретным функциям, таким как анализ настроений. Аналогичным образом модели машинного зрения, такие как VGG, предварительно обучаются на больших наборах данных изображений, а затем дорабатываются для распознавания объектов.
Трансферное обучение без наблюдения
Трансферное обучение без наблюдения использует стратегию, аналогичную индуктивному трансферному обучению, для развития новых способностей. Однако эту форму трансферного обучения стоит использовать, когда у вас есть только немаркированные данные как в исходной области, так и в целевой.
Модель изучает общие черты немаркированных данных, чтобы их можно было более точно обобщить, когда ее попросят выполнить целевую задачу. Этот метод полезен, если получение маркированных исходных данных является сложным или дорогим процессом.
Например, рассмотрим задачу идентификации различных типов мотоциклов на изображениях дорожного движения. Первоначально модель обучается на большом наборе изображений автомобилей без маркировки. В этом случае модель самостоятельно определяет сходства и отличительные черты различных типов транспортных средств, таких как автомобили, автобусы и мотоциклы. Далее модель знакомится с небольшим специфическим набором изображений мотоциклов, что значительно улучшает ее производительность по сравнению с предыдущей версией.
Каковы этапы трансферного обучения?
Чтобы выполнить новую задачу при настройке модели машинного обучения, необходимо пройти три основных этапа.
Выбор предварительно обученной модели
Сначала выберите предварительно обученную модель со знаниями или навыками для выполнения соответствующей задачи. Полезным контекстом для выбора подходящей модели является определение исходной задачи для нее. Если вы понимаете, какие исходные задачи выполняла модель, вы можете найти ту, которая более эффективно переходит к новой задаче.
Настройка предварительно обученной модели
Выбрав исходную модель, настройте ее на передачу знаний модели для выполнения соответствующей задачи. Есть два основных способа сделать это.
Заморозить предварительно обученные слои
Слои – это строительные блоки нейронных сетей. Каждый слой состоит из набора нейронов и выполняет определенные преобразования входных данных. Весы – это параметры, которые сеть использует для принятия решений. Вначале значения весов задаются в случайном порядке, но в процессе они корректируются по мере обучения модели на основе полученных данных.
Замораживая весы предварительно обученных слоев, вы оставляете их неизменными и сохраняете знания, полученные моделью глубокого обучения в результате выполнения исходной задачи.
Удалить последний слой
В некоторых случаях можно также удалить последние слои предварительно обученной модели. В большинстве архитектур машинного обучения последние уровни зависят от конкретных задач. Удаление этих последних слоев поможет перенастроить модель в соответствии с новыми требованиями к задаче.
Внедрить новые слои
Внедрение новых слоев поверх предварительно обученной модели поможет адаптироваться к специализированному характеру новой задачи. Новые уровни адаптируют модель к нюансам и функциям требования.
Обучение модели для целевого домена
Вы обучаете модель на данных целевой задачи для разработки стандартных выходных данных в соответствии с новой задачей. Предварительно обученная модель, вероятно, дает результаты, отличные от желаемых. После мониторинга и оценки производительности модели во время обучения вы можете настроить гиперпараметры или базовую архитектуру нейронной сети для дальнейшего улучшения выходных данных. В отличие от весов, гиперпараметры не обучаются на основе данных. Они заранее установлены и играют решающую роль в определении эффективности и результативности учебного процесса. Например, вы можете настроить параметры регуляризации или скорость обучения модели, чтобы улучшить ее способность решать целевую задачу.
Что такое стратегии трансферного обучения в генеративном искусственном интеллекте?
Стратегии трансферного обучения имеют решающее значение для внедрения генеративного искусственного интеллекта в различные отрасли. Организации могут настраивать существующие базовые модели без необходимости обучать новые миллиардам параметров данных в нужном им масштабе. Ниже приведены некоторые стратегии трансферного обучения, используемые в генеративном искусственном интеллекте.
Доменное состязательное обучение
Доменное состязательное обучение предполагает обучение базовой модели для получения данных, которые нельзя отличить от реальных в целевом домене. Как правило, в этом методе используют дискриминаторную сеть, как в генеративно-состязательных сетях, которая пытается отличить истинные данные от созданных. Генератор учится создавать все более реалистичные данные.
Например, при создании изображений модель, обученную на фотографиях, можно адаптировать для создания иллюстративных материалов. Дискриминатор обеспечивает стилистическое соответствие созданного иллюстративного материала целевому домену.
Обучение «учитель – ученик»
Обучение «учитель – ученик»подразумевает более крупную и сложную модель «учителя», а также меньшую и более простую модель «ученика». Модель ученика учится имитировать поведение учителя – это эффективный метод передачи знаний. Этот метод можно использовать для развертывания больших порождающих моделей в средах с ограниченными ресурсами.
Например, большая языковая модель может выполнять роль учителя для модели меньшего размера, передавая ей навыки генерации текстов. Это позволит модели меньшего размера генерировать высококачественный текст с меньшими вычислительными затратами.
Разделение функций
Разделение функций в генеративных моделях предполагает разделение различных аспектов данных, таких как контент и стиль, на отдельные представления. Это позволяет модели независимо управлять такими аспектами в процессе трансферного обучения.
Например, в задании по созданию лица модель может научиться отличать настоящие черты лица от их художественного изображения. Это позволит создавать художественные портреты в различных стилях, сохраняя при этом сходство с объектом.
Кроссмодальное трансферное обучение
Кроссмодальное трансферное обучение предполагает перенос знаний между различными модальностями, например текстом и изображением. Генеративные модели могут изучать представления, применимые к этим модальностям. Модель, обученная работе с текстовыми описаниями и соответствующими изображениями, может научиться эффективно генерировать релевантные изображения из новых текстовых описаний.
Обучение с нуля и в несколько приемов
При обучении с нуля и в несколько приемов генеративные модели обучаются выполнять задачи или генерировать данные, примеров которых в ходе обучения было мало либо вообще не было. Этого можно достичь путем изучения богатых представлений, которые хорошо обобщают. Например, генеративную модель можно обучить создавать изображения животных. Используя обучение в несколько приемов, можно создавать изображения редко встречающихся животных, понимая и комбинируя черты других существ.
Как AWS может помочь удовлетворить ваши требования к трансферному обучению?
Amazon SageMaker JumpStart – это центр ML, где вы можете найти предварительно обученные модели, в том числе базовые, для выполнения различных задач (например, обобщение статей и создание изображений). Вы можете использовать трансферное обучение для создания точных моделей на небольших наборах данных с меньшими затратами на обучение, чем в случае с обучением исходной модели. Например, с помощью SageMaker JumpStart вы можете получить указанные ниже преимущества.
- Полностью настроить предварительно обученные модели под ваш сценарий использования и ваши данные, чтобы быстрее внедрить их в производство.
- Получить доступ к готовым решениям для типичных сценариев использования.
- Поделиться артефактами ML внутри вашей организации, в том числе моделями ML и блокнотами.
При использовании метода кросс-модального трансферного обучения вы также можете прибегнуть к Отладчику Amazon SageMaker, чтобы выявить серьезные скрытые проблемы. Например, вы можете изучить прогнозы модели, чтобы найти ошибки, проверить ее надежность и оценить, в какой степени эта надежность обусловлена унаследованными качествами. Кроме того, можно проверить ввод и предварительную обработку модели на соответствие истинным ожиданиям.
Начните работу с трансферным обучением на AWS, создав бесплатный аккаунт прямо сейчас.
AWS: дальнейшие шаги
Получите мгновенный доступ к уровню бесплатного пользования AWS.