Что такое аугментация данных?
Аугментация данных – это процесс искусственного генерирования новых данных на основе существующих, который используется преимущественно для обучения новых моделей машинного обучения. Для начального обучения моделей машинного обучения требуются большие и разнообразные наборы данных, которые часто непросто собрать воедино из-за несогласованности источников, нормативных требований и других ограничений. Аугментация данных позволяет искусственным образом увеличить набор данных, внося в исходные данные небольшие изменения. Решения на базе генеративного искусственного интеллекта активно применяются в разных отраслях для быстрой аугментации данных с сохранением их качества.
Почему аугментация данных важна?
Модели глубокого обучения используют большие объемы разнообразных данных для получения точных прогнозов во многих контекстах. Аугментация данных позволяет создавать новые вариации данных, которые помогают повысить точность прогнозов обучаемой модели. Аугментация данных жизненно важна для обучения.
Вот лишь некоторые из преимуществ аугментации данных.
Улучшенная производительность модели
Методы аугментации данных помогают обогащать наборы данных, создавая множество новых вариантов на основе существующих данных. Это обеспечивает более широкий набор обучающих данных и позволяет модели более широко использовать разные признаки. Аугментация данных позволяет модели лучше обобщить результаты на новые данные, то есть повысить общую производительность в реальных условиях.
Снижение зависимости от данных
Сбор и подготовка больших объемов данных для обучения часто требуют много сил и средств. Методы аугментации данных повышают эффективность ограниченных наборов данных, значительно снижая зависимость от наличия больших объемов информации для обучения. На основе даже небольших наборов данных можно получить новые синтетические точки данных.
Предотвращение переобучения по обучающим данных
Аугментация данных помогает избежать переобучения при обучении моделей машинного обучения. Переобучение – нежелательное поведение машинного обучения, когда модель может давать точные прогнозы для обучающих данных, но при этом испытывает трудности с новыми данными. Если модель работает только с узким набором данных, она может оказаться неподходящей, а ее прогнозы могут подходить только к одному конкретному типу данных. Аугментация данных позволяет получить гораздо более крупный и полный набор данных для обучения модели. Благодаря этой технологии обучающие наборы будут выглядеть уникальными для глубоких нейронных сетей, не позволяя им выделять слишком узкие характеристики.
Улучшенная конфиденциальность данных
Если вам нужно обучить модель глубокого обучения по конфиденциальным данным, вы можете использовать методы аугментации данных для создания синтетических данных. Такой набор данных сохранит все статистические свойства и веса входных данных, защищая при этом исходные данные и ограничивая доступ к ним.
Как на практике используется аугментация данных?
Аугментация данных имеет несколько важных применений в разных отраслях, позволяя повышать производительность моделей машинного обучения во многих секторах.
Здравоохранение
Аугментация данных – это полезная технология в медицинской визуализации, поскольку она помогает улучшить диагностические модели для выявления, распознавания и диагностики заболевания на основе изображений. Создание дополнительных изображений методами аугментации позволяет получить больше обучающих данных для моделей, что особенно важно для редких заболеваний, по которым в исходных данных мало вариативности. Производство и использование синтетических данных о пациентах помогает развивать медицинские исследования, не нарушая при этом требований к конфиденциальности данных.
Финансы
Аугментация данных помогает создавать синтетические примеры мошенничества, чтобы более точно обучать модели для выявления мошеннических действий в реальных сценариях. Более крупные пулы обучающих данных помогают в сценариях оценки рисков, расширяют потенциал моделей глубокого обучения по оценке рисков и прогнозированию тенденций.
Обрабатывающая промышленность
В обрабатывающей промышленности модели машинного обучения используются для обнаружения визуальных дефектов в продуктах. Дополняя реальные данные с помощью аугментации, мы можем улучшить возможности модели по распознаванию изображений и выявлению потенциальных дефектов. Также эта стратегия снижает вероятность отправки поврежденных или дефектных проектов на фабрики и производственные линии.
Розничная торговля
В розничной торговле модели широко используются для идентификации продуктов и распределения их по категориям на основе визуальных факторов. Аугментация данных позволяет создавать синтетические вариации изображений продуктов, чтобы получить более разнообразный набор обучающих данных с разными условиями освещенности, фонами и ракурсами.
Как работает аугментация данных?
В процессе аугментации существующие данные преобразуются, редактируются или модифицируются для создания вариаций. Ниже приводится краткий обзор этого процесса.
Изучение набора данных
Первый этап аугментации данных заключается в анализе существующего набора данных для понимания его характеристик. Такие характеристики, как размер изображений, распределение данных или структура текста, предоставляют дополнительный контекст для аугментации.
Вы можете выбрать разные методы аугментации данных в зависимости от типа исходных данных и желаемых результатов. Например, можно расширить набор изображений в несколько раз, добавляя к ним визуальный шум, масштабируя и обрезая исходные изображения. Также можно расширить набор текстовых данных для обработки естественного языка (NLP), заменяя слова синонимами или парафразируя отрывки.
Подробнее об обработке естественного языка (NLP)
Аугментация существующих данных
Выбрав наиболее подходящий для вашей цели метод аугментации данных, вы начинаете применять преобразования. Точки данных или образцы изображений в наборе данных преобразуются с использованием выбранного метода аугментации, создавая ряд новых дополненных выборок.
В процессе аугментации важно сохранять одни и те же правила маркировки, чтобы обеспечить согласованность данных и гарантировать, что синтетические данные содержат те же метки, что и исходные данные.
Обычно синтетические изображения стоит просматривать визуально, чтобы убедиться в успешности преобразования. Этот дополнительный шаг, выполняемый человеком, помогает поддерживать высокое качество данных.
Интеграция форм данных
Следующим шагом вы объединяете новые синтетические данные с исходными, чтобы получить больший набор обучающих данных для модели машинного обучения. При обучении модели вы используете этот составной набор с данными обоих типов.
Важно отметить, что новые синтетические точки данных, полученные при аугментации данных, имеют такие же статистические характеристики, что и исходные данные. Чтобы предотвратить перенос ошибок в новые данные, следует устранить их в исходных данных прежде, чем начинать процесс аугментации данных.
Какие существуют методы аугментации данных?
Методы увеличения объема данных будут разными в зависимости от типа данных и бизнес-контекста.
Машинное зрение
Аугментация данных является центральным звеном многих задач компьютерного зрения. Она помогает повысить разнообразие представления данных и устранить дисбаланс между классами в обучающем наборе данных.
Первое очевидное применение аугментации для компьютерного зрения – это увеличение разнообразия положений. Эта стратегия изменяет обрезку, зеркально отражает или поворачивает исходное изображение для создания дополнительных изображений. Обрезка изменяет размер изображения или отбрасывает небольшую часть исходного изображения для создания нового. Поворот, отражение и изменение размера – такие действия случайным образом с заданной вероятностью изменяют оригинальные изображения, чтобы получить набор новых.
Еще одно применение аугментации в компьютерном зрении – корректировка цвета. Эта стратегия изменяет такие параметры обучающего изображения, как яркость, контрастность или насыщенность. Такие преобразования изображений изменяют оттенок, баланс и распределение теней и светлых участков изображения, и часто используются для создания дополненных изображений.
Аугментация аудиоданных
Аудиофайлы, например с записью речи, также являются распространенной сферой применения аугментации данных. Преобразование аудио обычно выполняется путем добавления случайного или гауссовского шума в некоторые фаргменты аудио, отбрасывания некоторых фрагментов, изменения скорости на фиксированный множитель в разных частях файла или изменение высоты тона.
Аугментация текстовых данных
Аугментация текста является важным методом для увеличения объема данных в технологиях NLP и других методах машинного обучения, применяемых к текстам. К преобразованиям текстовых данных относится перемешивание предложений, изменение положения слов, замена слов близкими синонимами, вставка и удаление случайных слов.
Перенос нейронного стиля
Перенос нейронного стиля – это усовершенствованный вариант аугментации данных, который выполняется разбиением изображений на более мелкие части. Несколько сверточных слоев разделяют стиль и контекст изображения, создавая множество изображений из одного исходного.
Состязательное обучение
Изменения на уровне пикселей создают проблемы для модели машинного обучения. Некоторые образцы содержат слой незаметного шума, наложенного на изображение, чтобы проверить способность модели воспринимать зашумленное изображение. Эта стратегия представляет собой превентивную форму аугментации данных, которая направлена на предотвращение потенциального несанкционированного доступа в реальном мире.
Как генеративный искусственный интеллект используется для увеличения объема данных?
Генеративный искусственный интеллект играет важную роль в аугментации данных, поскольку упрощает создание синтетических данных. Это помогает повышать разнообразие данных, упростить их подготовку и сохранить конфиденциальность.
Генеративные состязательные сети
Генеративные состязательные сети (GAN) представляют собой структуру из двух нейронных сетей, которые соперничают друг с другом. Одна из них («генератор») создает образцы синтетических данных, а вторая («дискриминатор») пытается отличить реальные образцы от синтетических.
По такой схеме GAN постепенно улучшает возможности генератора, которому нужно научиться обманывать дискриминатор. Данные, которые дискриминатор не может распознать, считаются высококачественными синтетическими данными и используются для аугментации данных как высоконадежные выборки, точно имитирующие исходное распределение данных.
Вариационные автокодировщики
Вариационные автокодировщики (VAE) – это тип нейронных сетей, которые помогают увеличить размер выборки данных и снизить потребность в трудоемком сборе данных. VAE состоят из двух взаимосвязанных сетей: кодировщик и декодировщик. Кодировщик принимает на вход образцы изображений и переводит их в промежуточное представление. Декодировщик принимает на вход представление и воссоздает изображения, исходя из накопленного понимания исходных образцов. VAE полезны тем, что позволяют создавать данные, очень похожие на исходные, чтобы разнообразить выборки их при сохранении исходного распределения данных.
Как AWS может удовлетворить ваши требования к аугментации данных?
Генеративный искусственный интеллект от Amazon Web Services (AWS) – это набор технологий, на основе которых организации любого размера могут создавать и масштабировать генеративные приложения искусственного интеллекта на основе настраиваемых данных, чтобы реализовать собственные сценарии использования. Ускорьте внедрение инноваций благодаря новым возможностям, набору лучших в отрасли базовых моделей (FM) и самой экономичной инфраструктуре Ниже приведены два примера сервисов в AWS на основе генеративного искусственного интеллекта.
Amazon Bedrock – это полностью управляемый сервис, который предлагает широкий выбор высокопроизводительных ведущих моделей от лидеров в отрасли искусственного интеллекта. Вы можете безопасно интегрировать и развертывать возможности на основе генеративного искусственного интеллекта, чтобы улучшать свои данные, не беспокоясь об управлении инфраструктурой.
Amazon Rekognition – это полностью управляемый сервис машинного обучения, который предлагает возможности предварительно обученного и настраиваемого машинного зрения (CV) для получения полезной информации из ваших изображений и видеозаписей. Разработка специальной модели для анализа изображений – это серьезное мероприятие, требующее много времени, опыта и ресурсов. Чтобы предоставить модели достаточно данных для точного принятия решений, зачастую нужно подготовить и вручную промаркировать несколько тысяч или десятков тысяч изображений.
С помощью Amazon Rekognition для меток можно выполнять аугментацию данных при обучении модели, включая случайную обрезку изображений, добавление цветового шума и случайных гауссовских шумов. Вы сможете обойтись без нескольких тысяч изображений, добавив лишь небольшой набор обучающих изображений (обычно несколько сотен или меньше), соответствующих вашему варианту использования, с помощью простой в использовании консоли.
Создайте аккаунт и начните работу с аугментацией данных на AWS уже сегодня.
AWS: дальнейшие шаги
Получите мгновенный доступ к уровню бесплатного пользования AWS.