Выберите настройки файлов cookie

Мы используем основные файлы cookie и аналогичные инструменты, необходимые для работы нашего сайта и предоставления услуг, а также эксплуатационные файлы cookie для сбора анонимной статистики, чтобы вносить улучшения и понимать, как клиенты используют наш сайт. Основные файлы cookie нельзя деактивировать, но вы можете нажать «Настроить» или «Отклонить», чтобы отказаться от использования эксплуатационных файлов cookie.

Если вы согласны, AWS и уполномоченные третьи стороны также будут использовать файлы cookie для предоставления полезных функций сайта, запоминания ваших предпочтений и отображения соответствующих контента и рекламы. Чтобы принять или отклонить все второстепенные файлы cookie, нажмите «Принять» или «Отклонить». Чтобы настроить cookie более подробно, нажмите «Настроить».

Что такое конструирование признаков?

Создать аккаунт AWS

Изучите бесплатные предложения по искусственному интеллекту

Бесплатно разрабатывайте, развертывайте и запускайте приложения на базе искусственного интеллекта в облаке

Ознакомьтесь с сервисами на базе искусственного интеллекта

Ускорьте внедрение инноваций с помощью самого универсального набора сервисов на базе искусственного интеллекта

Выбирайте учебные курсы по ИИ

Развивайте востребованные навыки работы с искусственным интеллектом с помощью курсов, учебных пособий и ресурсов

Читайте блоги на тему искусственного интеллекта и машинного обучения

Читайте последние новости о продуктах, а также рекомендации в области искусственного интеллекта и машинного обучения AWS

Что такое конструирование признаков?

Признаки в модели – это входные данные, используемые в процессах машинного обучения и генерации логических выводов для получения прогнозов. Точность ML-модели зависит от точного набора и состава признаков. Например, в приложении ML, которое рекомендует музыкальный плейлист, признаки могут включать рейтинги песен, какие песни прослушивались ранее, и время прослушивания песен. Конструирование признаков может потребовать значительных инженерных усилий. Конструирование признаков включает извлечение и преобразование переменных из необработанных данных, таких как прайс-листы, описания продуктов и объемы продаж, чтобы вы могли использовать признаки для обучения и прогнозирования. Шаги, необходимые для конструирования признаков, включают извлечение и проверку данных, а затем создание и хранение признаков.

В чем заключаются трудности конструирования признаков?

Конструирование признаков является сложной задачей, поскольку оно включает в себя сочетание анализа данных, знания бизнес-области и интуицию. При конструировании признаков очень хочется сразу же обратиться к имеющимся данным, но часто следует начать с рассмотрения того, какие данные необходимы, поговорив с экспертами, проведя мозговой штурм и сторонние исследования. Не выполнив эти шаги, вы можете упустить важные переменные-предикторы.

Извлечение данных

Сбор данных – это процесс сбора всех данных, необходимых для машинного обучения. Он может быть утомительным, поскольку данные хранятся во многих источниках, в том числе на ноутбуках, в хранилищах, облаке, внутри приложений и на устройствах. Поиск способов подключения к различным источникам данных может оказаться непростой задачей. Объемы данных также растут экспоненциально, поэтому приходится осуществлять поиск их большого количества. Кроме того, данные имеют совершенно разные форматы и типы в зависимости от источника. Например, видеоданные и табличные данные нелегко использовать вместе.

Создание признаков

Маркировка данных – это процесс идентификации необработанных данных (изображений, текстовых файлов, видео и т.д.) и добавления одной или нескольких значимых и информативных меток для обеспечения контекста, чтобы модель машинного обучения могла на них учиться. Например, метки могут указывать, есть ли на фотографии птица или автомобиль, какие слова были произнесены в аудиозаписи или есть ли на рентгеновском снимке опухоль. Маркировка данных необходима для различных сценариев использования, включая компьютерное зрение, обработку естественного языка и распознавание речи.

Хранение признаков

После очистки и маркировки данных команды машинного обучения часто исследуют данные, чтобы убедиться в их правильности и готовности к машинной обработке. Такие визуализации, как гистограммы, графики рассеивания, блочные и усовидные графики, линейные графики и гистограммы, являются полезными инструментами для подтверждения правильности данных. Кроме того, визуализации также помогают командам специалистов по анализу данных проводить их исследовательский анализ. В этом процессе визуализация используется для обнаружения закономерностей, выявления аномалий, проверки гипотезы или предположений. Исследовательский анализ данных не требует формального моделирования; вместо этого команды специалистов по анализу данных могут использовать визуализации для их расшифровки.

Как AWS может помочь в конструировании признаков?

С помощью Amazon SageMaker Data Wrangler вы можете упростить процесс конструирования признаков, используя единый визуальный интерфейс. Используя инструмент выбора данных SageMaker Data Wrangler, вы можете выбрать нужные вам исходные данные из различных источников данных и импортировать их одним щелчком мыши. SageMaker Data Wrangler включает более 300 встроенных преобразований данных, поэтому вы можете быстро нормализовать, преобразовывать и объединять функции без написания кода. Когда подготовка данных будет завершена, вы можете создать полностью автоматизированные рабочие процессы машинного обучения с помощью Amazon SageMaker Pipelines или сохранить эти данные в Amazon SageMaker Feature Store для дальнейшего использования. SageMaker Feature Store – это специально созданный репозиторий, в котором можно хранить признаки и получать к ним доступ, что упрощает их именование, организацию и повторное использование командами. SageMaker Feature Store обеспечивает единое хранилище признаков во время обучения и вывода в реальном времени без необходимости написания дополнительного кода или создания ручных процессов для поддержания согласованности признаков.