Что такое конструирование признаков?
Признаки в модели – это входные данные, используемые в процессах машинного обучения и генерации логических выводов для получения прогнозов. Точность ML-модели зависит от точного набора и состава признаков. Например, в приложении ML, которое рекомендует музыкальный плейлист, признаки могут включать рейтинги песен, какие песни прослушивались ранее, и время прослушивания песен. Конструирование признаков может потребовать значительных инженерных усилий. Конструирование признаков включает извлечение и преобразование переменных из необработанных данных, таких как прайс-листы, описания продуктов и объемы продаж, чтобы вы могли использовать признаки для обучения и прогнозирования. Шаги, необходимые для конструирования признаков, включают извлечение и проверку данных, а затем создание и хранение признаков.
В чем заключаются трудности конструирования признаков?
Конструирование признаков является сложной задачей, поскольку оно включает в себя сочетание анализа данных, знания бизнес-области и интуицию. При конструировании признаков очень хочется сразу же обратиться к имеющимся данным, но часто следует начать с рассмотрения того, какие данные необходимы, поговорив с экспертами, проведя мозговой штурм и сторонние исследования. Не выполнив эти шаги, вы можете упустить важные переменные-предикторы.
Извлечение данных
Создание признаков
Хранение признаков
Как AWS может помочь в конструировании признаков?
С помощью Amazon SageMaker Data Wrangler вы можете упростить процесс конструирования признаков, используя единый визуальный интерфейс. Используя инструмент выбора данных SageMaker Data Wrangler, вы можете выбрать нужные вам исходные данные из различных источников данных и импортировать их одним щелчком мыши. SageMaker Data Wrangler включает более 300 встроенных преобразований данных, поэтому вы можете быстро нормализовать, преобразовывать и объединять функции без написания кода. Когда подготовка данных будет завершена, вы можете создать полностью автоматизированные рабочие процессы машинного обучения с помощью Amazon SageMaker Pipelines или сохранить эти данные в Amazon SageMaker Feature Store для дальнейшего использования. SageMaker Feature Store – это специально созданный репозиторий, в котором можно хранить признаки и получать к ним доступ, что упрощает их именование, организацию и повторное использование командами. SageMaker Feature Store обеспечивает единое хранилище признаков во время обучения и вывода в реальном времени без необходимости написания дополнительного кода или создания ручных процессов для поддержания согласованности признаков.
AWS: следующие шаги
Получите мгновенный доступ к уровню бесплатного пользования AWS.