Что такое управление данными?

Управление данными включает процессы и политики, обеспечивающие надлежащее состояние данных для поддержки бизнес-инициатив и операций. Современные организации собирают данные из различных источников в требуемом масштабе для повышения эффективности операций и предоставления услуг. Однако принятие решений на основе данных эффективно только в том случае, если данные соответствуют требуемым стандартам качества и целостности.

В рамках управления данными определяются роли, обязанности и стандарты в отношении использования данных. В нем описывается, кто какие действия может предпринимать, на основе каких данных, какими способами и в каких ситуациях. Поскольку все больше данных служат для поддержки примеров использования искусственного интеллекта и машинного обучения, становится крайне важно, чтобы использование всех данных соответствовало нормативным и этическим требованиям. Управление данными позволяет установить баланс между безопасностью данных и тактическими и стратегическими целями, чтобы достичь максимальной эффективности.

Что такое управление аналитикой?

Управление аналитикой регулирует как данные для использования в аналитических приложениях, так и использование аналитических систем. Ваша команда по управлению аналитикой может создать механизмы, такие как управление версиями аналитических отчетов и ведение документации. Как всегда, следите за нормативными требованиями, устанавливайте политику компании и создавайте барьеры для организации в целом.

Почему управление данными важно?

Исторически сложилось так, что программы управления данными использовались для сбережения данных в разрозненных хранилищах в целях предотвращения их утечки или неправильного использования. Однако разрозненность данных приводит к тому, что законным пользователям приходится преодолевать барьеры, чтобы получить доступ к ним в нужное время. Непреднамеренно инновации, основанные на данных, подавляются.

В ходе опроса, проведенного сообществом MIT CDOIQ в 2024 году среди 350 CDO и эквивалентных CDO должностей, было обнаружено, что 45 % директоров по данным считают управление данными главным приоритетом. Эти лидеры в области данных хотят создать систему управления данными, которая позволит им предоставлять данные нужным людям и приложениям в нужное время, обеспечивая при этом безопасность и защиту данных с помощью соответствующих средств контроля. 

Баланс между доступом и контролем

Превратить управление в фактор инноваций можно с помощью двух рычагов: доступ и контроль. Ключ к успеху заключается в том, чтобы найти правильный баланс между ними, поскольку точка баланса в каждой организации своя. Когда вы используете слишком большой контроль, данные оказываются заперты в разрозненных хранилищах и пользователи не могут получить к ним доступ в нужное время. Это подавляет творческий подход и приводит к созданию теневых ИТ-систем, в которых данные устаревают и не защищены. Напротив, если вы предоставляете слишком большой доступ, данные могут оказаться нерегулируемыми в приложениях и хранилищах данных, что повышает риск несанкционированного доступа и влияет на качество данных.

Процессы управления данными обеспечивают баланс между доступом и контролем, так что пользователи могут доверять данным и быть уверенны в них. Они способствуют надлежащему обнаружению, хранению, защите данных и обмену ими, побуждают к инновациям и гарантируют безопасность данных.

Что такое управление машинным обучением (ML)?

Управление машинным обучением применяет многие из тех же методов управления данными к машинному обучению. Качество и интеграция данных должны обеспечивать данные, необходимые для обучения модели и развертывания в производственной среде (одним из важных аспектов этого является хранилище функций). Ответственный искусственный интеллект уделяет особое внимание использованию конфиденциальных данных для построения моделей. Дополнительные возможности управления машинным обучением включают предоставление людям возможности участвовать в создании, развертывании и мониторинге моделей; документирование обучения, управления версиями, поддерживаемых вариантов использования и рекомендаций по использованию этической модели; а также мониторинг модели в производстве на предмет точности, отклонения, переоснащения и недооснащения.

Генеративный искусственный интеллект требует дополнительных возможностей управления данными, таких как качество и целостность данных для адаптации базовых моделей для обучения и анализа, управление токсичностью и погрешностью генеративного ИИ, а также управление базовыми моделями (FM): FMOps.

Вы можете поддерживать искусственный интеллект и машинное обучение с помощью той же программы управления данными. Подготовка данных необходима для преобразования данных в форму, которую модели искусственного интеллекта и машинного обучения могут использовать для обучения и анализа производственных выводов, но самая эффективная подготовка данных – это подготовка, которую вам не нужно делать. Специалисты по работе с данными тратят слишком много времени на подготовку данных для каждого варианта использования – ваша команда по управлению данными поможет облегчить эту недифференцированную тяжелую работу. Кроме того, управление данными может обеспечить контроль за созданием хранилищ сформированных характеристик для использования в сценариях ИИ и машинного обучения.

Наконец, конфиденциальные данные необходимо надлежащим образом защитить, чтобы ваша команда могла снизить риски использования конфиденциальных данных для обучения базовых моделей.

Как и в случае с аналитикой в целом, вы должны регулировать использование моделей искусственного интеллекта и машинного обучения, которые вы создаете или настраиваете. В идеале это должно быть тесно связано с управлением аналитикой, поскольку эта функция будет знать, как поддерживать различные сферы бизнеса.

Каковы преимущества управления данными?

Управление данными обеспечивает структурированную основу для управления данными в организации. Ниже перечислены несколько ключевых преимуществ.

Повышение качества данных

Управление данными устанавливает стандарты точности, полноты и согласованности данных. Вы получаете актуальные, текущие и легко интерпретируемые данные, которым доверяют все заинтересованные стороны. Эти высококачественные данные уменьшают количество ошибок и позволяют получать точную и своевременную аналитическую информацию для принятия стратегических и оперативных решений.

Поддержка культуры, ориентированной на данные

Эффективная стратегия управления данными способствует формированию культуры, в которой ценятся данные и которая побуждает всех сотрудников использовать и понимать данные в своей работе. Это мотивирует бизнес-сообщество к участию и способствует интеграции данных в участвующих сферах бизнеса. Согласованность действий между инженерами по обработке данных и бизнес-пользователями повышает общую грамотность в области данных и аналитические возможности организации.

Повышение эффективности работы

Управление данными помогает определить правильную операционную модель, особенно необходимый уровень централизации и децентрализации. Можно внедрить согласованные методы управления данными, которые упрощают операции. Четко определенные права собственности на данные и доступ к ним облегчают сотрудничество между отделами и позволяют всем работать с одними и теми же надежными источниками данных. Согласовывайте усилия различных команд, чтобы сократить дублирование, снизить операционные расходы и повысить производительность.

Соответствие нормативным требованиям

В системах управления данными используется упреждающий подход к управлению рисками, который гарантирует соответствие методов работы с данными правовым и отраслевым нормам. Можно предотвратить несанкционированный доступ с помощью централизованно определенных политик, которые устанавливают, кто может получать доступ к данным или изменять их. Инструменты управления данными поддерживают соблюдение правил конфиденциальности для защиты конфиденциальных данных.

Кто создает управление данными?

Создание надежной стратегии управления данными требует выполнения множества должностных функций.

Исполнительные спонсоры

Они определяют и устанавливают принципы, стандарты и политики управления данными в организации. Кроме того, исполнительные спонсоры понимают многие бизнес-инициативы, включенные в корпоративную дорожную карту, и могут помочь определить приоритеты для поддержки мероприятий по управлению данными.

Распорядители данных

Они работают в бизнесе и изо дня в день участвуют в деталях проектов. Распорядители данных помогают понять проблемы с данными, которые могут стать препятствиями при реализации целевых бизнес-инициатив. Они также внедряют процесс управления данными в свои проекты и обеспечивают надлежащее управление данными. Распорядители данных контролируют соблюдение нормативных требований сотрудниками и клиентами и при возникновении любых проблем передают их на рассмотрение на вышестоящий уровень.

Владельцы данных

Они разрабатывают политики в отношении данных, в том числе о том, кто и при каких обстоятельствах должен иметь доступ к ним, как интерпретировать и применять нормативные акты, а также определения ключевых терминов. Владельцы данных также отвечают за техническое администрирование наборов данных и средства контроля доступа.

Инженеры данных

Они работают в сфере ИТ, выбирают и внедряют лучшие инструменты управления данными для защиты данных, их интеграции из различных источников, управления качеством данных и поиска нужных данных.

Какие существуют стили управления данными?

Ваша программа управления данными должна сочетать централизацию и децентрализацию (включая самообслуживание). В вашей организации будет сочетаться централизованное, федеративное и децентрализованное управление – опять же, в зависимости от требований бизнеса. Вам следует максимально расширить возможности доменных команд, сохраняя при этом согласованность между доменами (например, возможность связывать данные).  

Централизованное управление данными

Центральные организации в конечном итоге отвечают за формулирование задач, политики, выбор инструментов и многое другое. Тем не менее повседневные действия часто переносятся в сферы бизнеса (LOB).

Федеративное управление данными

Федеративное управление данными позволяет отдельным подразделениям или инициативам работать в соответствии с их потребностями. Однако небольшая централизованная группа сосредоточена на решении часто повторяющихся проблем, включая, например, общекорпоративные инструменты обеспечения качества данных.

Самостоятельное или децентрализованное управление данными

Каждый отдел делает то, что ему необходимо для конкретного проекта, соблюдая при этом централизованные политики. В каждом проекте используются любые инструменты или процессы из других проектов, где они пригодны для использования. По мере роста популярности таких тем, как сетка данных (сама по себе децентрализованная), растет и популярность самостоятельного управления данными. 

Как работает управление данными?

Для управления данными требуются люди, процессы и технологические решения с широким спектром возможностей.

как работает управление данными (диаграмма)

Отбор данных в нужном масштабе, чтобы ограничить их разрастание

Управление данными в требуемом масштабе означает определение наиболее ценных источников данных, включая базы данных, озера данных и хранилища данных, и управление ими. Вы можете ограничить распространение и преобразование критически важных массивов данных. Управление данными также означает обеспечение точности, актуальности и отсутствия конфиденциальной информации, чтобы пользователи могли быть уверены в решениях, основанных на данных, и в данных, которые используются в приложениях.

Возможности: управление качеством данных, интеграция данных и управление основными данными

Обнаружение и понимание данных в контексте

Понимание данных в контексте означает, что все пользователи могут узнать и понять значение своих данных, чтобы уверенно использовать их для повышения ценности бизнеса. Благодаря централизованному каталогу данных можно легко найти данные, запросить доступ и использовать данные для принятия бизнес-решений.

Возможности: профилирование данных, происхождение данных и каталоги данных

Защита данных и их безопасная передача при сохранении контроля и надежности

Защита данных означает достижение правильного баланса между конфиденциальностью, безопасностью и доступом к данным. Очень важно управлять доступом к данным из-за пределов организации с помощью инструментов, интуитивно понятных как для бизнес-пользователей, так и для инженеров.

Возможности: жизненный цикл данных, соответствие требованиям и безопасность данных

Уменьшите бизнес-риски и улучшите соответствие нормативным требованиям.

Снижение рисков означает понимание того, как и кем используются эти данные. Сервисы AWS помогают отслеживать и проверять доступ к данным, в том числе с помощью моделей машинного обучения, для обеспечения безопасности данных и соблюдения нормативных требований. Машинное обучение также требует прозрачности аудита для обеспечения ответственного использования и упрощения отчетности.

Возможности: аудит использования данных и машинного обучения

 

Как улучшить свои команды по управлению данными?

Ключом к эффективной программе управления данными является подключение к уже профинансированным бизнес-инициативам. Убедитесь, что ваша команда понимает, какие домены данных, источники и элементы необходимы для поддержки этих инициатив.

  • Создайте дорожную карту управления данными, демонстрирующую поддержку целевых бизнес-инициатив. Затем начните выявлять совпадение данных между выбранными бизнес-инициативами.
  • Определите приложения и сценарии использования бизнес-аналитики, которые должны поддерживать и питать данные, включая требования к актуальности и конфиденциальности.
  • Узнайте, как выглядят данные, соответствующие назначению, для каждой выбранной бизнес-инициативы.
  • Поддерживайте и расширяйте программу управления данными, встраивая ее в операционную модель предприятия, чтобы планирование и внедрение данных стали неотъемлемой частью деятельности организации.
  • Организуйте сообщество аналитиков для самообслуживания и обеспечения согласованности.
  • Поддерживайте искусственный интеллект (ИИ) и машинное обучение (ML) с помощью управления данными и машинного обучения. Используйте ту же программу управления данными, но примените ее к хранилищам функций и моделям машинного обучения.

Каковы передовые практики управления данными?

Ключ к эффективному управлению данными – участие в уже профинансированных бизнес-инициативах. Убедитесь, что ваша команда понимает, какие домены данных, источники и элементы необходимы для поддержки этих инициатив.

  • Создайте дорожную карту управления данными, демонстрирующую поддержку целевых бизнес-инициатив. Затем начните выявлять совпадение данных между выбранными бизнес-инициативами.
  • Определите приложения и сценарии использования бизнес-аналитики, которые должны поддерживать и питать данные, включая требования к актуальности и конфиденциальности.
  • Узнайте, как выглядят данные, соответствующие назначению, для каждой выбранной бизнес-инициативы.
  • Поддержите и расширьте управление данными, встроив его в операционную модель предприятия, чтобы планирование и внедрение данных стали неотъемлемой частью деятельности организации.
  • Организуйте сообщество аналитиков для самообслуживания и обеспечения согласованности.
  • Поддержите искусственный интеллект и машинное обучение с помощью управления данными и управления машинным обучением. Используйте ту же программу управления данными, но примените ее к хранилищам функций и моделям машинного обучения.

Как управление данными влияет на аналитику, машинное обучение и искусственный интеллект?

Управление данными играет ключевую роль в примерах использования большого количества данных.

Управление аналитикой

Управление аналитикой регулирует как данные для использования в аналитических приложениях, так и использование аналитических систем. Ваша команда по управлению аналитикой может создать механизмы, такие как управление версиями аналитических отчетов и ведение документации. Как всегда, следите за нормативными требованиями, устанавливайте политику компании и создавайте барьеры для организации в целом.

Управление ИИ

Управление ИИ предусматривает применение к примерам использования искусственного интеллекта и машинного обучения многих из тех же методов управления данными. Качество и интеграция данных должны обеспечивать данные, необходимые для обучения моделей и развертывания в производственной среде (одним из важных аспектов этого является хранилище функций). Ответственный искусственный интеллект уделяет особое внимание использованию конфиденциальных данных для построения моделей. Дополнительные возможности управления ИИ включают предоставление людям права участвовать в создании, развертывании и мониторинге моделей; документирование обучения моделей, управление версиями, поддерживаемые примеры использования и рекомендации по этичному использованию моделей; а также мониторинг моделей в производстве на предмет точности, дрейфа, переобучения и недообучения.

Генеративный искусственный интеллект требует дополнительных возможностей управления данными, таких как качество и целостность данных, в целях поддержки адаптации базовых моделей для обучения и получения выводов, управления токсичностью и предвзятостью генеративного искусственного интеллекта, а также операций с базовыми моделями (FM) – FMOps.

Вы можете поддерживать искусственный интеллект и машинное обучение с помощью той же программы управления данными. Подготовка данных необходима для преобразования данных в форму, которую модели искусственного интеллекта и машинного обучения могут использовать для обучения и получения производственных выводов, но самая эффективная подготовка данных – это подготовка, которую вам не нужно делать. Специалисты по работе с данными тратят слишком много времени на подготовку данных для каждого варианта использования – ваша команда по управлению данными поможет облегчить эту недифференцированную тяжелую работу. Кроме того, управление данными может обеспечить контроль за созданием хранилищ сформированных функций для примеров использования искусственного интеллекта и машинного обучения.

Наконец, конфиденциальные данные необходимо надлежащим образом защитить, чтобы ваша команда могла снизить риски использования конфиденциальных данных для обучения базовых моделей.

Как и в случае с аналитикой, вы должны регулировать использование моделей искусственного интеллекта и машинного обучения, которые вы создаете или настраиваете. В идеале это должно быть тесно связано с управлением аналитикой, поскольку эта функция будет знать, как поддерживать различные сферы бизнеса.

Каковы основные проблемы управления данными?

Наиболее распространенная стратегическая задача управления данными заключается в приведении программы в соответствие с бизнес-инициативами, а не в том, чтобы напрямую предлагать преимущества управления данными. Например, вы можете предложить облегчить конечным пользователям поиск нужных данных или решить проблемы с качеством данных. Но это решения, направленные на поиск проблемы. Если вы сделаете это таким образом, вы в конечном итоге будете конкурировать за финансирование и спонсорство с бизнес-инициативами, которые вам следует поддерживать. Вместо этого используйте управление данными для поддержки бизнес-инициатив. Каждая крупная бизнес-инициатива требует данных. Управление данными должно обеспечивать надлежащее состояние данных для поддержки успеха бизнес-инициативы. Не забывайте о методах отчетности и аудита в том, как управление данными поддерживает эти инициативы.

Еще одна распространенная стратегическая проблема заключается в том, чтобы не применять управление данными слишком узко. Слишком узкое применение может означать приведение программы в соответствие с отдельными сферами бизнеса или примерами использования без более широкого анализа сфер бизнеса. Узкое применение также может означать, что управление данными определяется только одной или двумя возможностями. Например, наличие каталога данных не является программой управления данными.

Какие существуют предложения AWS для управления данными?

Благодаря комплексному управлению данными в AWS организации могут контролировать, где находятся их данные, кто имеет к ним доступ и что с ними можно делать на каждом этапе рабочего процесса. Управление данными с помощью AWS помогает организациям ускорить принятие решений на основе данных, позволяя нужным людям и приложениям безопасно находить нужные данные, получать к ним доступ и делиться ими в любое время. Для того чтобы ограничить распространение данных, вы можете управлять ими, автоматизируя их интеграцию и качество. Вы можете находить и анализировать свои данные с помощью централизованных каталогов, повышающих грамотность данных. Вы можете защитить свои данные с помощью точных разрешений, позволяющих безопасно делиться данными. 

Мониторинг и аудит доступа к данным позволяют снизить риски и повысить соответствие нормативным требованиям.

  • Amazon DataZone. Раскрытие потенциала данных с помощью встроенных средств управления, невзирая на организационные барьеры.
  • AWS Glue. Поиск, подготовка и интеграция данных в любом масштабе.
  • AWS Lake Formation. Создание озер данных, управление ими и их защита за несколько дней.
  • Amazon QuickSight. Унифицированная бизнес-аналитика в гипермасштабируемой среде.
  • Amazon SageMaker. Создание, обучение и развертывание моделей машинного обучения для любого примера использования с полностью управляемыми инфраструктурой, инструментами и рабочими процессами.
  • Веб-страница управления машинным обучением.
  • Amazon Bedrock. Создание и масштабирование приложений с генеративным искусственным интеллектом на базовых моделях (FM).
  • Amazon Macie. Обнаружение и защита конфиденциальных данных в любом масштабе.
  • Точки доступа Amazon Simple Storage Service (Amazon S3). Объектное хранилище, созданное для получения любого объема данных из любого места.
  • Обмен данными AWS. Легкий поиск, подписка и использование данных третьих лиц в облаке.
  • AWS Clean Rooms. Создание пустых комнат за считаные минуты для совместной работы с партнерами без обмена необработанными данными.

Начните работу с управлением данными на AWS, создав бесплатную учетную запись уже сегодня.

Следующие шаги на AWS

Дополнительные ресурсы к продукту
Подробнее о сервисах аналитики AWS 
Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS.

Регистрация 
Начать разработку в консоли

Начните разработку в Консоли управления AWS.

Вход