Что такое архитектура данных?
Архитектура данных – это всеобъемлющая структура, которая описывает и регулирует сбор, управление и использование данных в организации. Сегодня организации получают огромные объемы данных из различных источников и от разрозненных команд, желающих получить доступ к этим данным для аналитики, машинного обучения, искусственного интеллекта и других приложений. Современная архитектура данных представляет собой целостную систему, которая делает данные доступными и удобными для использования, обеспечивая их безопасность и качество. Она определяет политики, модели данных, процессы и технологии, позволяющие организациям легко перемещать данные между отделами и гарантировать их доступность в любое время, включая доступ в реальном времени, при полном соблюдении нормативных требований.
Каковы компоненты архитектуры данных?
Основные компоненты архитектуры данных приведены ниже.
Источники данных
Источниками данных могут быть ориентированные на клиента приложения, системы мониторинга и телеметрии, устройства Интернета вещей и интеллектуальные датчики, приложения для поддержки бизнес-операций, внутренние хранилища знаний, архивы данных, сторонние хранилища данных и многое другое. Структурированные и неструктурированные данные поступают в организацию с разной скоростью, частотой и в разном объеме.
Базы данных
Системы специализированных баз данных поддерживают современные приложения и их различные функции. Они могут быть реляционными или нереляционными: некоторые хранят данные в виде структурированных таблиц, а другие хранят неструктурированные типы данных в виде документов или пар «ключ-значение». В базах данных обычно хранятся специфичные для домена данные, относящиеся к ограниченному примеру использования. Однако данные можно использовать за пределами текущей системы. Например, данные из приложения, ориентированного на клиента, можно использовать для маркетинговой аналитики или планирования, и их необходимо извлечь из базы данных для обработки. Аналогичным образом, обработанные данные из других источников необходимо повторно загрузить в базу данных приложения для аналитики или машинного обучения.
Озера данных
Озеро данных – это централизованный репозиторий для носителей необработанных данных с возможностью масштабирования. Архитектура описывает, как данные перемещаются из разных баз данных в озеро данных и обратно в разные базы данных по мере необходимости. В озере данных они хранятся в исходном или открытом формате, что дает возможность форматировать и очищать их перед использованием. Оно поддерживает интеграцию данных и устраняет разрозненность данных в разных хранилищах одной организации.
Аналитика данных
Компонент аналитики данных включает традиционные хранилища данных, пакетную отчетность и технологию потока данных для оповещения и составления отчетов в реальном времени. Их можно использовать для одноразовых запросов и сценариев использования для расширенной аналитики. Аналитика не ограничивается хранилищами данных, поскольку архитектура данных открывает доступ к данным и предоставляет каждому больше свободы в использовании информационных ресурсов организации.
Искусственный интеллект
Машинное обучение и искусственный интеллект играют важную роль в современной стратегии обработки данных, помогая организациям прогнозировать будущие сценарии и внедрять интеллектуальные данные в приложения. Специалисты по обработке данных используют данные из озер для экспериментов, выявления сценариев использования искусственного интеллекта и обучения новых моделей. Даже после обучения модели искусственного интеллекта требуют постоянного доступа к свежим данным для сохранения релевантных и полезных результатов. Современные архитектуры данных включают все технологии и инфраструктуру, поддерживающие обучение и вывод моделей искусственного интеллекта.
Управление данными
В рамках управления данными определяются роли, обязанности и стандарты в отношении использования данных. В нем описывается, кто какие действия может предпринимать, на основе каких данных, какими способами и в каких ситуациях. Оно предполагает управление как качеством, так и безопасностью данных. Архитекторы данных определяют процессы аудита и отслеживания использования данных для обеспечения постоянного соответствия нормативным требованиям.
Управление метаданными является неотъемлемой частью управления данными. Архитектура данных включает инструменты и политики для хранения метаданных и обмена ими. Она излагает механизмы создания центрального хранилища метаданных, в котором разрозненные системы могут хранить и обнаруживать метаданные и использовать их для дальнейших запросов и обработки активов данных.
Как реализована архитектура данных?
Лучше всего внедрять современную архитектуру данных по уровням. Уровни группируют процессы и технологии на основе определенных целей. Детали внедрения гибки, но разные уровни требуют разных технологий и способов их интеграции.
Промежуточный уровень
Промежуточный уровень – это точка входа данных в архитектуру. Он отвечает за получение необработанных данных из различных источников, включая структурированные, полуструктурированные и неструктурированные форматы. Этому уровню нужна максимальная гибкость.
Если на этом уровне применяются строгие схемы (по форматам и типам данных), последующие варианты использования ограничены. Например, задание всех значений даты в формате месяца и года ограничивает будущие варианты использования, требующие отображения в формате дд/мм/ггг. В то же время нужна некоторая согласованность. Например, если телефонные номера хранятся и используются в виде строк, но какой-либо другой источник данных начинает генерировать те же данные, что и числовые, это приводит к разрыву конвейеров данных.
Чтобы сбалансировать гибкость и согласованность, необходимо разделить этот уровень на два подуровня.
Необработанный уровень
Необработанный уровень сохраняет неизмененные данные точно в том виде, в котором они поступают, сохраняя исходный формат и структуру без преобразований. Это общекорпоративное хранилище для изучения, проверки и воспроизведения данных. При необходимости команды могут возвращаться и анализировать данные в исходном виде, что обеспечивает их прозрачность и отслеживаемость.
Стандартизированный уровень
Стандартизированный уровень подготавливает исходные данные к использованию, проверяя и преобразовывая их в соответствии с заранее определенными стандартами. Например, на этом уровне все телефонные номера будут преобразованы в строки, все значения времени – в определенные форматы и т. д. Таким образом, он становится интерфейсом для всех пользователей организации, с помощью которого они получают доступ к структурированным и качественным данным.
Стандартизированный уровень архитектуры данных имеет решающее значение в обеспечении возможности самостоятельного использования бизнес-аналитики, стандартной аналитики и рабочих процессов машинного обучения. Он обеспечивает соблюдение стандартов схемы, сводя к минимуму сбои, вызванные ее изменениями.
Согласованный уровень
Интеграция данных из разных источников завершается на согласованном уровне. Он создает унифицированную корпоративную модель данных в разных доменах. Например, в разных отделах могут хранить разную информацию о клиентах: сведения о заказах фиксируют в отделе продаж, финансовую историю – в бухгалтерии, а запросы и активность онлайн – в отделе маркетинга. Согласованный уровень обеспечивает целостность таких данных в организации. Главные преимущества:
- Последовательное унифицированное определение основных подразделений в организации.
- Соблюдение требований к безопасности и конфиденциальности данных.
- Гибкость, сочетающая унификацию в масштабе компании и индивидуальную настройку на уровне отдельных доменов с помощью централизованных и распределенных шаблонов.
Он напрямую не используется для операционной бизнес-аналитики, но поддерживает исследовательский анализ данных, самостоятельную бизнес-аналитику и обогащение данных в конкретных доменах.
Расширенный уровень
Этот уровень преобразует данные с предыдущего уровня в наборы данных, или продукты для работы с данными, которые подходят для конкретных сценариев использования. Продукты для работы с данными могут варьироваться от оперативных информационных панелей, используемых для ежедневного принятия решений, до подробных профилей клиентов с персонализированными рекомендациями или аналитической информацией о самых эффективных действиях. Они размещаются в различных базах данных или приложениях, в зависимости от конкретного варианта использования.
Организации каталогизируют продукты для работы с данными в централизованных системах управления, обеспечивая возможность обнаружения и доступа к ним для других команд. Это снижает избыточность и гарантирует легкий доступ к высококачественным и обогащенным данным.
Какие существуют типы архитектур данных?
Существует два разных подхода к согласованному уровню, которые создают разные типы архитектуры данных.
Централизованная архитектура данных
В централизованных архитектурах данных согласованный уровень сосредоточен на создании общих объектов, которые повсеместно используются в компании, таких как заказчик или продукт, и управлении ими. Объекты определяют с помощью ограниченного набора общих атрибутов для упрощения управления данными и широкого применения. Например, сущность клиента может включать такие ключевые атрибуты, как имя, возраст, профессия и адрес.
Такие архитектуры поддерживают централизованное управление данными, особенно конфиденциальной информацией, например информацией, позволяющей установить личность (PII), или сведениями о платежных картах (PCI). Централизованное управление метаданными обеспечивает каталогизацию данных и эффективное управление ими, а отслеживание происхождения и контроль жизненного цикла гарантируют прозрачность и безопасность.
Однако эта модель не дает возможности включить все возможные атрибуты, поскольку централизованное управление сложными требованиями к данным замедляет процесс принятия решений и внедрение инноваций. Вместо этого специфичные для конкретного домена свойства, например показ рекламных кампаний клиентов (данные, необходимые только для маркетинга), передаются соответствующими подразделениями на расширенном уровне.
При реализации централизованных архитектур данных полезны технологии полотна данных.
Распределенная архитектура данных
В распределенных архитектурах данных каждый домен создает собственный согласованный уровень и управляет им. Например, маркетинг сосредоточен на таких атрибутах, как сегменты клиентов, показы кампаний и конверсии, а для бухгалтерского учета важны такие свойства, как заказы, доход и чистая прибыль.
Распределенные архитектуры данных дают возможность гибко определять сущности и их свойства, но помещать общие объекты в разные наборы данных. Находить эти распределенные наборы данных и управлять ими можно с помощью центрального каталога метаданных. Заинтересованные стороны могут найти и использовать соответствующий набор данных, контролируя процессы обмена данными.
При реализации распределенных архитектур данных полезны технологии сетки данных.
Что такое схема архитектуры данных?
Схема архитектуры данных – это структурированный подход к проектированию архитектуры данных. Она представляет набор принципов, стандартов, моделей и инструментов, обеспечивающих эффективные процессы управления данными в соответствии с бизнес-целями организации. Ее можно рассматривать как стандартный чертеж, который архитектор данных использует для создания высококачественных и комплексных архитектур данных.
Вот некоторые примеры схем архитектуры данных:
Структура DAMA-DMBOK
Свод знаний по управлению данными (DAMA-DMBOK) описывает передовые практики, принципы и процессы эффективного управления данными на протяжении всего их жизненного цикла. Он поддерживает внедрение сообразных методов управления данными, обеспечивая соответствие бизнес-целям. Рассматривая активы данных как стратегический ресурс, DAMA-DMBOK предоставляет действенные рекомендации по улучшению процесса принятия решений и операционной эффективности.
Модель Захмана
Модель Захмана – это схема корпоративной архитектуры, использующая матричный формат для определения связей между различными перспективами (например, владельцем бизнеса, дизайнером и разработчиком) и шести ключевых запросов (что, как, где, кто, когда и почему). Организации могут визуализировать, как данные вписываются в общую операционную деятельность, обеспечивая соответствие процессов, связанных с данными, бизнес-целям и системным требованиям. Модель Захмана широко известна своей способностью вносить ясность в общекорпоративные данные и системные зависимости.
TOGAF
Стандарт архитектуры Open Group (TOGAF) рассматривает архитектуру данных как важнейший компонент более широкой системы, уделяя особое внимание созданию моделей данных, потоков данных и структур управления, отвечающих потребностям организации. Он устанавливает стандартизированные процессы обработки данных, обеспечивая совместимость систем и эффективность управления данными. Это особенно полезно для крупных предприятий, которые хотят согласовать свои ИТ- и бизнес-стратегии с помощью унифицированного подхода.
Чем архитектура данных отличается от других смежных понятий?
Разные понятия, связанные с данными, звучат похоже, но имеют совершенно разные значения. Ниже мы приводим некоторые пояснения.
Архитектура данных и информационная архитектура
Информационная архитектура – это организация и представление информации конечным пользователям. Этот термин применяется по отношению к пользовательским интерфейсам, веб-сайтам или системам контента и относится к доступности информации для конечных пользователей. Принципы и инструменты информационной архитектуры сосредоточены на навигации, категоризации и возможности поиска, например, в онлайн-хранилище знаний или базе данных документов.
В то же время архитектура данных сосредоточена на проектировании всех организационных данных и управлении ими. Она охватывает всю внутреннюю инфраструктуру технических данных, в то время как информационная архитектура фокусируется только на том, как конечные пользователи взаимодействуют с информацией и интерпретируют ее.
Архитектура данных и инженерия данных
Инженерия данных – это практическая реализация архитектуры данных. Архитекторы данных создают высокоуровневый план управления активами данных организации. Они разрабатывают масштабируемые системы данных в соответствии с бизнес-целями и политиками безопасности. Инженеры данных реализуют план, создавая, поддерживая и оптимизируя конвейеры данных. Они обеспечивают сбор, очистку, преобразование и передачу данных для анализа в соответствии с правилами архитектуры данных.
Архитектура данных и моделирование данных
Моделирование данных – это процесс в архитектуре данных, который создает визуальное представление той или иной коллекции данных. Сюда входит создание концептуальных, логических и физических моделей данных, описывающих данные в коллекции. В логической модели данных схематически представлены ограничения данных, имена сущностей и связи для реализации независимо от платформы. Физическая модель данных еще глубже детализирует логическую модель с учетом особенностей реализации на конкретной технологии баз данных.
Архитектура данных имеет намного больше возможностей, чем моделирование данных. Помимо атрибутов и взаимосвязей данных, она также определяет более широкую стратегию управления данными в масштабах всей организации. Она включает инфраструктуру, политики и технологии интеграции данных, соответствующие целям организации.
Как AWS может удовлетворить ваши требования к архитектуре данных?
AWS предоставляет полный набор аналитических сервисов для каждого уровня архитектуры данных – от хранения и организации до управления данными и искусственного интеллекта. AWS предлагает специализированные сервисы с лучшим соотношением цены и производительности, масштабируемостью и самой низкой стоимостью. Пример
- Базы данных на AWS включают более 15 сервисов специализированных баз данных для поддержки различных реляционных и нереляционных моделей данных.
- Озера данных на AWS включают сервисы, предоставляющие носители необработанных данных с неограниченным объемом и создающие безопасные озера данных за несколько дней, а не месяцев.
- Интеграция данных с AWS включает сервисы, объединяющие данные из нескольких источников и предоставляющие возможность преобразовывать, использовать данные, а также управлять ими в организации.
Концепция AWS Well-Architected помогает архитекторам облачных данных создавать безопасную, высокопроизводительную, отказоустойчивую и эффективную инфраструктуру. Центр архитектуры AWS содержит рекомендации по внедрению различных современных архитектур данных в вашей организации на основе сценариев использования.
Начните работу с архитектурой данных в AWS, создав бесплатный аккаунт уже сегодня.
Следующие шаги на AWS
Получите мгновенный доступ к уровню бесплатного пользования AWS.