Что представляет собой хранилище данных?
Хранилище данных — это центральный репозиторий информации, которую можно анализировать для принятия более обоснованных решений. Данные поступают в хранилище из транзакционных систем, реляционных баз данных и других источников – как правило, с определенной периодичностью. Бизнес-аналитики, инженеры по данным, специалисты по данным и лица, принимающие решения, получают доступ к данным с помощью инструментов бизнес‑аналитики (BI), SQL‑клиентов и других аналитических приложений.
Сегодня данные и инструменты аналитики незаменимы для компаний, которые стремятся сохранять преимущества перед конкурентами. Чтобы превращать данные в полезную аналитическую информацию, следить за эффективностью ведения бизнеса и принимать обоснованные решения, компании используют отчеты, панели управления и различные аналитические инструменты. За этими отчетами, панелями управления и аналитическими инструментами стоят хранилища данных, которые эффективно хранят данные, минимизируя количество операций чтения и записи и быстро возвращая результаты запросов сотням и тысячам пользователей одновременно.
Как разрабатываются хранилища данных?
Архитектура хранилища данных включает несколько уровней. Верхний уровень – интерфейсный клиент, предоставляющий результаты с использованием инструментов формирования отчетов, поиска и анализа данных. Средний уровень — аналитический механизм, который используется для доступа к данным и их анализа. Нижний уровень архитектуры — сервер базы данных, отвечающий за загрузку и хранение данных. Данные хранятся двумя разными способами: 1) данные, к которым нужен частый доступ, хранятся в очень быстром хранилище (например, на SSD-дисках), и 2) данные с нечастым доступом хранятся в более дешевом хранилище объектов, например в Amazon S3. Хранилище данных автоматически выполняет перенос часто используемых данных в «быстрое» хранилище для оптимизации скорости запросов.
Как работает хранилище данных?
Хранилище данных может содержать несколько баз данных. В каждой базе данных хранятся данные, упорядоченные по таблицам и столбцам. В каждом столбце вы можете определить описание данных: целые числа, поле данных, строка и т. д. Таблицы можно структурировать в схемы, которые во многом похожи на папки с файлами. После поступления данные хранятся в различных таблицах, описанных в этой схеме. С ее помощью инструменты запросов определяют, к каким таблицам данных следует обратиться для анализа.
Каковы преимущества использования хранилища данных?
Хранилище данных обеспечивает следующие преимущества:
- возможность принимать обоснованные решения;
- консолидация данных из множества источников;
- исторический анализ данных;
- высокое качество, непротиворечивость и точность данных;
- изолирование операций аналитики от транзакционных БД для повышения производительности обеих систем.
Как сочетаются друг с другом хранилища данных, базы данных и озера данных?
В организациях для хранения и анализа данных традиционно применяются разные сочетания баз данных, озер данных и хранилищ данных. Архитектура озерного хранилища данных Amazon Redshift упрощает такую интеграцию.
По мере роста объема и разнообразия данных следует применять один или несколько следующих шаблонов для работы с данными в базе данных, озере данных и хранилище данных.
В отличие от хранилища данных, озеро данных представляет собой централизованный репозиторий для всех данных, как структурированных, так и неструктурированных. Для хранилища данных требуется табличная организация данных, и важную роль в этом механизме играет схема данных. Табличный формат нужен для того, чтобы использовать запросы SQL для получения данных. Но табличный формат требуется не для всех приложений. Некоторые из них, например для аналитики больших данных, полнотекстового поиска и машинного обучения умеют работать с частично структурированными или полностью нескруктурированными данными.
Чтобы подробнее сравнить хранилища данных и озера данных, посетите эту страницу.
Чем отличаются витрина данных и хранилище данных?
Витрина данных — это хранилище данных, предназначенное для определенного отдела или подразделения, например финансового отдела, отдела маркетинга или продаж. Витрина данных меньше по объему, имеет определенную специализацию и может содержать обобщенные данные, наиболее актуальные для пользователей. Витрина данных может даже являться частью хранилища данных.
Чтобы подробнее сравнить банки данных и хранилища данных, посетите эту страницу.
Как AWS может помочь в работе с хранилищами данных?
AWS позволяет использовать все основные преимущества, связанные с предоставлением вычислительных ресурсов по требованию: доступ к практически бесконечным ресурсам хранилища и вычислительным ресурсам, масштабирование системы параллельно с увеличением объема собираемых, хранимых и запрашиваемых данных, оплата только подготовленных ресурсов. AWS предлагает широкий перечень управляемых сервисов с возможностью интеграции, которые позволяют быстро развертывать комплексные аналитические решения и решения для хранения данных.
На следующем рисунке представлены основные шаги комплексного аналитического процесса (стека). AWS предоставляет для каждого из этих шагов широкий ассортимент управляемых сервисов.
Amazon Redshift – наш быстрый, полностью управляемый и экономичный сервис для хранения данных. Он предоставляет хранилище для данных объемом до многих петабайтов и аналитику озера данных объемом до нескольких эксабайтов, которые объединены в один сервис с оплатой по факту использования.
Создайте аккаунт и начните работу с хранилищем данных на AWS уже сегодня.
AWS: дальнейшие шаги
Получите мгновенный доступ к уровню бесплатного пользования AWS.