什麼是資料倉儲?
資料倉儲是資訊的中央儲存庫,這些資訊經過分析後可協助您做出更明智的決策。資料通常會定期從交易處理系統、關聯式資料庫和其他來源流入資料倉儲。商業分析師、資料工程師、資料科學家和決策者可透過商業智慧 (BI) 工具、SQL 用戶端和其他分析應用程式存取資料。
資料和分析已成為企業保持競爭力不可或缺的一部分。企業使用者依賴報告、儀表板和分析工具,從資料擷取深入洞見、監控商業效能和支援決策。資料倉儲為這些報告、儀表板和分析工具提供支援,透過有效率地存放資料以最大程度地減少資料的輸入和輸出 (I/O),並快速地將查詢結果同時交付給成千上萬的使用者。
資料倉儲如何設計?
資料倉儲架構由層組成。最上層是前端用戶端,可透過報告、分析和資料採集工具顯示結果。中間層由分析引擎組成,可用來存取和分析資料。架構的最底層是資料庫伺服器,資料在該處載入和存放。資料以兩種不同類型的方式存放:1) 經常存取的資料存放在非常快速的儲存體 (如 SSD 驅動程式);2) 不常存取的資料存放在實惠的物件存放區中,如 Amazon S3。資料倉儲將自動確保將經常存取的資料移至「快速」儲存體中,從而最佳化查詢速度。
資料倉儲如何運作?
資料倉儲可能包含多個資料庫。在每個資料庫中,資料被整理成資料表和資料欄。在各欄中,您可以定義資料的描述,例如整數、資料欄位或字串。資料表可以在結構描述內進行整理,您可以將其視為資料夾。導入資料時,會將資料存放在結構描述所描述的各種表格中。查詢工具使用結構描述決定要存取和分析的資料表。
使用資料倉儲有哪些優點?
資料倉儲的優點包括:
- 做出明智的決策
- 整合眾多來源的資料
- 歷史資料分析
- 高資料品質、一致性和準確性
- 將分析處理從交易式資料庫分開,以提升這兩個系統的效能
資料倉儲、資料庫和資料湖如何協同工作?
通常,企業使用資料庫、資料湖和資料倉儲組合來存放和分析資料。Amazon Redshift 的資料湖架構可輕鬆實現這種整合。
隨著資料量和種類的增加,遵循一種或多種常見模式來處理資料庫、資料湖和資料倉儲中的資料非常有優勢:
與資料倉儲不同,資料湖是所有資料的中央儲存庫,包括結構化、半結構化和非結構化資料。資料倉儲要求以表格格式整理資料,這是結構描述發揮作用之處。需要表格格式才能使用 SQL 查詢資料。但是,並非所有應用程式都要求資料採用表格格式。某些應用程式,例如大數據分析、全文搜尋和機器學習,即使資料是「半結構化」或完全非結構化也可以存取。
如需資料倉儲與資料湖之間的深入比較,請造訪我們專屬的資料倉儲與資料湖比較頁面。
資料市集與資料倉儲相比如何?
資料市集是專門服務特定團隊或業務單位 (金融、行銷或銷售等) 的資料倉儲。它較小、較專門且可能含有資料摘要,非常適合服務其使用者社群。資料市集也可能是資料倉儲的一部分。
如需資料市集與資料倉儲之間的深入比較,請造訪我們專屬的資料市場與資料倉儲比較頁面。
AWS 如何支援您的資料倉儲工作?
AWS 可讓您充分利用與隨需運算相關的所有核心優勢︰存取看似無限制的儲存和運算容量,隨著收集、存放和查詢的資料量增加而平行擴展系統,以及僅支付您佈建的資源費用。AWS 提供可彼此無縫整合的各種受管服務,讓您快速地部署端對端分析和資料倉儲解決方案。
下圖顯示了端對端分析程序 (也稱為堆疊) 的關鍵步驟。AWS 在每個步驟都提供各種受管服務。
Amazon Redshift 是我們快速、全受管且經濟高效的資料倉儲服務。它在一項服務中即可為您提供 PB 級資料倉儲和 EB 級資料湖分析,您只需按實際用量付費。
立即建立帳戶,開始在 AWS 上使用資料倉儲。