Kiến trúc dữ liệu là gì?
Kiến trúc dữ liệu là khung bao quát mô tả và điều chỉnh việc thu thập, quản lý và sử dụng dữ liệu của tổ chức. Các tổ chức ngày nay có khối lượng dữ liệu khổng lồ đến từ các nguồn dữ liệu khác nhau và nhiều nhóm khác nhau muốn truy cập dữ liệu đó cho ứng dụng phân tích, máy học, trí tuệ nhân tạo và các ứng dụng khác. Kiến trúc dữ liệu hiện đại tạo ra một hệ thống gắn kết giúp dữ liệu có thể truy cập và sử dụng được trong khi vẫn đảm bảo vấn đề bảo mật và chất lượng dữ liệu. Kiến trúc dữ liệu xác định các chính sách, mô hình dữ liệu, quy trình và công nghệ cho phép các tổ chức dễ dàng di chuyển dữ liệu giữa các phòng ban và đảm bảo dữ liệu có sẵn khi cần – bao gồm cả truy cập theo thời gian thực – đồng thời hỗ trợ đầy đủ việc tuân thủ quy định.
Các thành phần của kiến trúc dữ liệu là gì?
Các thành phần kiến trúc dữ liệu chính được cung cấp dưới đây.
Nguồn dữ liệu
Nguồn dữ liệu có thể là các ứng dụng hướng đến khách hàng, hệ thống giám sát và đo từ xa, thiết bị IoT và cảm biến thông minh, ứng dụng hỗ trợ hoạt động kinh doanh, kho tri thức nội bộ, lưu trữ dữ liệu, kho dữ liệu của bên thứ ba, v.v. Cả dữ liệu có cấu trúc và phi cấu trúc đều được nhập vào tổ chức với tốc độ, khối lượng và tần suất khác nhau.
Cơ sở dữ liệu
Các hệ thống cơ sở dữ liệu được xây dựng cho mục đích nhất định hỗ trợ các ứng dụng hiện đại và các tính năng khác nhau của chúng. Các hệ thống cơ sở dữ liệu có thể là quan hệ hoặc phi quan hệ, một số hệ thống lưu trữ dữ liệu dưới dạng bảng có cấu trúc và một số hệ thống khác lưu trữ các kiểu dữ liệu phi cấu trúc dưới dạng tài liệu hoặc cặp khóa-giá trị. Cơ sở dữ liệu thường lưu trữ dữ liệu dành riêng cho miền liên quan đến một trường hợp sử dụng hẹp. Tuy nhiên, dữ liệu có thể được sử dụng ngoài hệ thống hiện tại. Ví dụ: dữ liệu từ ứng dụng tương tác trực tiếp với khách hàng có thể được sử dụng để phân tích hoặc lập kế hoạch tiếp thị và cần được lấy ra khỏi cơ sở dữ liệu để xử lý. Tương tự, dữ liệu được xử lý từ nơi khác phải được tải lại vào cơ sở dữ liệu của ứng dụng phân tích hoặc máy học (ML).
Hồ dữ liệu
Hồ dữ liệu là một kho lưu trữ tập trung để lưu trữ dữ liệu thô ở quy mô lớn. Kiến trúc dữ liệu mô tả cách dữ liệu di chuyển từ các cơ sở dữ liệu khác nhau đến hồ dữ liệu và trở lại các cơ sở dữ liệu khác nhau khi cần sử dụng. Hồ dữ liệu lưu trữ dữ liệu ở định dạng gốc hoặc mở, cho phép định dạng và làm sạch trước khi sử dụng. Hồ dữ liệu hỗ trợ tích hợp dữ liệu và chia nhỏ các lô cốt dữ liệu trong một tổ chức.
Phân tích dữ liệu
Thành phần phân tích dữ liệu bao gồm kho dữ liệu truyền thống, báo cáo hàng loạt và công nghệ truyền dữ liệu để cảnh báo và báo cáo theo thời gian thực. Chúng có thể được sử dụng cho các trường hợp sử dụng truy vấn một lần và phân tích nâng cao. Phân tích không bị hạn chế bởi các lô cốt dữ liệu vì kiến trúc dữ liệu mở ra quyền truy cập và cho phép mọi người tự do hơn trong việc sử dụng tài sản dữ liệu của tổ chức.
Trí tuệ nhân tạo
ML và AI rất quan trọng đối với chiến lược dữ liệu hiện đại để giúp các tổ chức dự đoán các kịch bản trong tương lai và xây dựng trí thông minh vào các ứng dụng. Các nhà khoa học dữ liệu sử dụng dữ liệu từ hồ để thử nghiệm, xác định các trường hợp sử dụng trí thông minh và đào tạo các mô hình mới. Ngay cả sau khi được đào tạo, các mô hình AI yêu cầu truy cập liên tục vào dữ liệu mới để tạo đầu ra có liên quan và hữu ích. Kiến trúc dữ liệu hiện đại bao gồm tất cả các công nghệ và cơ sở hạ tầng hỗ trợ suy luận và đào tạo mô hình AI.
Quản trị dữ liệu
Quản trị dữ liệu giúp xác định vai trò, trách nhiệm và tiêu chuẩn cho việc sử dụng dữ liệu. Việc này xác định rõ ai có thể thực hiện hành động gì, đối với dữ liệu nào, bằng phương pháp nào và trong những trường hợp nào. Quản trị dữ liệu bao gồm cả quản lý chất lượng dữ liệu và quản lý bảo mật dữ liệu. Kiến trúc sư dữ liệu xác định các quy trình để kiểm toán và theo dõi việc sử dụng dữ liệu để tuân thủ quy định liên tục.
Quản lý siêu dữ liệu là một phần không thể thiếu trong quản trị dữ liệu. Kiến trúc dữ liệu bao gồm các công cụ và chính sách để lưu trữ và chia sẻ siêu dữ liệu. Kiến trúc dữ liệu phác thảo các cơ chế để cung cấp một kho siêu dữ liệu trung tâm nơi các hệ thống khác nhau có thể lưu trữ và khám phá siêu dữ liệu và sử dụng để truy vấn và xử lý thêm tài sản dữ liệu.
Kiến trúc dữ liệu được triển khai như thế nào?
Biện pháp thực hành tốt nhất là triển khai kiến trúc dữ liệu hiện đại của bạn trong các lớp. Các lớp phân nhóm quy trình và công nghệ dựa trên các mục tiêu riêng biệt. Chi tiết triển khai rất linh hoạt, nhưng các lớp hướng dẫn cách lựa chọn và tích hợp công nghệ.
Lớp tổ chức
Lớp tổ chức là điểm đầu vào cho dữ liệu trong kiến trúc. Lớp tổ chức xử lý việc tải nhập dữ liệu thô từ các nguồn khác nhau, bao gồm các định dạng có cấu trúc, bán cấu trúc và phi cấu trúc. Bạn muốn lớp này linh hoạt nhất có thể.
Nếu lược đồ (định dạng và kiểu dữ liệu) được thực thi một cách cứng nhắc trong lớp này, các trường hợp sử dụng hạ nguồn sẽ bị hạn chế. Ví dụ: thực thi tất cả các giá trị ngày dưới dạng định dạng tháng, năm giới hạn các trường hợp sử dụng trong tương lai yêu cầu định dạng dd/mm/yyyy. Đồng thời, bạn muốn đảm bảo tính nhất quán. Ví dụ: nếu số điện thoại được lưu trữ dưới dạng chuỗi và được sử dụng như vậy, nhưng một số nguồn dữ liệu khác bắt đầu tạo dữ liệu giống như số, điều đó sẽ khiến quy trình dữ liệu bị gián đoạn.
Cân bằng tính linh hoạt với tính nhất quán đòi hỏi bạn phải chia lớp này thành hai lớp phụ.
Lớp thô
Lớp thô lưu trữ dữ liệu không thay đổi chính xác như dữ liệu gốc, giữ nguyên định dạng và cấu trúc ban đầu mà không cần biến đổi. Lớp thô là một kho lưu trữ toàn doanh nghiệp để mang lại khả năng khám phá dữ liệu, kiểm toán và khả năng tái tạo. Các nhóm có thể xem xét sửa đổi và phân tích dữ liệu ở trạng thái ban đầu khi cần thiết, đảm bảo tính minh bạch và khả năng truy xuất nguồn gốc.
Lớp chuẩn hóa
Lớp chuẩn hóa chuẩn bị dữ liệu thô để sử dụng bằng cách áp dụng biện pháp xác thực và biến đổi theo tiêu chuẩn được xác định trước. Ví dụ: trong lớp này, tất cả các số điện thoại sẽ được chuyển đổi thành chuỗi, tất cả các giá trị thời gian sang định dạng cụ thể, v.v. Do đó, lớp này trở thành giao diện cho tất cả người dùng trong tổ chức để truy cập dữ liệu có cấu trúc, đảm bảo chất lượng.
Lớp chuẩn hóa trong kiến trúc dữ liệu rất quan trọng để cho phép nghiệp vụ thông minh tự phục vụ (BI), phân tích định kỳ và quy trình làm việc ML. Lớp chuẩn hóa thực thi các tiêu chuẩn lược đồ trong khi giảm thiểu sự gián đoạn do thay đổi lược đồ gây ra.
Lớp phù hợp
Tích hợp dữ liệu từ các nguồn khác nhau được hoàn thành trong lớp phù hợp. Lớp phù hợp tạo ra một mô hình dữ liệu doanh nghiệp thống nhất trên các miền. Ví dụ: dữ liệu khách hàng có thể có các chi tiết khác nhau ở các bộ phận khác nhau – chi tiết đơn hàng được ghi lại bởi bộ phận bán hàng, lịch sử tài chính được ghi lại bởi bộ phận kế toán, sở thích và hoạt động trực tuyến được ghi lại bởi bộ phận tiếp thị. Lớp phù hợp tạo ra sự hiểu biết chung về dữ liệu đó trong toàn tổ chức. Các lợi ích chính bao gồm:
- Định nghĩa nhất quán, thống nhất về các thực thể cốt lõi trong toàn tổ chức.
- Tuân thủ các quy định về bảo mật dữ liệu và quyền riêng tư.
- Tính linh hoạt cân bằng tính đồng nhất trên toàn doanh nghiệp với tùy chỉnh theo miền cụ thể thông qua các mẫu tập trung và phân tán.
Lớp phù hợp không được sử dụng trực tiếp cho nghiệp vụ thông minh hoạt động nhưng hỗ trợ phân tích dữ liệu khám phá, BI tự phục vụ và bổ sung dữ liệu theo miền cụ thể.
Lớp đệm
Lớp này chuyển đổi dữ liệu từ lớp trước thành tập dữ liệu được gọi là sản phẩm dữ liệu được điều chỉnh cho các trường hợp sử dụng cụ thể. Các sản phẩm dữ liệu có thể bao gồm từ bảng điều khiển hoạt động được sử dụng để ra quyết định hàng ngày đến hồ sơ khách hàng chi tiết được bổ sung với các đề xuất được cá nhân hóa hoặc thông tin chi tiết về hành động tốt nhất tiếp theo. Sản phẩm dữ liệu được lưu trữ trong các cơ sở dữ liệu hoặc ứng dụng khác nhau được chọn dựa trên trường hợp sử dụng cụ thể.
Các tổ chức lập danh mục sản phẩm dữ liệu trong các hệ thống quản lý dữ liệu tập trung để các nhóm khác có thể phát hiện và truy cập. Điều này làm giảm sự dư thừa và đảm bảo rằng dữ liệu chất lượng cao, phong phú có thể dễ dàng truy cập.
Loại kiến trúc dữ liệu là gì?
Có hai cách tiếp cận khác nhau đối với lớp phù hợp để tạo ra các loại kiến trúc dữ liệu khác nhau.
Kiến trúc dữ liệu tập trung
Trong kiến trúc dữ liệu tập trung, lớp phù hợp tập trung vào việc tạo và quản lý các thực thể chung, như khách hàng hoặc sản phẩm, được sử dụng phổ biến trong toàn doanh nghiệp. Các thực thể được xác định với một tập hợp giới hạn các thuộc tính chung để quản lý dữ liệu dễ dàng hơn và khả năng áp dụng rộng rãi. Ví dụ: một thực thể khách hàng có thể bao gồm các thuộc tính cốt lõi như tên, tuổi, nghề nghiệp và địa chỉ.
Các kiến trúc dữ liệu đó hỗ trợ quản trị dữ liệu tập trung, đặc biệt đối với thông tin nhạy cảm như thông tin nhận dạng cá nhân (PII) hoặc thông tin thẻ thanh toán (PCI). Quản lý siêu dữ liệu tập trung đảm bảo rằng dữ liệu được lập danh mục và quản lý hiệu quả, với việc theo dõi dòng và kiểm soát vòng đời để đảm bảo tính minh bạch và bảo mật.
Tuy nhiên, mô hình này không bao gồm tất cả các thuộc tính có thể có, vì việc quản lý tập trung các yêu cầu dữ liệu phức tạp làm chậm quá trình ra quyết định và đổi mới. Thay vào đó, các thuộc tính dành riêng cho miền, chẳng hạn như số lần hiển thị chiến dịch khách hàng (chỉ yêu cầu bởi bộ phận tiếp thị), được lấy từ lớp đệm theo các đơn vị kinh doanh tương ứng.
Công nghệ kết cấu dữ liệu rất hữu ích trong việc triển khai kiến trúc dữ liệu tập trung.
Kiến trúc dữ liệu phân tán
Mỗi miền sẽ tạo và quản lý lớp phù hợp riêng trong kiến trúc dữ liệu phân tán. Ví dụ: bộ phận tiếp thị tập trung vào các thuộc tính như phân khúc khách hàng, số lần hiển thị chiến dịch và chuyển đổi, trong khi bộ phận kế toán ưu tiên các thuộc tính như đơn đặt hàng, doanh thu và thu nhập ròng.
Kiến trúc dữ liệu phân tán cho phép linh hoạt trong việc xác định các thực thể và thuộc tính của chúng nhưng dẫn đến nhiều tập dữ liệu cho các thực thể chung. Khả năng khám phá và quản trị của các tập dữ liệu phân tán này đạt được thông qua danh mục siêu dữ liệu trung tâm. Các bên liên quan có thể tìm và sử dụng tập dữ liệu thích hợp trong khi giám sát các quy trình trao đổi dữ liệu.
Công nghệ lưới dữ liệu rất hữu ích trong việc triển khai kiến trúc dữ liệu phân tán.
Khung kiến trúc dữ liệu là gì?
Khung kiến trúc dữ liệu là một cách tiếp cận có cấu trúc để thiết kế kiến trúc dữ liệu. Khung kiến trúc dữ liệu cung cấp một tập hợp các nguyên tắc, tiêu chuẩn, mô hình và công cụ đảm bảo các quy trình quản lý dữ liệu hiệu quả phù hợp với mục tiêu kinh doanh của tổ chức. Bạn có thể coi khung kiến trúc dữ liệu là kế hoạch chi tiết tiêu chuẩn mà một kiến trúc sư dữ liệu sử dụng để xây dựng các kiến trúc dữ liệu chất lượng cao và toàn diện.
Một số ví dụ về khung kiến trúc dữ liệu bao gồm
Khung DAMA-DMBOK
Khung Data Management Body of Knowledge (DAMA-DMBOK) phác thảo các phương pháp, nguyên tắc và quy trình tốt nhất để quản lý dữ liệu hiệu quả trong suốt vòng đời của dữ liệu. Khung DAMA-DMBOK hỗ trợ thiết lập các thực tiễn quản lý dữ liệu nhất quán trong khi đảm bảo sự phù hợp với các mục tiêu kinh doanh. Bằng cách coi tài sản dữ liệu như một nguồn lực chiến lược, DAMA-DMBOK cung cấp hướng dẫn có thể hành động để cải thiện việc ra quyết định và hiệu quả hoạt động.
Khung Zachman
Khung Zachman là một khung kiến trúc doanh nghiệp sử dụng định dạng ma trận để xác định mối quan hệ giữa các quan điểm khác nhau (chẳng hạn như chủ doanh nghiệp, nhà thiết kế và nhà xây dựng) và 6 câu hỏi chính (Cái gì, Bằng cách nào, Ở đâu, Ai, Khi nào và Tại sao). Các tổ chức có thể trực quan hóa cách dữ liệu phù hợp với hoạt động tổng thể của họ, đảm bảo rằng các quy trình liên quan đến dữ liệu phù hợp với mục tiêu kinh doanh và yêu cầu hệ thống. Khung Zachman được công nhận rộng rãi về khả năng mang lại sự rõ ràng cho dữ liệu toàn doanh nghiệp và các thành phần phụ thuộc hệ thống.
TOGAF
Open Group Architecture Framework (TOGAF) coi kiến trúc dữ liệu là thành phần quan trọng của một hệ thống rộng lớn hơn, tập trung vào việc tạo ra các mô hình dữ liệu, luồng dữ liệu và cấu trúc quản trị hỗ trợ nhu cầu của tổ chức. Khung này thiết lập các quy trình dữ liệu tiêu chuẩn hóa, đảm bảo khả năng tương tác của hệ thống và quản lý dữ liệu hiệu quả. Open Group Architecture Framework đặc biệt có lợi cho các doanh nghiệp lớn muốn điều chỉnh chiến lược CNTT và kinh doanh thông qua một phương pháp thống nhất.
Kiến trúc dữ liệu so với các thuật ngữ liên quan khác như thế nào?
Các thuật ngữ dữ liệu khác nhau có vẻ giống nhau nhưng có ý nghĩa hoàn toàn khác nhau. Chúng tôi đưa ra một số giải thích dưới đây.
Kiến trúc dữ liệu và kiến trúc thông tin
Kiến trúc thông tin là tổ chức và trình bày thông tin cho người dùng cuối. Thuật ngữ này áp dụng cho giao diện người dùng, trang web hoặc hệ thống nội dung và liên quan đến khả năng truy cập thông tin người dùng cuối. Các nguyên tắc và công cụ trong kiến trúc thông tin tập trung vào điều hướng, phân loại và khả năng tìm kiếm – ví dụ: trong kho kiến thức trực tuyến hoặc cơ sở dữ liệu tài liệu.
Ngược lại, kiến trúc dữ liệu tập trung vào việc thiết kế và quản lý tất cả dữ liệu tổ chức. Kiến trúc dữ liệu xử lý tất cả cơ sở hạ tầng dữ liệu kỹ thuật backend, trong khi kiến trúc thông tin chỉ tập trung vào cách người dùng cuối tương tác và diễn giải thông tin.
Kiến trúc dữ liệu và kỹ thuật dữ liệu
Kỹ thuật dữ liệu là quá trình triển khai thực tế của kiến trúc dữ liệu. Kiến trúc sư dữ liệu cung cấp một kế hoạch cấp cao để quản lý tài sản dữ liệu của tổ chức. Kiến trúc sư dữ liệu thiết kế các hệ thống dữ liệu có thể điều chỉnh quy mô phù hợp với mục tiêu kinh doanh và chính sách bảo mật. Kỹ sư dữ liệu thực hiện kế hoạch – xây dựng, duy trì và tối ưu hóa các quy trình dữ liệu. Kỹ sư dữ liệu đảm bảo dữ liệu được thu thập, làm sạch, chuyển đổi và phân phối để phân tích theo các quy tắc của kiến trúc dữ liệu.
Kiến trúc dữ liệu và lập mô hình dữ liệu
Lập mô hình dữ liệu là một quy trình trong kiến trúc dữ liệu để biểu diễn trực quan bất kỳ bộ sưu tập dữ liệu nào. Lập mô hình dữ liệu bao gồm quy trình tạo các mô hình dữ liệu khái niệm, logic và vật lý nhằm phác thảo dữ liệu trong bộ sưu tập. Mô hình dữ liệu logic biểu diễn các giới hạn của dữ liệu, tên thực thể và các mối quan hệ để triển khai theo cách độc lập với nền tảng dưới dạng biểu đồ. Mô hình dữ liệu vật lý tiếp tục tinh chỉnh mô hình logic để triển khai trên một công nghệ dữ liệu cụ thể.
Kiến trúc dữ liệu có phạm vi rộng hơn so với lập mô hình dữ liệu. Ngoài các thuộc tính và mối quan hệ dữ liệu, kiến trúc dữ liệu còn xác định một chiến lược rộng hơn để quản lý dữ liệu toàn tổ chức. Kiến trúc dữ liệu bao gồm cơ sở hạ tầng, chính sách và công nghệ để tích hợp dữ liệu phù hợp với các mục tiêu của tổ chức.
AWS có thể hỗ trợ các yêu cầu về kiến trúc dữ liệu của bạn như thế nào?
AWS cung cấp một bộ dịch vụ phân tích toàn diện cho mọi lớp kiến trúc dữ liệu của bạn – từ lưu trữ và quản lý đến quản trị dữ liệu và AI. AWS cung cấp các dịch vụ được xây dựng cho mục đích nhất định với hiệu suất giá tốt nhất, khả năng điều chỉnh quy mô và chi phí thấp nhất. Ví dụ:
- Cơ sở dữ liệu trên AWS bao gồm hơn 15 dịch vụ cơ sở dữ liệu được xây dựng cho mục đích nhất định để hỗ trợ nhiều mô hình dữ liệu quan hệ và phi quan hệ khác nhau.
- Hồ dữ liệu trên AWS bao gồm các dịch vụ cung cấp kho lưu trữ dữ liệu thô không giới hạn và xây dựng hồ dữ liệu an toàn trong vài ngày thay vì vài tháng.
- Tích hợp dữ liệu với AWS bao gồm các dịch vụ tập hợp dữ liệu từ nhiều nguồn để bạn có thể chuyển đổi, vận hành và quản lý dữ liệu trong toàn tổ chức của mình.
Kiến trúc tối ưu của AWS giúp các kiến trúc sư dữ liệu điện toán đám mây xây dựng cơ sở hạ tầng bảo mật, hiệu năng cao, linh hoạt và hiệu quả. Trung tâm kiến trúc AWS bao gồm các nguyên tắc dựa trên trường hợp sử dụng để triển khai các kiến trúc dữ liệu hiện đại khác nhau trong tổ chức của bạn.
Bắt đầu với kiến trúc dữ liệu trên AWS bằng cách tạo tài khoản miễn phí ngay hôm nay.
Các bước tiếp theo trên AWS
Bắt đầu xây dựng với AWS trên Bảng điều khiển quản lý AWS.