Quản trị dữ liệu là gì?
Quản trị dữ liệu là phương pháp đảm bảo dữ liệu có điều kiện thích hợp để hỗ trợ các sáng kiến và hoạt động kinh doanh. Việc điều chỉnh hoạt động quản trị dữ liệu cho phù hợp với các sáng kiến kinh doanh mang lại nhiều lợi ích.
- Ủng hộ việc tài trợ cho chương trình quản trị dữ liệu
- Thúc đẩy các cộng đồng doanh nghiệp tham gia
- Thúc đẩy ưu tiên hoạt động quản trị dữ liệu
- Thúc đẩy mức độ tích hợp dữ liệu cần thiết trên các lĩnh vực kinh doanh tham gia
- Giúp xác định mô hình hoạt động phù hợp, đặc biệt là mức độ tập trung hóa và phi tập trung cần thiết.
Quản trị phân tích là gì?
Quản trị phân tích vừa quản lý dữ liệu để sử dụng trong các ứng dụng phân tích, vừa quản lý việc sử dụng các hệ thống phân tích. Nhóm quản trị phân tích của bạn có thể thiết lập các cơ chế quản trị, chẳng hạn như lập phiên bản báo cáo phân tích và tài liệu. Như mọi khi, hãy theo dõi các yêu cầu theo quy định, thiết lập chính sách của công ty và đặt ra các quy tắc bảo vệ cho tổ chức quy mô rộng hơn.
Vì sao quản trị dữ liệu là việc quan trọng?
Theo Gartner, đến năm 2025, 80% các tổ chức tìm cách điều chỉnh quy mô kinh doanh kỹ thuật số sẽ thất bại vì họ không áp dụng cách tiếp cận hiện đại để quản trị dữ liệu và phân tích. Không có gì ngạc nhiên khi các Giám đốc Dữ liệu xác định quản trị dữ liệu là ưu tiên hàng đầu cho các sáng kiến dữ liệu của họ. Trong một cuộc khảo sát năm 2023 với 350 Giám đốc Dữ liệu (CDO) và những người giữ các vai trò tương đương CDO, MIT CDOIQ thấy rằng 45% Giám đốc Dữ liệu xác định quản trị dữ liệu là ưu tiên hàng đầu. Các nhà lãnh đạo về dữ liệu này đang tìm cách triển khai một mô hình quản trị cho phép họ cung cấp dữ liệu cho đúng người và ứng dụng khi cần thiết, trong khi vẫn đảm bảo dữ liệu an toàn và bảo mật, thông qua các biện pháp kiểm soát thích hợp có sẵn.
Từ trước đến nay, quản trị vẫn luôn được sử dụng để khóa dữ liệu trong các lô cốt, với mục tiêu ngăn chặn rò rỉ hoặc lạm dụng dữ liệu. Tuy nhiên, hậu quả khi sử dụng lô cốt dữ liệu là người dùng hợp lệ phải vượt qua các rào cản để có quyền truy cập dữ liệu khi họ cần. Do đó vô tình kìm hãm sự đổi mới dựa trên dữ liệu.
Bạn có hai đòn bẩy để quản trị trở thành một yếu tố thúc đẩy đổi mới, đó là quyền truy cập và kiểm soát. Bí quyết dẫn tới thành công là tìm ra mức cân bằng phù hợp giữa quyền truy cập và kiểm soát và mỗi tổ chức sẽ có điểm cân bằng riêng. Khi bạn kiểm soát quá mức, dữ liệu bị khóa trong lô cốt và người dùng không thể truy cập dữ liệu khi họ cần. Điều này không chỉ kìm hãm sự sáng tạo mà còn dẫn đến hậu quả tạo ra các hệ thống CNTT bóng tối khiến dữ liệu lỗi thời và không được bảo mật. Mặt khác, khi cho phép quá nhiều quyền truy cập, dữ liệu được chuyển tới các ứng dụng và kho dữ liệu, làm gia tăng nguy cơ rò rỉ dữ liệu.
Thiết lập quản trị phù hợp, qua đó cân bằng quyền truy cập và kiểm soát, sẽ giúp mọi người tin tưởng và tin cậy vào dữ liệu thông qua thúc đẩy khám phá, tuyển chọn, bảo vệ và chia sẻ dữ liệu một cách phù hợp. Qua đó khuyến khích sự đổi mới, đồng thời vẫn bảo vệ dữ liệu.
Quản trị máy học (ML) là gì?
Quản trị ML áp dụng nhiều trong số các phương pháp quản trị dữ liệu cho ML. Chất lượng dữ liệu và tích hợp dữ liệu cần cung cấp dữ liệu cần thiết để đào tạo mô hình và triển khai sản xuất (các cửa hàng tính năng là một khía cạnh quan trọng trong đó). Trí tuệ nhân tạo (AI) có trách nhiệm đang đặc biệt chú ý đến việc sử dụng dữ liệu nhạy cảm để xây dựng các mô hình. Các tính năng quản trị ML bổ sung bao gồm cho phép mọi người tham gia xây dựng, triển khai và giám sát mô hình; lập hồ sơ đào tạo mô hình, lập phiên bản, các trường hợp sử dụng được hỗ trợ và hướng dẫn sử dụng mô hình có đạo đức; cũng như giám sát mô hình ở khâu sản xuất để biết độ chính xác, sai lệch, quá khớp và chưa khớp.
AI tạo sinh yêu cầu các khả năng quản trị dữ liệu bổ sung, như chất lượng và tính toàn vẹn của dữ liệu để hỗ trợ điều chỉnh các mô hình nền tảng cho mục đích đào tạo và suy luận, quản trị tính độc hại và thiên kiến của AI tạo sinh và hoạt động của mô hình nền tảng (FM): FMOp.
Bạn có thể hỗ trợ AI/ML thông qua cùng một chương trình quản trị dữ liệu. Chuẩn bị dữ liệu là hoạt động cần thiết để chuyển đổi dữ liệu sang hình thức mà các mô hình AI/ML có thể sử dụng để đào tạo và suy luận sản xuất nhưng công đoạn chuẩn bị dữ liệu hiệu quả nhất là công đoạn chuẩn bị mà bạn không phải thực hiện. Các nhà khoa học dữ liệu dành quá nhiều thời gian để chuẩn bị dữ liệu cho từng trường hợp sử dụng. Nhóm quản trị dữ liệu của bạn có thể giúp giảm bớt gánh nặng cùng một kiểu này. Ngoài ra, quản trị dữ liệu có thể giám sát việc tạo ra các cửa hàng tính năng được định hình để sử dụng trong các trường hợp sử dụng AI và ML.
Cuối cùng, dữ liệu nhạy cảm cần được bảo vệ một cách thích hợp, để nhóm của bạn có thể giảm thiểu rủi ro của dữ liệu nhạy cảm được sử dụng cho mục đích đào tạo các mô hình nền tảng.
Giống như phân tích nói chung, bạn phải quản lý việc sử dụng các mô hình AI/ML do mình xây dựng hoặc tùy chỉnh. Tốt nhất là việc này nên được liên kết chặt chẽ với quản trị phân tích, vì chức năng đó sẽ biết cách hỗ trợ các lĩnh vực kinh doanh khác nhau.
Đâu là những khó khăn chính của việc quản trị dữ liệu?
Khó khăn chiến lược phổ biến nhất đối với quản trị dữ liệu là điều chỉnh chương trình của bạn cho phù hợp với các sáng kiến kinh doanh thay vì trực tiếp đề xuất giá trị của quản trị dữ liệu. Ví dụ: bạn có thể đề xuất giá trị của việc giúp người dùng cuối dễ dàng tìm thấy dữ liệu họ đang tìm kiếm hoặc có thể đề xuất giá trị của việc giải quyết các vấn đề về chất lượng dữ liệu. Nhưng đây là những giải pháp cho việc tìm kiếm một vấn đề. Nếu làm theo cách này, bạn sẽ phải cạnh tranh nguồn vốn và tài trợ với các sáng kiến kinh doanh mà bạn nên hỗ trợ. Thay vào đó, hãy định vị quản trị dữ liệu để hỗ trợ các sáng kiến kinh doanh. Mọi sáng kiến kinh doanh lớn đều cần dữ liệu. Quản trị dữ liệu cần đảm bảo dữ liệu có điều kiện phù hợp để hỗ trợ cho thành công của sáng kiến kinh doanh. Đừng bỏ qua các hoạt động báo cáo và kiểm tra để biết việc quản trị dữ liệu hỗ trợ các sáng kiến này như thế nào.
Một khó khăn chiến lược phổ biến khác đối với quản trị dữ liệu là tránh áp dụng quản trị dữ liệu trong phạm vi quá hẹp. Phạm vi xác định quá hẹp có thể điều chỉnh chương trình cho phù hợp với từng lĩnh vực kinh doanh hoặc trường hợp sử dụng riêng lẻ mà không xem xét bao quát hơn trên nhiều lĩnh vực kinh doanh. Phạm vi xác định hẹp cũng có thể đồng nghĩa với việc chỉ xác định quản trị dữ liệu bằng một hoặc hai tính năng quản trị dữ liệu. Ví dụ: việc có một danh mục dữ liệu không tạo thành một chương trình quản trị dữ liệu.
Có những kiểu quản trị dữ liệu nào?
Chương trình quản trị dữ liệu cần cân bằng giữa tập trung và phi tập trung (bao gồm cả tự phục vụ). Trong toàn bộ tổ chức, bạn sẽ có sự kết hợp giữa hình thức quản trị tập trung, liên kết và phi tập trung và một lần nữa, tùy thuộc vào các yêu cầu kinh doanh. Bạn cần trao quyền cho các nhóm miền ở mức tối đa có thể, trong khi vẫn duy trì sự gắn kết giữa các miền (ví dụ như khả năng liên kết dữ liệu với nhau).
- Quản trị dữ liệu tập trung: Tổ chức trung tâm chịu trách nhiệm cuối cùng về các tuyên bố sứ mệnh, chính sách, lựa chọn công cụ và nhiều vấn đề khác. Các hành động hàng ngày nhiều lần được đưa vào lĩnh vực kinh doanh (LOB).
- Quản trị dữ liệu liên kết: Quản trị dữ liệu liên kết trao quyền cho các đơn vị kinh doanh hoặc các sáng kiến kinh doanh riêng lẻ để hoạt động theo cách phù hợp nhất với nhu cầu của họ. Trong hình thức quản trị dữ liệu liên kết, vẫn có một nhóm tập trung nhỏ hơn, với công việc trọng điểm là giải quyết các vấn đề lặp lại thường xuyên nhất, bao gồm ví dụ như các công cụ chất lượng dữ liệu toàn doanh nghiệp.
- Quản trị dữ liệu tự phục vụ hoặc phi tập trung: Mỗi LOB đều thực hiện những việc cần thiết cho dự án cụ thể của họ. Mỗi dự án đều sử dụng bất kỳ công cụ hoặc quy trình nào từ các dự án khác nếu phù hợp để sử dụng. Khi các chủ đề như lưới dữ liệu (phi tập trung) ngày càng phổ biến thì hoạt động quản trị dữ liệu tự phục vụ cũng vậy.
Ai xây dựng chương trình quản trị dữ liệu?
Việc xây dựng một chương trình quản trị dữ liệu tập trung vào doanh nghiệp yêu cầu nhiều chức năng công việc.
- Nhà tài trợ điều hành hiểu được nhiều sáng kiến kinh doanh trên lộ trình của công ty và có thể giúp xác định các ưu tiên để hỗ trợ quản trị dữ liệu.
- Người quản lý dữ liệu phải là người của doanh nghiệp và tham gia chi tiết của các dự án hàng ngày. Họ giúp tìm hiểu các vấn đề dữ liệu có khả năng gây khó khăn với các sáng kiến kinh doanh mục tiêu.
- Người phụ trách dữ liệu đưa ra các chính sách về dữ liệu, bao gồm ai sẽ có quyền truy cập dữ liệu và trong hoàn cảnh nào, cách giải thích và áp dụng các quy định và định nghĩa thuật ngữ chính
- Kỹ sư dữ liệu (thường) ở bộ phận CNTT và cung cấp các công cụ giúp bảo mật dữ liệu, quản lý chất lượng dữ liệu, tích hợp dữ liệu từ nhiều nguồn khác nhau và tìm đúng dữ liệu.
Quản trị dữ liệu hoạt động như thế nào?
Quản trị dữ liệu yêu cầu phải có nhân sự, quy trình và các giải pháp công nghệ cho một loạt các tính năng.
Tuyển chọn dữ liệu trên quy mô lớn để hạn chế phân tán dữ liệu. Tuyển chọn dữ liệu trên quy mô lớn có nghĩa là xác định và quản lý các nguồn dữ liệu có giá trị nhất, bao gồm cơ sở dữ liệu, hồ dữ liệu và kho dữ liệu, để bạn có thể hạn chế tài sản dữ liệu quan trọng tăng nhanh và chuyển đổi. Tuyển chọn dữ liệu cũng có nghĩa là đảm bảo dữ liệu phù hợp sẽ chính xác, luôn mới và không có thông tin nhạy cảm để người dùng có thể tự tin vào các quyết định dựa trên dữ liệu và trong các ứng dụng cấp dữ liệu.
Tính năng: Quản lý chất lượng dữ liệu, tích hợp dữ liệu và quản lý dữ liệu chính
Khám phá và hiểu rõ dữ liệu theo bối cảnh để đẩy nhanh việc ra quyết định dựa trên dữ liệu. Hiểu rõ dữ liệu theo ngữ cảnh có nghĩa là tất cả người dùng đều có thể khám phá và hiểu ý nghĩa dữ liệu của mình để có thể tự tin sử dụng dữ liệu nhằm thúc đẩy giá trị kinh doanh. Với một danh mục dữ liệu tập trung thì có thể dễ dàng tìm được dữ liệu, yêu cầu quyền truy cập và sử dụng dữ liệu để đưa ra quyết định kinh doanh.
Tính năng: mô tả dữ liệu, dòng dữ liệu và danh mục dữ liệu
Bảo vệ và chia sẻ dữ liệu một cách an toàn với quyền kiểm soát và sự tự tin. Bảo vệ dữ liệu có nghĩa là có thể đạt được sự cân bằng phù hợp giữa quyền riêng tư, bảo mật và quyền truy cập dữ liệu. Điều vô cùng quan trọng là có thể quản lý quyền truy cập dữ liệu qua các ranh giới tổ chức bằng các công cụ trực quan cho cả người dùng doanh nghiệp và kỹ thuật.
Tính năng: Vòng đời dữ liệu, tuân thủ dữ liệu và bảo mật dữ liệu
Giảm rủi ro kinh doanh và cải thiện khả năng tuân thủ quy định. Giảm rủi ro có nghĩa là hiểu rõ cách thức và người đang sử dụng dữ liệu đó. Các dịch vụ AWS giúp giám sát và kiểm tra truy cập dữ liệu, bao gồm cả truy cập thông qua các mô hình ML, để góp phần bảo đảm bảo mật dữ liệu và tuân thủ quy định. Máy học cũng yêu cầu tính minh bạch trong kiểm tra để đảm bảo sử dụng có trách nhiệm và đơn giản hóa báo cáo.
Tính năng: kiểm tra mức sử dụng dữ liệu và ML
Làm thế nào để có thể cải thiện các nhóm quản trị dữ liệu của bạn?
Bí quyết để có một chương trình quản trị dữ liệu hiệu quả là gắn liền với các sáng kiến kinh doanh đã được tài trợ. Đảm bảo nhóm của bạn hiểu đâu là những miền dữ liệu, nguồn và yếu tố cần thiết để hỗ trợ các sáng kiến đó.
- Xây dựng lộ trình quản trị dữ liệu cho thấy sự hỗ trợ cho các sáng kiến kinh doanh được nhắm mục tiêu. Sau đó, bắt đầu xác định tình trạng chồng chéo dữ liệu giữa các sáng kiến kinh doanh đã chọn.
- Xác định các ứng dụng và trường hợp sử dụng thông minh kinh doanh mà dữ liệu cần hỗ trợ và cung cấp thông tin, bao gồm các yêu cầu về độ mới và quyền riêng tư.
- Hiểu đâu là dữ liệu phù hợp cho mục đích đối với mỗi sáng kiến kinh doanh được chọn.
- Duy trì và mở rộng chương trình quản trị dữ liệu bằng cách nhúng vào mô hình điều hành doanh nghiệp, do đó việc lập kế hoạch và triển khai dữ liệu trở thành một phần tất yếu trong hoạt động của tổ chức.
- Tổ chức cộng đồng phân tích để tự phục vụ và đảm bảo nhất quán.
- Hỗ trợ trí tuệ nhân tạo (AI) và máy học (ML) bằng quản trị dữ liệu và quản trị ML. Sử dụng cùng một chương trình quản trị dữ liệu đó nhưng mở rộng cho các kho đặc trưng và mô hình ML.
AWS có những sản phẩm nào dành cho quản trị dữ liệu?
Với quản trị dữ liệu đầu cuối trên AWS, các tổ chức có thể kiểm soát vị trí dữ liệu của mình, người có quyền truy cập dữ liệu đó và có thể làm gì với dữ liệu đó ở mọi bước trong quy trình dữ liệu. Quản trị dữ liệu với AWS giúp các tổ chức đẩy nhanh quá trình ra quyết định dựa trên dữ liệu bằng cách giúp những người và ứng dụng phù hợp có thể dễ dàng tìm kiếm, truy cập và chia sẻ dữ liệu phù hợp một cách bảo mật và an toàn khi cần. Bạn có thể tuyển chọn dữ liệu bằng cách tự động tích hợp dữ liệu và chất lượng dữ liệu để hạn chế dữ liệu tăng nhanh. Bạn có thể khám phá và hiểu dữ liệu bằng các danh mục tập trung giúp tăng khả năng thông hiểu dữ liệu. Bạn có thể bảo vệ dữ liệu bằng các quyền chính xác, cho phép chia sẻ dữ liệu một cách chắc chắn. Bạn có thể giảm thiểu rủi ro và cải thiện tình trạng tuân thủ quy định bằng cách theo dõi và kiểm tra truy cập dữ liệu.
- Amazon DataZone – vượt qua rào cản giữa các bộ phận trong tổ chức để khai thác dữ liệu với khả năng quản trị tích hợp
- AWS Glue – khám phá, chuẩn bị và tích hợp toàn bộ dữ liệu của bạn ở mọi quy mô
- AWS Lake Formation – xây dựng, quản lý và bảo mật các hồ dữ liệu trong nhiều ngày
- Amazon QuickSight – nghiệp vụ thông minh thống nhất ở mức siêu quy mô
- Amazon SageMaker – xây dựng, đào tạo và triển khai các mô hình máy học cho các trường hợp sử dụng với cơ sở hạ tầng, công cụ và quy trình làm việc được quản lý hoàn toàn
- Trang web quản trị ML
- Amazon Bedrock – xây dựng và điều chỉnh quy mô các ứng dụng AI tạo sinh bằng các mô hình nền tảng (FM)
- Amazon Macie - khám phá và bảo vệ dữ liệu nhạy cảm trên quy mô lớn
- Điểm truy cập Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) là kho lưu trữ đối tượng được xây dựng để truy xuất lượng dữ liệu bất kỳ từ bất kỳ đâu
- Trao đổi dữ liệu trên AWS – dễ dàng tìm, đăng ký và sử dụng dữ liệu bên thứ ba trên đám mây
- AWS Clean Rooms – tạo phòng sạch trong vài phút để cộng tác với đối tác mà không cần chia sẻ dữ liệu thô
Bắt đầu Quản trị dữ liệu trên AWS bằng cách tạo tài khoản miễn phí ngay hôm nay.