Che mặt nạ dữ liệu là gì?

Che mặt nạ dữ liệu là quá trình ẩn dữ liệu bằng cách sửa đổi các chữ cái và số gốc của dữ liệu. Do các yêu cầu về quy định và quyền riêng tư, các tổ chức phải bảo vệ dữ liệu nhạy cảm mà họ thu thập về khách hàng và hoạt động của họ. Che mặt nạ dữ liệu tạo ra các phiên bản giả của dữ liệu tổ chức bằng cách thay đổi thông tin bảo mật. Các kỹ thuật khác nhau được sử dụng để tạo ra những thay đổi thực tế và tương tự về cấu trúc. Khi dữ liệu bị che mặt nạ, bạn không thể dịch ngược hoặc truy về lại các giá trị dữ liệu gốc nếu không có quyền truy cập vào tập dữ liệu gốc.

Che mặt nạ dữ liệu có những trường hợp sử dụng nào?

Các kỹ thuật che mặt nạ dữ liệu hỗ trợ các nỗ lực của tổ chức nhằm đáp ứng các quy định về quyền riêng tư dữ liệu như Quy định bảo vệ dữ liệu chung (GDPR). Bạn có thể bảo vệ nhiều loại dữ liệu như thông tin nhận dạng cá nhân (PII), dữ liệu tài chính, thông tin sức khỏe được bảo vệ (PHI) và sở hữu trí tuệ.

Tiếp theo, chúng ta sẽ khám phá một số trường hợp sử dụng kỹ thuật che mặt nạ dữ liệu.

Phát triển bảo mật

Môi trường phát triển và kiểm thử phần mềm yêu cầu tập dữ liệu thực tế để sử dụng cho mục đích kiểm thử. Tuy nhiên, việc sử dụng dữ liệu thực sẽ làm tăng mối lo ngại về bảo mật. Che mặt nạ dữ liệu cho phép các nhà phát triển và người kiểm thử làm việc với dữ liệu kiểm thử thực tế giống với dữ liệu gốc, mà không để lộ thông tin nhạy cảm. Điều này làm giảm rủi ro bảo mật trong các chu kỳ phát triển và kiểm thử.

Phân tích và nghiên cứu

Che mặt nạ dữ liệu cho phép các nhà khoa học và nhà phân tích dữ liệu làm việc với các tập dữ liệu lớn mà không ảnh hưởng đến quyền riêng tư cá nhân. Các nhà nghiên cứu có thể rút ra thông tin chuyên sâu và xu hướng có giá trị từ dữ liệu mà vẫn đảm bảo bảo vệ quyền riêng tư. Ví dụ: các nhà khoa học có thể sử dụng tập dữ liệu ẩn danh để nghiên cứu hiệu quả của các loại thuốc mới, phân tích kết quả điều trị hoặc điều tra các tác dụng phụ tiềm ẩn.

Cộng tác với bên ngoài

Các tổ chức thường cần chia sẻ dữ liệu với các đối tác, nhà cung cấp hoặc chuyên gia tư vấn bên ngoài. Bằng cách che mặt nạ các trường hoặc thuộc tính nhất định, các tổ chức có thể cộng tác với các bên không thuộc tổ chức mà vẫn bảo vệ được dữ liệu nhạy cảm.

Đào tạo nhân viên

Bạn có thể sử dụng kỹ thuật che mặt nạ dữ liệu cho các buổi đào tạo nhân viên hoặc trình diễn phần mềm. Bằng cách che mặt nạ dữ liệu nhạy cảm, các tổ chức có thể cung cấp các ví dụ thực tế mà không để lộ dữ liệu khách hàng hoặc doanh nghiệp thật. Nhân viên có thể học và thực hành các kỹ năng mà không cần phải truy cập vào những dữ liệu mà họ không được cho phép.

Che mặt nạ dữ liệu gồm những loại nào?

Tiếp theo, chúng tôi đưa ra một số kiểu che mặt nạ dữ liệu phổ biến.

Che mặt nạ dữ liệu tĩnh

Che mặt nạ dữ liệu tĩnh là quá trình áp dụng một bộ quy tắc che mặt nạ cố định cho dữ liệu nhạy cảm trước khi dữ liệu được lưu trữ hoặc chia sẻ. Kỹ thuật này thường được sử dụng cho dữ liệu không thay đổi thường xuyên hoặc duy trì trạng thãi tĩnh theo thời gian. Bạn xác định trước các quy tắc này và áp dụng chúng một cách nhất quán vào dữ liệu, đảm bảo che mặt nạ nhất quán trên nhiều môi trường.

Mặc dù nội dung chi tiết rất phức tạp, nhưng đây là tổng quan về quy trình che mặt nạ dữ liệu tĩnh:

  1. Xác định và hiểu dữ liệu nhạy cảm
  2. Thiết kế và phát triển các quy tắc che mặt nạ
  3. Chọn thuật toán che mặt nạ dữ liệu thích hợp
  4. Áp dụng quy tắc che mặt nạ cho dữ liệu thực tế

Sau đó, bạn có thể chia sẻ dữ liệu đã được che mặt nạ theo yêu cầu.

Che mặt nạ dữ liệu động

Che mặt nạ dữ liệu động áp dụng kỹ thuật che mặt nạ theo thời gian thực. Kỹ thuật này thay đổi dữ liệu nhạy cảm hiện có theo cách động khi người dùng truy cập hoặc truy vấn dữ liệu. Kỹ thuật này chủ yếu được sử dụng để triển khai bảo mật dữ liệu dựa trên vai trò trong các ứng dụng như hỗ trợ khách hàng hoặc xử lý hồ sơ y tế.

Che mặt nạ dữ liệu động hoạt động như sau:

  1. Tất cả người dùng giao tiếp với cơ sở dữ liệu qua một máy chủ proxy
  2. Khi người dùng yêu cầu đọc dữ liệu, proxy cơ sở dữ liệu áp dụng quy tắc che mặt nạ dựa trên vai trò, đặc quyền hoặc quyền truy cập của người dùng
  3. Người dùng được ủy quyền sẽ nhận được dữ liệu gốc, còn người dùng không được ủy quyền sẽ nhận được dữ liệu được che mặt nạ

Mặc dù quá trình này không yêu cầu chuẩn bị trước, nhưng nó có thể ảnh hưởng đến hiệu năng.

Che mặt nạ dữ liệu tất định

Che mặt nạ dữ liệu tất định đảm bảo rằng cùng một giá trị đầu vào sẽ được che mặt nạ một cách nhất quán cho cùng một giá trị đầu ra. Ví dụ: nếu một tên cụ thể được che mặt nạ là “John” trong một trường hợp, nó sẽ luôn được che mặt nạ là “John” trên toàn hệ thống.

Các kỹ thuật che mặt nạ tất định thường liên quan đến việc thay thế hoặc token hóa dữ liệu, trong đó việc ánh xạ nhất quán được duy trì giữa cột dữ liệu gốc và các giá trị được che mặt nạ.

Che mặt nạ dữ liệu tức thời

Che mặt nạ dữ liệu tức thời sẽ che mặt nạ dữ liệu nhạy cảm trong bộ nhớ, vì vậy không có yêu cầu lưu trữ dữ liệu đã thay đổi trong cơ sở dữ liệu. Kỹ thuật này hữu ích trong quy trình triển khai diễn ra liên tục hoặc trong các tình huống tích hợp phức tạp, trong đó dữ liệu di chuyển thường xuyên giữa môi trường sản xuất và phi sản xuất. Ở giai đoạn cần thiết trong quy trình, ứng dụng sẽ che mặt nạ dữ liệu, sau đó chuyển dữ liệu sang giai đoạn tiếp theo trong quy trình.

Đảo lộn thống kê

Đảo lộn dữ liệu thống kê liên quan đến việc thay đổi các giá trị của dữ liệu nhạy cảm theo cách bảo tồn các thuộc tính thống kê và các mối quan hệ trong dữ liệu. Kỹ thuật này đảm bảo rằng dữ liệu được che mặt nạ sẽ duy trì sự phân phối tổng thể, các mẫu và mối tương quan của dữ liệu gốc để có phân tích thống kê chính xác. Các kỹ thuật đảo lộn dữ liệu thống kê bao gồm việc áp dụng các hàm toán học hoặc thuật toán nhiễu loạn vào dữ liệu.

Một số kỹ thuật che mặt nạ dữ liệu phổ biến là gì?

Có một số thuật toán mà bạn có thể sử dụng để bảo vệ dữ liệu. Dưới đây là một số phương pháp che mặt nạ dữ liệu phổ biến.

Ngẫu nhiên hóa

Với ngẫu nhiên hóa, bạn thay thế dữ liệu nhạy cảm bằng các giá trị được tạo ngẫu nhiên không có mối tương quan với dữ liệu gốc. Ví dụ: bạn có thể thay thế tên, địa chỉ hoặc các thông tin có thể định danh cá nhân khác bằng các giá trị hư cấu hoặc được chọn ngẫu nhiên.

Thay thế

Che mặt nạ bằng cách thay thế liên quan đến việc thay thế dữ liệu nhạy cảm bằng dữ liệu tương tự nhưng hư cấu. Ví dụ: bạn có thể thay thế tên thật bằng tên từ một danh sách được xác định trước. Bạn cũng có thể sử dụng các thuật toán để tạo số thẻ tín dụng tương tự nhưng giả mạo.

Xáo trộn

Với kỹ thuật xáo trộn, bạn sắp xếp lại các giá trị trong tập dữ liệu để bảo tồn các thuộc tính thống kê và khiến cho các bản ghi riêng lẻ trở nên không thể xác định được. Kỹ thuật này thường được sử dụng để bảo tồn các mối quan hệ trong dữ liệu.

Ví dụ: trong bảng dữ liệu, bạn có thể xáo trộn ngẫu nhiên dữ liệu cột để giá trị hàng thay đổi. Trong thực tế, bạn có thể duy trì mối liên kết giữa khách hàng và các giao dịch của họ trong khi chuyển đổi tên và thông tin liên lạc chi tiết.

Mã hóa

Với kỹ thuật che mặt nạ bằng mã hóa, bạn mã hóa dữ liệu nhạy cảm bằng cách sử dụng các thuật toán mật mã hóa. Bạn chuyển đổi dữ liệu thành định dạng không thể đọc được và chỉ người dùng được ủy quyền có khóa giải mã mới có thể truy cập dữ liệu gốc. Kỹ thuật này mang lại mức độ bảo mật dữ liệu cao hơn, nhưng nó ảnh hưởng đến hiệu năng truy vấn vì phải giải mã thì mới có thể phân tích dữ liệu.

Băm

Băm là một kỹ thuật chuyển đổi, cho phép chuyển đổi dữ liệu thành một chuỗi ký tự có độ dài cố định. Kỹ thuật này thường được sử dụng để che mật khẩu hoặc các thông tin nhạy cảm khác mà giá trị gốc là không cần thiết và bạn chỉ cần xác minh dữ liệu.

Tokenization

Với kỹ thuật token hóa, bạn thay thế dữ liệu sản xuất bằng mã thông báo hoặc giá trị tham chiếu được tạo ngẫu nhiên. Bạn lưu trữ dữ liệu gốc ở một nơi bảo mật riêng biệt và sử dụng mã thông báo như một dữ liệu thay thế trong quá trình xử lý hoặc phân tích. Kỹ thuật token hóa giúp duy trì tính toàn vẹn của dữ liệu đồng thời giảm thiểu rủi ro làm lộ thông tin nhạy cảm.

Chuyển thành null

Chuyển thành null (hoặc làm trắng) là một giải pháp che mặt nạ dữ liệu cho phép thay thế dữ liệu nhạy cảm bằng các giá trị null hoặc khoảng trắng. Kỹ thuật này giúp loại bỏ dữ liệu khỏi tập dữ liệu một cách hiệu quả. Phương thức tiếp cận này phù hợp khi bạn muốn giữ lại định dạng hoặc cấu trúc của dữ liệu, nhưng thông tin cụ thể phải được che giấu.

Che mặt nạ dữ liệu có những thách thức nào?

Tiếp theo, chúng ta sẽ thảo luận về một số thách thức phổ biến trong che mặt nạ dữ liệu.

Bảo tồn thuộc tính

Đối với công tác nghiên cứu và phân tích, điều quan trọng là che mặt nạ dữ liệu phải bảo tồn được các thuộc tính dữ liệu gốc cho một số kiểu dữ liệu nhất định. Bạn muốn đảm bảo các công cụ che mặt nạ dữ liệu của mình bảo tồn được các kiểu dữ liệu gốc hoặc bảo tồn được tần suất của bất kỳ danh mục dữ liệu liên quan nào.

Ví dụ: khi xáo trộn thông tin chi tiết của thẻ tín dụng, nếu một công cụ thay đổi đại diện nhân khẩu học của dữ liệu khách hàng hoặc thống kê danh mục thẻ, điều này có thể gây ảnh hưởng đến phân tích. Bảo tồn thuộc tính có thể trở nên khó khăn trong một số quy trình che mặt nạ dữ liệu nhất định như ngẫu nhiên hóa hoặc token hóa.

Tính toàn vẹn ngữ nghĩa

Các giá trị giả được tạo ra phải tuân thủ các quy tắc kinh doanh và ràng buộc liên quan đến các kiểu dữ liệu khác nhau. Ví dụ: tiền lương phải nằm trong một phạm vi cụ thể và số định danh quốc gia phải tuân theo định dạng được xác định trước. Rất khó để bảo tồn tính toàn vẹn ngữ nghĩa, nhưng việc này đảm bảo rằng dữ liệu được che mặt nạ vẫn có ý nghĩa và thực tế.

Tính duy nhất của dữ liệu

Trong trường hợp dữ liệu gốc yêu cầu tính duy nhất, chẳng hạn như số ID nhân viên, kỹ thuật che mặt nạ dữ liệu phải cung cấp các giá trị duy nhất để thay thế dữ liệu gốc. Việc thiếu tính duy nhất trong các trường khóa có thể tạo ra xung đột hoặc mâu thuẫn tiềm ẩn.

Tích hợp với quy trình làm việc hiện có

Việc tích hợp chức năng che mặt nạ dữ liệu vào quy trình làm việc hiện có sẽ là một thách thức, đặc biệt là trong giai đoạn triển khai ban đầu. Nhân viên có thể gặp bất tiện khi thích nghi với các quy trình và công nghệ mới. Để đảm bảo quá trình tích hợp diễn ra suôn sẻ và ít gián đoạn nhất, tổ chức của bạn nên tập trung vào việc lập kế hoạch cẩn thận, cộng tác với các bên liên quan và giải quyết các mối lo ngại của người dùng.

AWS có thể hỗ trợ các yêu cầu che giấu dữ liệu của bạn như thế nào?

Có nhiều dịch vụ Amazon Web Services (AWS) có khả năng che giấu dữ liệu tích hợp sẵn. Dưới đây là một số ví dụ:

  • Amazon Transcribe tự động chuyển đổi giọng nói thành văn bản và có thể che giấu dữ liệu nhạy cảm theo yêu cầu.
  • Amazon Redshift sử dụng SQL để phân tích dữ liệu có cấu trúc và bán cấu trúc trên các kho dữ liệu, cơ sở dữ liệu vận hành và hồ dữ liệu. Nó hỗ trợ kiểm soát truy cập dựa trên vai trò, bảo mật cấp hàng, bảo mật cấp cột và kỹ thuật che giấu dữ liệu động.
  • Dịch vụ thông báo đơn giản của Amazon (Amazon SNS) là một dịch vụ thông báo. Bạn có thể sử dụng dịch vụ này để xác định các chính sách bảo vệ dữ liệu có thể khám phá, che giấu và bảo vệ dữ liệu nhạy cảm trong quá trình truyền dữ liệu.

Chúng tôi cũng có sẵn các hướng dẫn triển khai cho các yêu cầu che giấu dữ liệu phức tạp. Ví dụ: Hướng dẫn che giấu dữ liệu sức khỏe bằng AI giúp các tổ chức chăm sóc sức khỏe xác định và che giấu dữ liệu sức khỏe trong hình ảnh hoặc văn bản. Hướng dẫn này sử dụng các dịch vụ sau:

Bạn cũng có thể cân nhắc chọn một trong các giải pháp che giấu dữ liệu dựng sẵn trên chợ điện tử AWS

Bắt đầu che giấu dữ liệu trên AWS bằng cách tạo tài khoản ngay hôm nay.

Các bước tiếp theo trên AWS

Tham khảo các tài nguyên bổ sung liên quan đến sản phẩm
Tìm hiểu thêm về Bảo mật, danh tính và tuân thủ trên AWS 
Đăng ký tài khoản miễn phí

Nhận ngay quyền sử dụng Bậc miễn phí của AWS.

Đăng ký 
Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng trong AWS Management Console.

Đăng nhập