Tại sao nên chọn Glue?
Với AWS Glue, bạn trả phí theo giờ, tính tiền theo giây, đối với các trình tìm kéo (khám phá dữ liệu) và tác vụ trích xuất, chuyển đổi và tải (ETL) (xử lý và tải dữ liệu). Đối với Danh mục dữ liệu AWS Glue, bạn trả khoản phí hàng tháng đơn giản để lưu trữ và truy cập siêu dữ liệu. Miễn phí lưu trữ một triệu đối tượng đầu tiên và miễn phí truy cập một triệu lượt truy cập đầu tiên. Nếu bạn cung cấp điểm cuối phát triển để dựng mã ETL theo phương pháp tương tác, bạn phải trả phí theo mức phí theo giờ, tính tiền theo giây. Đối với AWS Glue DataBrew, các phiên tương tác sẽ được tính phí theo mỗi phiên và các tác vụ DataBrew sẽ được tính phí theo phút. Sổ đăng ký lược đồ AWS Glue được sử dụng mà không mất phụ phí.
Lưu ý: Giá có thể thay đổi theo Khu vực AWS.
-
Tác vụ ETL và các phiên tương tác
-
Danh mục dữ liệu
-
Trình tìm kéo
-
Phiên tương tác DataBrew
-
Tác vụ DataBrew
-
Chất lượng dữ liệu
-
Không ETL
-
Tác vụ ETL và các phiên tương tác
-
Ví dụ về định giá
Tác vụ ETL: Hãy cân nhắc việc một tác vụ AWS Glue Apache Spark chạy trong 15 phút và dùng 6 DPU. Mức giá của 1 DPU-giờ là 0,44 USD. Vì tác vụ của bạn chạy trong 15 phút và dùng 6 DPU, AWS sẽ tính phí cho bạn 6 DPU * 0,25 giờ * 0,44 USD, hay bằng 0,66 USD.
Sổ tay tác vụ Studio AWS Glue và các Phiên tương tác: Giả sử bạn sử dụng một sổ tay trong Studio AWS Glue để phát triển mã ETL theo cách tương tác. Theo mặc định, một Phiên tương tác có 5 DPU. Mức giá của 1 DPU-giờ là 0,44 USD. Nếu bạn duy trì phiên chạy trong 24 phút, bạn sẽ bị tính phí cho 5 DPU * 0,4 giờ * 0,44 USD, hay bằng 0,88 USD.
-
Danh mục dữ liệu
-
Danh mục dữ liệu AWS Glue là kho lưu trữ siêu dữ liệu kỹ thuật tập trung cho tất cả các tài sản dữ liệu của bạn trên các nguồn dữ liệu khác nhau bao gồm Amazon S3, Amazon Redshift và các nguồn dữ liệu của bên thứ ba. Danh mục dữ liệu có thể được truy cập từ Lakehouse của Amazon SageMaker để lấy dữ liệu, phân tích và AI. Kho cung cấp một giao diện thống nhất để sắp xếp dữ liệu dưới dạng danh mục, cơ sở dữ liệu và bảng, đồng thời truy vấn chúng từ Amazon Redshift, Amazon Athena và Amazon EMR. Các khả năng của AWS Lake Formation trong Danh mục dữ liệu cho phép bạn tập trung quản trị dữ liệu trong AWS. Quản trị tài sản dữ liệu bằng cách sử dụng quyền dữ liệu chi tiết và các tính năng kiểu cơ sở dữ liệu quen thuộc.
Khi sử dụng Danh mục dữ liệu, bạn sẽ bị tính phí lưu trữ và truy cập siêu dữ liệu bảng cũng như tính phí chạy các tác vụ xử lý dữ liệu nhằm tính toán số liệu thống kê bảng và tối ưu hóa bảng.
Định giá siêu dữ liệu
Với Danh mục dữ liệu, bạn có thể lưu trữ miễn phí tới một triệu đối tượng siêu dữ liệu. Nếu bạn lưu trữ nhiều hơn một triệu đối tượng siêu dữ liệu, bạn sẽ bị tính phí 1,00 USD trên mỗi 100.000 đối tượng vượt mức một triệu đối tượng, mỗi tháng. Đối tượng siêu dữ liệu trong Danh mục dữ liệu là bảng, phiên bản bảng, phân vùng, chỉ mục phân vùng, số liệu thống kê, cơ sở dữ liệu hoặc danh mục.
Bảo trì bảng và số liệu thống kê
Danh mục dữ liệu cung cấp tính năng nén được quản lý cho các bảng Apache Iceberg trong kho lưu trữ đối tượng Amazon S3, nén các đối tượng nhỏ thành các đối tượng lớn hơn để có hiệu năng đọc tốt hơn bằng các dịch vụ phân tích AWS như Amazon Redshift, Athena, Amazon EMR và các tác vụ AWS Glue ETL. Bạn bị tính phí theo mức phí theo giờ dựa trên số Đơn vị xử lý dữ liệu (hay DPU) dùng để nén bảng. Một Đơn vị xử lý dữ liệu (DPU) cung cấp 4 vCPU và 16 GB bộ nhớ. Bạn bị tính phí theo gia số tăng dần 1 giây, làm tròn đến giây gần nhất, với thời lượng tối thiểu bằng 1 phút cho mỗi lần chạy.
Danh mục dữ liệu cũng hỗ trợ số liệu thống kê bảng cấp cột cho các bảng AWS Glue. Các số liệu thống kê này được tích hợp với trình tối ưu hóa dựa trên chi phí (CBO) trong Athena và truy vấn hồ dữ liệu Amazon Redshift, giúp cải thiện hiệu năng truy vấn và có khả năng tiết kiệm chi phí.
Tối ưu hóa
- 0,44 USD cho mỗi DPU-giờ để tối ưu hóa bảng Apache Iceberg, tính phí theo giây với thời gian tối thiểu là 1 phút.
Số liệu thống kê:
- 0,44 USD cho mỗi DPU-giờ để tạo số liệu thống kê, tính phí theo giây với thời gian tối thiểu là 1 phút.
Mức sử dụng và chi phí bổ sung
Dung lượng lưu trữ
Sử dụng Danh mục dữ liệu, bạn có thể tạo và quản lý bảng trong Amazon S3 và Amazon Redshift, đồng thời bạn sẽ bị tính mức phí Amazon S3 hoặc Amazon Redshift tiêu chuẩn tương ứng cho lưu trữ bảng. Không có phí lưu trữ bổ sung trong Danh mục dữ liệu.
1. Khi lưu trữ dữ liệu trong Amazon S3, bạn phải trả mức phí Amazon S3 tiêu chuẩn cho việc lưu trữ, yêu cầu và truyền dữ liệu. Để biết thêm thông tin, hãy xem mục Định giá Amazon S3.2. Khi lưu trữ dữ liệu trong Amazon Redshift, bạn phải trả mức phí Amazon Redshift tiêu chuẩn cho việc lưu trữ. Để biết chi tiết, hãy truy cập Định giá Amazon Redshift.
Điện toán
Khi bạn truy cập bảng Amazon Redshift từ Amazon EMR, AWS Glue, Athena hoặc bất kỳ công cụ tương thích Apache Iceberg nguồn mở hoặc bên thứ ba nào, nhóm làm việc Amazon Redshift phi máy chủ được dịch vụ quản lý sẽ dùng cho tài nguyên điện toán. Nhóm làm việc được Amazon Redshift phi máy chủ quản lý sẽ dùng để lọc kết quả bảng và bạn sẽ bị tính phí cho tài nguyên điện toán bạn sử dụng dựa trên mức phí Amazon Redshift phi máy chủ tiêu chuẩn. Không tính phí riêng biệt đối với các bảng truy vấn được lưu trữ trong Amazon Redshift bằng Amazon Redshift. Truy cập định giá Amazon Redshift để tìm hiểu thêm.
Quyền Lake Formation
Lake Formation tích hợp với Danh mục dữ liệu và cung cấp các quyền cấp cơ sở dữ liệu, cấp bảng, cấp cột, cấp hàng và cấp ô bằng cách sử dụng các điều khiển truy cập dựa trên thẻ hoặc dựa trên tên, cùng với chia sẻ liên tài khoản. Không tính phí riêng khi tạo quyền Lake Formation hoặc sử dụng quyền Lake Formation với các dịch vụ AWS tích hợp.
Ví dụ về định giá
Danh mục dữ liệu trên Bậc miễn phí của AWS: Hãy xét trường hợp bạn lưu trữ một triệu đối tượng siêu dữ liệu trong Danh mục dữ liệu trong một tháng cụ thể và thực hiện 1 triệu yêu cầu siêu dữ liệu để truy cập các bảng này. Bạn trả 0 USD vì mức sử dụng của bạn nằm trong Bậc miễn phí của Danh mục dữ liệu AWS Glue. Bạn có thể lưu trữ một triệu đối tượng siêu dữ liệu đầu tiên và thực hiện một triệu yêu cầu siêu dữ liệu mỗi tháng miễn phí.
Bậc tiêu chuẩn của Danh mục dữ liệu: Bây giờ hãy xét trường hợp mức sử dụng dung lượng lưu trữ siêu dữ liệu của bạn duy trì ở mức 1 triệu đối tượng siêu dữ liệu mỗi tháng, tuy nhiên yêu cầu của bạn tăng gấp đôi lên 2 triệu yêu cầu siêu dữ liệu mỗi tháng. Giả sử bạn cũng sử dụng trình tìm kéo để tìm bảng mới và chúng chạy trong 30 phút và sử dụng 2 DPU.
Chi phí dung lượng lưu trữ của bạn vẫn bằng 0 USD, vì dung lượng lưu trữ cho một triệu đối tượng siêu dữ liệu đầu tiên được miễn phí. Một triệu yêu cầu đầu tiên của bạn cũng được miễn phí. Bạn sẽ bị tính phí đối với 1 triệu yêu cầu vượt trên Bậc miễn phí của Danh mục dữ liệu, tức là 1 USD.
Sử dụng Danh mục dữ liệu với các dịch vụ khác:
Ví dụ: khi bạn truy vấn bảng trong Amazon Redshift bằng Athena SQL trong Lakehouse của SageMaker, bạn sẽ bị tính phí: lưu trữ bảng trong Amazon Redshift dựa trên định giá Amazon Redshift tiêu chuẩn; yêu cầu siêu dữ liệu được thực hiện cho Danh mục dữ liệu dựa trên định giá yêu cầu Danh mục dữ liệu tiêu chuẩn; dung lượng lưu trữ siêu dữ liệu để lưu trữ danh mục, cơ sở dữ liệu và siêu dữ liệu bảng trong Danh mục dữ liệu; RPU-giờ Amazon Redshift phi máy chủ theo mỗi giây (với mức phí thời gian tối thiểu là 60 giây) để lọc kết quả bảng Amazon Redshift; và số byte được quét bởi truy vấn Athena, làm tròn đến megabyte gần nhất, với tối thiểu 10 MB cho mỗi dữ liệu truy vấn sử dụng định giá Athena tiêu chuẩn.
Trong trường hợp khác mà bạn truy vấn bảng trong Amazon Redshift bằng Amazon EMR phi máy chủ, bạn sẽ bị tính phí: lưu trữ bảng trong Amazon Redshift dựa trên định giá Amazon Redshift tiêu chuẩn; yêu cầu siêu dữ liệu được thực hiện cho Danh mục dữ liệu dựa trên định giá yêu cầu Danh mục dữ liệu tiêu chuẩn; dung lượng lưu trữ siêu dữ liệu để lưu trữ danh mục, cơ sở dữ liệu và siêu dữ liệu bảng trong Danh mục dữ liệu; RPU-giờ Amazon Redshift phi máy chủ theo mỗi giây (với mức phí thời gian tối thiểu là 60 giây) để lọc kết quả bảng Amazon Redshift; và lượng vCPU, bộ nhớ và tài nguyên lưu trữ được nhân viên của bạn dùng trong một ứng dụng Amazon EMR.
Trong trường hợp khác mà bạn truy vấn bảng Apache Iceberg trong kho lưu trữ đối tượng Amazon S3 bằng Amazon Redshift phi máy chủ, bạn sẽ bị tính phí: lưu trữ bảng Apache Iceberg trong Amazon S3 dựa trên định giá Amazon S3 tiêu chuẩn; yêu cầu siêu dữ liệu được thực hiện cho Danh mục dữ liệu dựa trên định giá yêu cầu Danh mục dữ liệu tiêu chuẩn; dung lượng lưu trữ siêu dữ liệu để lưu trữ danh mục, cơ sở dữ liệu và siêu dữ liệu bảng trong Danh mục dữ liệu; và điện toán-giờ (giờ RPU) dựa trên định giá Amazon Redshift tiêu chuẩn.
Trình tìm kéo AWS Glue bị tính phí theo mức phí 0,44 USD mỗi DPU-giờ nên bạn sẽ phải trả 2 DPU * 0.5 giờ theo mức phí 0,44 USD trên mỗi DPU-giờ, tương đương với 0,44 USD.
Nếu bạn tạo số liệu thống kê cho một bảng AWS Glue và việc chạy số liệu thống kê mất 10 phút và tiêu thụ 1 DPU, bạn sẽ bị tính phí 1 DPU * 0,1666 giờ * 0,44 USD/DPU-giờ, tương đương với 0,07 USD.
Nếu bạn nén các bảng Apache Iceberg được lưu trữ trong kho lưu trữ đối tượng Amazon S3 và quá trình nén chạy trong 30 phút và tiêu thụ 2 DPU, bạn sẽ bị tính phí 2 DPU * 0,5 giờ * 0,44 USD/DPU-giờ, tương đương với 0,44 USD.
- 0,44 USD cho mỗi DPU-giờ để tối ưu hóa bảng Apache Iceberg, tính phí theo giây với thời gian tối thiểu là 1 phút.
-
Trình tìm kéo
-
-
Phiên tương tác DataBrew
-
Ví dụ định giá
AWS Glue DataBrew: Mức giá cho mỗi phiên tương tác có thời lượng 30 phút là 1,00 USD. Nếu bạn khởi chạy phiên lúc 9:00 sáng, rời khỏi bảng điều khiển ngay lập tức và quay lại trong khoảng thời gian từ 9:20 sáng đến 9:30 sáng, việc này sẽ sử dụng 1 phiên với tổng phí là 1,00 USD.
Nếu bạn khởi chạy một phiên lúc 9:00 sáng và tương tác với bảng điều khiển DataBrew đến 9:50 sáng, bạn thoát khỏi không gian dự án DataBrew và sau đó quay lại để thực hiện tương tác cuối cùng vào lúc 10:15 sáng, việc này sẽ sử dụng 3 phiên và bạn sẽ bị tính phí 1,00 USD cho mỗi phiên với tổng phí là 3,00 USD.
-
Tác vụ DataBrew
-
Ví dụ về định giá
AWS Glue DataBrew: Nếu một tác vụ DataBrew chạy trong 10 phút và tiêu tốn 5 nút DataBrew, giá sẽ là 0,40 USD. Do tác vụ của bạn chạy trong 1/6 giờ và tiêu tốn 5 nút, bạn sẽ phải trả phí cho 5 nút * 1/6 giờ * 0,48 USD mỗi giờ chạy nút, tương đương với 0,40 USD.
-
Chất lượng dữ liệu
-
AWS Glue Data Quality tạo độ tin cậy cho dữ liệu với việc giúp bạn đạt được chất lượng dữ liệu cao. Công cụ này tự động đo lường, giám sát và quản lý chất lượng dữ liệu trong hồ dữ liệu và quy trình của bạn, giúp bạn dễ dàng xác định dữ liệu bị thiếu, cũ hoặc kém.
Bạn có thể truy cập các tính năng chất lượng dữ liệu từ Danh mục dữ liệu và AWS Glue Studio cũng như thông qua các API AWS Glue.
Định giá cho quản lý chất lượng dữ liệu của các tập dữ liệu được lập danh mục trong Danh mục dữ liệu:Bạn có thể chọn một tập dữ liệu từ Danh mục dữ liệu và tạo đề xuất. Hành động này sẽ tạo ra một Tác vụ đề xuất mà bạn sẽ cung cấp các đơn vị xử lý dữ liệu (DPU) cho tác vụ đó. Sau khi nhận được đề xuất, bạn có thể sửa đổi hoặc thêm các quy tắc mới và lên lịch quy tắc. Những tác vụ này được gọi là Tác vụ chất lượng dữ liệu mà bạn sẽ cung cấp DPU cho các tác vụ đó. Bạn sẽ cần có tối thiểu 2 DPU với thời gian thanh toán tối thiểu 1 phút.
Định giá cho quản lý chất lượng dữ liệu của các tập dữ liệu được xử lý trên AWS Glue ETL:Bạn cũng có thể bổ sung các kiểm tra chất lượng dữ liệu này vào tác vụ ETL của mình để ngăn dữ liệu xấu xâm nhập vào hồ dữ liệu của bạn. Các quy tắc chất lượng dữ liệu này sẽ nằm trong các tác vụ ETL của bạn, dẫn đến tăng thời gian hoạt động hoặc tăng mức tiêu thụ DPU. Ngoài ra, bạn có thể sử dụng Thực thi linh hoạt cho khối lượng công việc không thiên về SLA.
Định giá cho phát hiện bất thường trong AWS Glue ETL:
Phát hiện bất thường:
Bạn sẽ phải chịu phí 1 DPU cho mỗi số liệu thống kê ngoài DPU cho tác vụ ETL của bạn trong thời gian cần thiết để phát hiện bất thường. Trung bình, phải mất từ 10-20 giây để phát hiện bất thường cho 1 số liệu thống kê. Giả sử rằng bạn đã cấu hình hai Quy tắc (Quy tắc 1: khối lượng dữ liệu phải lớn hơn 1000 bản ghi, Quy tắc 2: số cột phải lớn hơn 10) và một Trình phân tích (Trình phân tích 1: giám sát tính đầy đủ của cột). Cấu hình này sẽ tạo ra ba số liệu thống kê: số hàng, số cột và tỷ lệ phần trăm đầy đủ của một cột. Bạn sẽ được tính thêm 3 DPU trong thời gian cần thiết để phát hiện bất thường với mức tối thiểu 1 giây. Xem ví dụ 4 để biết thêm chi tiết.
Đào tạo lại:
Bạn có thể muốn loại trừ các lần chạy tác vụ hoặc số liệu thống kê bất thường để thuật toán phát hiện bất thường dự đoán chính xác các bất thường tiếp theo. Để thực hiện việc này, AWS Glue cho phép bạn loại trừ hoặc bao gồm số liệu thống kê. Bạn sẽ phải chịu phí 1 DPU để đào tạo lại mô hình trong thời gian cần thiết để đào tạo lại. Trung bình, đào tạo lại mất 10 giây đến 20 phút cho mỗi số liệu thống kê. Xem ví dụ 5 để biết thêm chi tiết.
Lưu trữ số liệu thống kê:
Không tính phí để lưu trữ số liệu thống kê được thu thập. Có giới hạn 100.000 số liệu thống kê cho mỗi tài khoản và thời gian lưu trữ là 2 năm.
Phụ phí:
AWS Glue xử lý dữ liệu trực tiếp từ Amazon Simple Storage Service (Amazon S3). Không có phụ phí lưu trữ cho việc đọc dữ liệu bằng AWS Glue. Bạn phải trả mức giá Amazon S3 tiêu chuẩn cho việc lưu trữ, yêu cầu và truyền dữ liệu. Dựa trên cấu hình của bạn, các tệp tạm thời, kết quả chất lượng dữ liệu và tệp xáo trộn được lưu trữ trong vùng lưu trữ S3 mà bạn chọn và cũng được tính phí theo mức giá S3 tiêu chuẩn.
Nếu sử dụng Danh mục dữ liệu, bạn sẽ phải trả phí theo mức giá Danh mục dữ liệu tiêu chuẩn. Để biết chi tiết, hãy chọn tab Lưu trữ và yêu cầu Danh mục dữ liệu.
Ví dụ về định giá
Ví dụ 1 – Nhận đề xuất cho một bảng trong Danh mục dữ liệuVí dụ: giả sử một nhiệm vụ đề xuất với 5 DPU hoàn thành trong 10 phút. Bạn sẽ trả 5 DPU * 1/6 giờ * 0,44 USD, tương đương 0,37 USD.
Ví dụ 2 – Đánh giá chất lượng dữ liệu của một bảng trong Danh mục dữ liệuSau khi xem xét đề xuất, bạn có thể chỉnh sửa đề xuất nếu cần và sau đó lên lịch nhiệm vụ chất lượng dữ liệu bằng cách cung cấp DPU. Ví dụ: ta có một nhiệm vụ đánh giá chất lượng dữ liệu với 5 DPU hoàn thành trong 20 phút.
Bạn sẽ trả 5 DPU * 1/3 giờ * 0,44 USD, tương đương 0,73 USD.
Ví dụ 3 – Đánh giá chất lượng dữ liệu trong tác vụ AWS Glue ETLBạn cũng có thể bổ sung các kiểm tra chất lượng dữ liệu này vào tác vụ AWS Glue ETL của mình để ngăn dữ liệu xấu xâm nhập vào hồ dữ liệu của bạn. Bạn có thể thực hiện việc này bằng cách thêm tính năng Chuyển đổi chất lượng dữ liệu trên AWS Glue Studio hoặc sử dụng API AWS Glue trong mã bạn viết trong sổ tay AWS Glue Studio. Ta có tác vụ AWS Glue chạy trong đó quy tắc chất lượng dữ liệu được định cấu hình trong quy trình, thực thi trong 20 phút (1/3 giờ) với 6 DPU. Bạn sẽ phải trả phí 6 DPU * 1/3 giờ * 0,44 USD, tương đương 0,88 USD. Ngoài ra, bạn có thể sử dụng Flex với mức phí 6 DPU * 1/3 giờ * 0,29 USD, tương đương 0,58 USD.
Ví dụ 4 – Đánh giá chất lượng dữ liệu trong một tác vụ AWS Glue ETL với tính năng Phát hiện bất thường
Giả sử một tác vụ AWS Glue đọc dữ liệu từ Amazon S3, chuyển đổi dữ liệu và chạy kiểm tra chất lượng dữ liệu trước khi tải lên Amazon Redshift. Giả sử rằng quy trình này có 10 quy tắc và 10 trình phân tích, thu thập được 20 số liệu thống kê. Ngoài ra, giả sử rằng quá trình trích xuất, chuyển đổi, tải, thu thập số liệu thống kê, đánh giá chất lượng dữ liệu sẽ mất 20 phút. Nếu không bật tính năng Phát hiện bất thường, khách hàng sẽ bị tính phí 6 DPU * 1/3 giờ (20 phút) * 0,44 USD, tương đương 0,88 USD (A). Khi bật Phát hiện bất thường, chúng tôi sẽ thêm 1 DPU cho mỗi số liệu thống kê và trung bình sẽ mất 15 giây để phát hiện bất thường. Trong ví dụ này, khách hàng sẽ phải chịu phí cho 20 số liệu thống kê * 1 DPU * 15/3600 (0,0041 giờ/số liệu thống kê) * 0,44 USD (chi phí cho mỗi DPU/giờ) = 0,037 USD (B). Tổng chi phí cho tác vụ sẽ là 0,88 USD (A) + 0,037 USD (B) = 0,917 USD.
Ví dụ 5 – Đào tạo lạiGiả sử rằng tác vụ trên Glue của bạn đã phát hiện ra một bất thường. Bạn quyết định loại trừ bất thường khỏi mô hình để thuật toán phát hiện bất thường dự đoán chính xác các bất thường trong tương lai. Để làm điều này, bạn có thể đào tạo lại mô hình bằng cách loại trừ số liệu thống kê bất thường này. Bạn sẽ phải chịu phí 1 DPU cho mỗi số liệu thông kê trong thời gian cần thiết để đào tạo lại mô hình. Trung bình, hành động này có thể mất 15 giây. Trong ví dụ này, giả sử bạn loại trừ 1 điểm dữ liệu, bạn sẽ phải chịu phí 1 số liệu thống kê * 1 DPU * 15/3600 (0,0041 giờ/số liệu thống kê) * 0,44 USD = 0,00185 USD.
-
Không ETL
-
Không ETL là một tập hợp các tích hợp được AWS quản lý toàn phần giúp giảm thiểu nhu cầu xây dựng quy trình dữ liệu trích xuất, chuyển đổi và tải (ETL) cho các trường hợp sử dụng tải nhập và sao chép phổ biến trong các sáng kiến phân tích và AI của bạn. AWS không tính thêm phí cho việc tích hợp không ETL. Bạn trả tiền cho các tài nguyên nguồn và đích được sử dụng để tạo và xử lý dữ liệu thay đổi được tạo trong quá trình tích hợp không ETL.
Lakehouse của Amazon SageMaker và Amazon Redshift hỗ trợ tích hợp không ETL từ các ứng dụng
Lakehouse của Amazon SageMaker và Amazon Redshift hỗ trợ tiện ích tích hợp không ETL từ các ứng dụng, giúp tự động hóa việc trích xuất và tải dữ liệu từ các ứng dụng vào Lakehouse của Amazon SageMaker và Amazon Redshift. Xem tài liệu về AWS Glue không ETL để biết danh sách đầy đủ các nguồn không ETL được hỗ trợ.
AWS Glue tính phí cho việc tải nhập dữ liệu nguồn ứng dụng được hỗ trợ bởi tích hợp không ETL. Bạn trả tiền cho tài nguyên AWS Glue được sử dụng để tìm nạp các thao tác chèn, cập nhật và xóa khỏi ứng dụng của bạn. Bạn bị tính phí dựa trên khối lượng dữ liệu nhận được từ ứng dụng và không bị tính phí khi khởi tạo yêu cầu tải nhập dữ liệu. Mỗi yêu cầu tải nhập do AWS Glue thực hiện có dung lượng tối thiểu là 1 megabyte (MB).
Khi dữ liệu tải nhập được ghi vào Amazon Redshift, bạn trả tiền cho các tài nguyên được sử dụng để xử lý dữ liệu thay đổi được tạo trong quá trình tích hợp không ETL dựa trên mức định giá Amazon Redshift.
Khi dữ liệu tải nhập được ghi vào Lakehouse của SageMaker, bạn trả tiền cho các tài nguyên được sử dụng để xử lý dữ liệu thay đổi được tạo trong quá trình tích hợp không ETL. Tài nguyên điện toán được sử dụng dựa trên loại lưu trữ được chọn cho Lakehouse của SageMaker.
- Đối với dung lượng lưu trữ được Amazon Redshift quản lý, bạn sẽ bị tính phí dựa trên điện toán Amazon Redshift phi máy chủ. Để biết thêm thông tin, hãy tham khảo định giá Amazon Redshift.
- Đối với Amazon Simple Storage Service (S3), bạn bị tính phí dựa trên điện toán AWS Glue cho mỗi Giờ sử dụng Đơn vị xử lý dữ liệu (DPU-Giờ), tính phí theo giây với thời gian tối thiểu là 1 phút.
Tích hợp không ETL trên Amazon DynamoDB với Lakehouse của Amazon SageMaker
Tích hợp không ETL trên Amazon DynamoDB với Lakehouse của Amazon SageMaker tự động hóa việc trích xuất và tải dữ liệu, hỗ trợ phân tích và AI cho dữ liệu từ các bảng DynamoDB trong kho hồ dữ liệu.
DynamoDB tính phí xuất dữ liệu từ các bản sao lưu liên tục DynamoDB (phục hồi về thời điểm trước đó). Để biết thêm thông tin, hãy tham khảo định giá Amazon DynamoDB.
Khi dữ liệu tải nhập được ghi vào Lakehouse của Amazon SageMaker, bạn trả tiền cho các tài nguyên được sử dụng để xử lý dữ liệu thay đổi được tạo trong quá trình tích hợp không ETL dựa trên loại lưu trữ được chọn cho Lakehouse của Amazon SageMaker.
- Đối với dung lượng lưu trữ được Amazon Redshift quản lý, bạn sẽ bị tính phí dựa trên điện toán Amazon Redshift phi máy chủ. Để biết thêm thông tin, hãy tham khảo định giá Amazon Redshift.
- Đối với Amazon Simple Storage Service (S3), bạn bị tính phí dựa trên điện toán AWS Glue cho mỗi Giờ sử dụng Đơn vị xử lý dữ liệu (DPU-Giờ), tính phí theo giây với thời gian tối thiểu là 1 phút.
Lưu ý: Mức giá có thể thay đổi theo Khu vực.
Xem bảng Khu vực toàn cầu để tìm hiểu thêm về độ sẵn sàng của AWS Glue.