Tại sao nên chọn EMR?
Amazon EMR là nền tảng dữ liệu lớn trên đám mây dẫn đầu ngành trong việc xử lý dữ liệu, phân tích tương tác và công nghệ máy học (ML) bằng các khung mã nguồn mở như Apache Spark, Apache Hive và Presto. Giá của Amazon EMR khá đơn giản và có thể tính trước: bạn trả mức phí trên giây cho mỗi giây sử dụng, với mức tối thiểu là một phút. Một cụm gồm 10 nút chạy trong 10 giờ có chi phí tương đương với một cụm gồm 100 nút chạy trong một giờ. Giá Amazon EMR phụ thuộc vào cách bạn triển khai các ứng dụng EMR của mình. Bạn có thể chạy các ứng dụng này trên những cụm EMR với các phiên bản Đám mây điện toán linh hoạt của Amazon (Amazon EC2), trên AWS Outposts, trên Dịch vụ Kubernetes linh hoạt Amazon (Amazon EKS) hoặc với EMR phi máy chủ. Bạn có thể chạy Amazon EKS trên AWS bằng EC2 hoặc AWS Fargate.
Bạn sẽ phải chịu phí địa chỉ IPv4 công cộng tiêu chuẩn cho các địa chỉ IPv4 được sử dụng với Amazon EMR của bạn trên các cụm EC2, Amazon EMR trên các cụm EKS và các ứng dụng Amazon EMR phi máy chủ. Vui lòng truy cập phần địa chỉ IPv4 công cộng tại trang định giá VPC để biết thêm chi tiết.
Công cụ tính giá AWS
Tính toán chi phí của kiến trúc và Amazon EMR chỉ với một ước tính duy nhất.
Amazon EMR trên Amazon EC2
Giá này dành cho các ứng dụng Amazon EMR chạy trên những cụm Amazon EMR với các phiên bản Amazon EC2.
Giá Amazon EMR được thêm vào giá Amazon EC2 (giá tính trên các máy chủ cơ bản) và giá Amazon Elastic Block Store (Amazon EBS) (nếu đi kèm các ổ đĩa Amazon EBS). Những mức giá này cũng được tính trên mỗi giây, với mức tối thiểu là một phút. Có nhiều lựa chọn giá EC2 mà bạn có thể chọn, bao gồm Phiên bản Theo nhu cầu (trình bày ở bên dưới), Phiên bản đặt trước một năm và ba năm, Capacity Savings Plans và Phiên bản dùng ngay. Phiên bản dùng ngay chính là dung lượng trống EC2 nhưng được giảm giá tới 90% so với giá của phiên bản Theo nhu cầu. Xem mức giá tiết kiệm của Phiên bản dùng ngay so với giá Theo nhu cầu bằng cách lọc “Các loại phiên bản được EMR hỗ trợ” trên trang Trình tư vấn phiên bản dùng ngay.
Amazon EMR trên Amazon EKS
Giá này dành cho Amazon EMR trên các cụm Amazon EKS.
Giá Amazon EMR được thêm vào giá của Amazon EKS hoặc bất kỳ dịch vụ nào khác được sử dụng với EKS. Bạn có thể chạy EKS trên AWS bằng EC2 hoặc AWS Fargate. Nếu bạn đang sử dụng EC2 (kể cả với các nhóm nút được EKS quản lý), bạn phải trả phí cho những tài nguyên AWS (ví dụ: phiên bản EC2 hoặc ổ đĩa EBS) mà bạn tạo để chạy các nút thợ Kubernetes của mình. Xem thông tin định giá chi tiết trên trang định giá EC2. Nếu bạn sử dụng AWS Fargate, giá sẽ được tính dựa trên vCPU và tài nguyên bộ nhớ đã sử dụng từ thời điểm bạn bắt đầu tải ảnh bộ chứa về cho đến khi EKS pod chấm dứt, làm tròn tới số giây gần nhất. Áp dụng mức phí tối thiểu một phút. Xem thông tin định giá chi tiết trên trang giá của AWS Fargate.
Giá Amazon EMR trên Amazon EKS được tính dựa trên vCPU và tài nguyên bộ nhớ đã sử dụng từ thời điểm bạn bắt đầu tải ảnh bộ chứa của ứng dụng EMR về cho đến khi EKS Pod chấm dứt, làm tròn tới số giây gần nhất. Giá dựa trên số vCPU và tài nguyên bộ nhớ được yêu cầu cho Tác vụ hoặc Pod.
Amazon EMR trên AWS Outposts
Mức định giá Amazon EMR trên AWS Outposts cũng giống các phiên bản EMR dựa trên đám mây. Vui lòng tham khảo trang định giá của AWS Outposts để biết chi tiết về mức định giá AWS Outposts.
Amazon EMR Serverless
Với EMR phi máy chủ, bạn không phải trả trước bất kỳ khoản chi phí nào và chỉ phải thanh toán cho những tài nguyên mà bạn sử dụng. Bạn trả phí cho lượng tài nguyên vCPU, bộ nhớ và dung lượng lưu trữ mà các ứng dụng của bạn tiêu thụ.
Với EMR phi máy chủ, bạn tạo ứng dụng bằng cách sử dụng phiên bản khung nguồn mở và sau đó gửi các tác vụ đến ứng dụng. Được bao gồm trong tiêu chuẩn thực hiện tác vụ, bạn có thể cung cấp số lượng đơn vị thợ đồng thời ở mức tối thiểu và tối đa cũng như vCPU, bộ nhớ và dung lượng lưu trữ cho từng đơn vị thợ. EMR tự động thêm và loại bỏ các đơn vị thợ dựa trên yêu cầu của tác vụ trong giới hạn mà bạn đã chỉ định. Ba yếu tố gồm điện toán, bộ nhớ và dung lượng lưu trữ cho đơn vị thợ có thể được định cấu hình độc lập với nhau. Bạn có thể chọn từ 1 vCPU, 2 vCPU, 4 vCPU, 8 vCPU đến 16 vCPU mỗi đơn vị thợ, bộ nhớ từ 2 GB đến 120 GB mỗi đơn vị thợ theo mức tăng từ 1 GB đến 8 GB. Đối với tùy chọn lưu trữ, bạn có thể chọn dung lượng lưu trữ tiêu chuẩn từ 20 GB đến 200 GB cho mỗi đơn vị thợ hoặc chọn bộ nhớ được tối ưu hóa xáo trộn từ 20 GB đến 2 TB cho mỗi đơn vị thợ.
Bạn trả phí cho tổng lượng tài nguyên vCPU, bộ nhớ và dung lượng lưu trữ được sử dụng từ thời điểm các đơn vị thợ sẵn sàng chạy khối lượng công việc của bạn cho đến khi dừng, tổng thời gian được làm tròn đến giây gần nhất với thời lượng tối thiểu là 1 phút. Nếu bạn thiết lập ứng dụng để khởi chạy các đơn vị thợ cùng lúc khởi động ứng dụng, các đơn vị thợ được yêu cầu sẽ khởi chạy khi bạn khởi động ứng dụng và chấm dứt khi bạn dừng ứng dụng hoặc khi duy trì ứng dụng ở chế độ chờ.
Lưu ý: Khi sử dụng ảnh tùy chỉnh, bạn bị tính phí cho tổng lượng tài nguyên vCPU, bộ nhớ và dung lượng lưu trữ được sử dụng từ thời điểm EMR phi máy chủ bắt đầu tải ảnh xuống cho đến khi thợ dừng, tổng thời gian được làm tròn đến giây gần nhất với thời lượng tối thiểu là 1 phút.
Chi tiết định giá (điện toán và bộ nhớ)
Mức định giá dựa trên lượng tài nguyên vCPU, bộ nhớ và dung lượng lưu trữ được các đơn vị thợ sử dụng rồi lấy tổng giá trị của tất cả các đơn vị thợ.
-
Linux/x86
-
Linux/ARM
-
Linux/x86
-
-
Linux/ARM
-
Chi tiết định giá (dung lượng lưu trữ tạm thời)
Dung lượng lưu trữ tiêu chuẩn: 20 GB dung lượng lưu trữ tạm thời đầu tiên được cung cấp cho tất cả các đơn vị thợ theo mặc định, bạn chỉ thanh toán cho bất kỳ dung lượng lưu trữ bổ sung nào được cấu hình cho từng đơn vị thợ.
Lưu trữ tối ưu hóa xáo trộn: Bạn trả tiền cho toàn bộ dung lượng lưu trữ được cấu hình cho mỗi đơn vị thợ, bao gồm 20 GB đầu tiên.
Các cấu hình đơn vị thợ được hỗ trợ
CPU | Giá trị bộ nhớ | Dung lượng lưu trữ tạm thời |
1 vCPU | Tối thiểu 2 GB và tối đa 8 GB, tăng dần theo mỗi 1 GB | 20 GB – 200 GB |
2 vCPU | Tối thiểu 4 GB và tối đa 16 GB, tăng dần theo mỗi 1 GB | 20 GB – 200 GB |
4 vCPU | Tối thiểu 8 GB và tối đa 30 GB, tăng dần theo mỗi 1 GB | 20 GB – 200 GB |
8 vCPU | Tối thiểu 16 GB và tối đa 60 GB, tăng dần theo mỗi 4 GB | 20 GB – 200 GB |
16 vCPU | Tối thiểu 32 GB và tối đa 120 GB, tăng dần theo mỗi 8 GB | 20 GB – 200 GB |
Thời lượng
Thời lượng được tính từ thời điểm đơn vị thợ sẵn sàng chạy khối lượng công việc của bạn cho đến khi dừng, tổng thời gian được làm tròn đến giây gần nhất với thời lượng tối thiểu là 1 phút.
Phụ phí
Bạn có thể phải chịu các khoản phụ phí nếu ứng dụng của bạn sử dụng những dịch vụ AWS khác. Ví dụ: nếu ứng dụng của bạn sử dụng Dịch vụ lưu trữ đơn giản của Amazon (S3) để lưu trữ và xử lý dữ liệu, thì bạn sẽ bị tính mức phí Amazon S3 theo tiêu chuẩn. Nếu bạn di chuyển dữ liệu từ các nguồn như Amazon S3, Dịch vụ cơ sở dữ liệu quan hệ của Amazon (RDS) hoặc Amazon Redshift, bạn bị tính mức phí truy vấn và truyền dữ liệu tiêu chuẩn. Nếu bạn sử dụng Amazon CloudWatch, bạn bị tính phí theo mức phí tiêu chuẩn đối với bản ghi CloudWatch và sự kiện CloudWatch.
WAL của Amazon EMR
Giá này dành cho Amazon EMR trên các cụm EC2 với các ứng dụng Apache HBase sử dụng WAL của Amazon EMR. Bản ghi trước Apache HBase cho phép ghi lại tất cả các thay đổi đối với dữ liệu vào lưu trữ theo tệp. Với Amazon EMR trên EC2, bạn có thể ghi bản ghi trước Apache HBase vào WAL của Amazon EMR, một lớp lưu trữ được quản lý bền vững tồn tại lâu hơn cụm của bạn. Trong trường hợp cụm của bạn hoặc hiếm gặp hơn, Vùng sẵn sàng bị lỗi hoặc không khả dụng, bạn có thể tạo một cụm mới, trỏ cụm đó đến cùng một thư mục gốc Amazon S3 và không gian làm việc WAL của Amazon EMR, rồi tự động khôi phục dữ liệu trong WAL trong vòng vài phút. Để biết thêm thông tin, hãy xem Tài liệu WAL của Amazon EMR.
Bạn chỉ trả tiền cho những gì bạn sử dụng cho EMR WAL. Nếu bạn có một cụm hoạt động được cấu hình để sử dụng WAL, bạn sẽ phải trả phí lưu trữ EMR WAL dựa trên mức sử dụng được tính phí dưới dạng EMR-WAL-WALHours, ghi dưới dạng WriteRequestGib và đọc dưới dạng ReadRequestGib.
EMR-WAL-WALHours: EMR WAL sẽ tạo một WAL cho mỗi Vùng Apache HBase. Sau khi cụm của bạn bị chấm dứt, nếu vẫn còn dữ liệu trong EMR WAL chưa được chuyển sang Amazon S3 - bạn có thể khôi phục dữ liệu bằng cách khởi chạy cụm khôi phục hoặc chọn dọn sạch WAL bằng cách tạo một cụm tạm thời và sử dụng EMR WAL CLI để xóa tài nguyên EMR WAL. Nếu bạn không xóa dữ liệu EMR WAL một cách rõ ràng, EMR WAL sẽ giữ lại dữ liệu và tính phí cho bất kỳ dữ liệu nào không được xóa trong 30 ngày. Bạn có thể xem một ví dụ dưới đây.
ReadRequestGiB và WriteRequestGiB: Hai chiều này dành cho các yêu cầu đọc và ghi. Các lệnh gọi API Apache HBase để ghi dữ liệu vào bảng của bạn trên một cụm với EMR WAL được tính phí dưới dạng WriteRequestGib. Lệnh ghi EMR WAL sẽ xảy ra cho tất cả các lệnh ghi Apache HBase như hoạt động `Put`. Các lệnh gọi API Apache HBase để đọc dữ liệu từ EMR WAL của bạn trong các hoạt động khôi phục Apache HBase được tính dưới dạng ReadRequestGib. Số lần đọc và ghi được tính phí dựa trên kích thước của mục và hóa đơn EMR tối thiểu là 1 Byte.
Ví dụ về định giá
Ví dụ 1: EMR trên EC2
Định giá dựa trên mức giá ở US-East-1.
Giả sử bạn chạy một ứng dụng Amazon EMR được triển khai trên Amazon EC2, đồng thời lúc đó, bạn sử dụng một phiên bản EC2 c4.2xlarge làm nút chính và hai phiên bản EC2 c4.2xlarge làm nút lõi. Bạn sẽ phải thanh toán cho cả EMR cũng như các nút EC2. Nếu bạn chạy trong một tháng, với mức sử dụng 100% trong suốt tháng đó, đồng thời bạn sử dụng mức định giá theo nhu cầu cho EC2, mức phí của bạn sẽ là:
Nút chính:
Mức phí EMR = 1 phiên bản x 0,105 USD mỗi giờ x (100/100 được sử dụng/tháng) x 730 giờ trong một tháng = 76,65 USD (chi phí nút chính EMR)Mức phí EC2 = 1 phiên bản x 0,398 USD mỗi giờ x 730 giờ trong một tháng = 290,54 USD (chi phí nút chính EC2)
Nút lõi:
Mức phí EMR = 2 phiên bản x 0,105 USD mỗi giờ x (100/100 được sử dụng/tháng) x 730 giờ trong một tháng = 153,30 USD (chi phí nút lõi EMR)
Mức phí EC2 = 2 phiên bản x 0,398 USD mỗi giờ x 730 giờ trong một tháng = 581,08 USD (chi phí nút lõi EC2)
Mức phí tổng = 76,65 USD + 290,54 USD + 153,30 USD + 581,08 USD = 1101,57 USD
Ví dụ 2: EMR trên EKS
Định giá dựa trên mức giá ở US-East-1.
Giả sử bạn đang chạy một ứng dụng Amazon EMR-Spark được triển khai trên Amazon EKS. Trong trường hợp này, EKS nhận được công suất điện toán bằng cách sử dụng các phiên bản EC2 r5.2xlarge (8 vCPU, 64 GB RAM). Giả sử rằng cụm EKS có 100 nút, tổng cộng 800 vCPU và 6400 GB tổng bộ nhớ. Giả sử rằng ứng dụng đó sử dụng 100 VCPU và 300 GB bộ nhớ trong 30 phút.
Tổng mức phí tăng của Amazon EMR đối với tác vụ đó là:
Tổng phí tăng trên vCPU = (100 * 0,01012 USD * 0,5) = (số lượng vCPU * mức phí vCPU trên mỗi giờ * thời gian chạy tác vụ theo giờ) = 0,506 USD
Tổng phí tăng trên bộ nhớ = (300 * 0,00111125 USD *0,5) = (lượng bộ nhớ đã dùng * mức phí trên GB-giờ * thời gian chạy tác vụ theo giờ) = 0,1667 USD
Tổng phí tăng EMR đối với tác vụ EMR = 0,6727 USD
Phụ phí
Bạn phải trả 0,10 USD mỗi giờ cho mỗi cụm Amazon EKS mà bạn tạo. Bạn có thể sử dụng một cụm Amazon EKS duy nhất để chạy nhiều ứng dụng bằng cách tận dụng chỗ điền tên Kubernetes và các chính sách bảo mật IAM. Bạn có thể chạy EKS trên AWS bằng Amazon EC2 hoặc AWS Fargate.
Nếu bạn đang sử dụng Amazon EC2 (bao gồm cả với các nhóm nút được Amazon EKS quản lý), bạn phải trả phí cho các tài nguyên AWS (ví dụ: phiên bản EC2 hoặc ổ đĩa Amazon EBS) mà bạn tạo để chạy các nút thợ Kubernetes của mình. Bạn chỉ phải trả phí cho những gì bạn dùng, dùng đến đâu trả đến đó. Không yêu cầu mức phí tối thiểu và không cần cam kết trả trước. Xem thông tin định giá chi tiết trên trang định giá EC2.
Nếu bạn sử dụng AWS Fargate, mức định giá sẽ được tính dựa trên vCPU và tài nguyên bộ nhớ đã sử dụng từ thời điểm bạn bắt đầu tải ảnh bộ chứa về cho đến khi Amazon EKS pod chấm dứt, làm tròn tới số giây gần nhất. Áp dụng mức phí tối thiểu một phút. Xem thông tin định giá chi tiết trên trang định giá AWS Fargate.
Ví dụ 3: EMR Serverless
Giả sử bạn gửi một tác vụ Spark đến EMR Serverless. Giả sử tác vụ đó được cấu hình để sử dụng tối thiểu 25 đơn vị thợ và tối đa 75 đơn vị thợ, mỗi đơn vị thợ được cấu hình 4 vCPU và 30 GB bộ nhớ. Lưu ý: không cấu hình dung lượng lưu trữ tạm thời bổ sung. Nếu tác vụ của bạn sử dụng 25 đơn vị thợ (hoặc 100 vCPU) để chạy trong 30 phút và tự động thay đổi quy mô để thêm vào 50 đơn vị thợ nữa (thêm 200 vCPU) trong 15 phút:
Tổng chi phí vCPU-giờ = (100 * 0,052624 USD * 0,5) + (200 * 0,052624 USD * 0,25) = (số lượng vCPU * mức giá mỗi vCPU-giờ * thời gian chạy tác vụ theo giờ) = 5,2624 USD
Tổng chi phí GB-giờ = (750 * 0,0057785 USD * 0,5) + (1500 * 0,0057785 USD * 0,25) = (Tổng GB bộ nhớ được cấu hình * mức giá mỗi GB-giờ * thời gian chạy tác vụ theo giờ) = 4,333875 USD
Tổng phí EMR Serverless = 9,596275 USD
Phụ phí: Nếu ứng dụng của bạn sử dụng các dịch vụ AWS khác, chẳng hạn như Amazon S3, bạn sẽ phải trả tiền theo mức phí S3 tiêu chuẩn.
Ví dụ 4: EMR WAL
Giả sử bạn tạo một cụm Amazon EMR mới với Apache HBase và chọn sao lưu hoàn toàn cụm của bạn ở Khu vực Miền Đông Hoa Kỳ (Bắc Virginia). Do điều này dành cho ứng dụng mới, bạn không biết cấu trúc lưu lượng truy cập sẽ như thế nào. Để đơn giản, giả sử rằng người dùng của bạn đã tạo 10 bảng HBase bao gồm bảng hệ thống, 2 Vùng HBase cho mỗi bảng và mỗi khi người dùng tương tác với ứng dụng của bạn, họ ghi 1 KiB dữ liệu.
Trong thời gian 10 ngày, bạn nhận được một số lưu lượng truy cập ứng dụng, tạo ra 10.000 lần ghi mỗi ngày. Tuy nhiên, vào ngày 11, lưu lượng truy cập ứng dụng của bạn tăng lên 2.500.000 lần ghi vào ngày hôm đó. Bạn cũng quyết định đồng thời cập nhật mã tùy chỉnh của mình trên cụm của bạn và dành thời gian ngừng hoạt động hàng đêm theo lịch trình cho người dùng cuối vào Ngày 11. Chúng ta hãy giả sử điều này dẫn đến 1.000.000 lần đọc từ EMR WAL cho các hoạt động khôi phục HBase. Ứng dụng của bạn sẽ điều chỉnh quy mô để cung cấp trải nghiệm liền mạch cho người dùng của bạn. Sau đó, ứng dụng sẽ ổn định ở cấu trúc lưu lượng thường xuyên hơn với 50.000 lần ghi mỗi ngày cho đến cuối tháng.
Bảng dưới đây tóm tắt tổng lượng sử dụng trong tháng.
Khung thời gian - (Ngày trong tháng) | Tổng số lần ghi | Tổng số lần đọc | Sử dụng EMR WAL |
1 – 10 | 100.000 lần ghi (10.000 lần ghi x 10 ngày) | ||
11 | 2.500.000 lần ghi | 1.000.000 lần đọc | |
12 - 30 | 950.000 lần ghi (50.000 lần ghi x 19 ngày) | ||
Tổng hàng tháng | 3.550.000 lần ghi | 1.000.000 lần đọc | |
Mức phí hàng tháng | 0,30 USD (0,0883 USD cho mỗi GiB yêu cầu ghi EMR WAL x 3,55 triệu KiB ghi / 1048576 KiB/GiB) | 0,08 USD (0,0883 USD cho mỗi GiB yêu cầu đọc EMR WAL x 1 triệu KiB đọc / 1048576 KiB/GiB) | 25,92 USD (0,0018 USD cho mỗi WAL mỗi giờ sử dụng EMR WAL X sử dụng 10 Bảng HBase X 2 vùng HBase trên mỗi bảng HBase X 1 WAL trên mỗi vùng HBase X 30 ngày X 24 giờ hoặc sử dụng 14.400 EMR-WAL-WALHours) |
Trong tháng, hóa đơn của bạn sẽ là 26,52 USD, tổng cộng bao gồm 0,38 USD cho ReadRequestGib và WriteRequestGib và 25,92 USD cho EMR-WAL-WALHours.
Tài nguyên định giá khác
Dễ dàng tính phí hằng tháng của bạn với AWS
Liên hệ với các chuyên gia AWS để được báo giá riêng
Bắt đầu xây dựng với Amazon EMR trong Bảng điều khiển quản lý AWS.