Chuyển đến nội dung chính

Amazon EMR

Apache Spark trên Amazon EMR

Tại sao nên chọn Apache Spark trên EMR?

Amazon EMR cho phép bạn xây dựng các hồ dữ liệu giao dịch mở với Apache Spark và Apache Iceberg. Thời gian hoạt động được tối ưu hóa hiệu suất của chúng tôi tương thích API 100% với Spark mã nguồn mở, thực thi nhanh hơn tới 4,5 lần so với các phiên bản tương đương mã nguồn mở, đồng thời mang lại hiệu suất ghi Iceberg nhanh hơn 2,7 lần.

EMR hỗ trợ Apache Iceberg v3 và Spark 4.0 (bản xem trước), cho phép bạn tận dụng các khả năng như giao dịch ACID và phát triển lược đồ với các tính năng như kiểu dữ liệu VARIANT hoặc dữ liệu bán cấu trúc ở quy mô lớn và tuân thủ ANSI SQL để đảm bảo tính toàn vẹn dữ liệu. Cho dù bạn yêu cầu kiểm soát chi tiết của EC2, quy mô trong bộ chứa của EKS hay sự đơn giản của EMR phi máy chủ, Amazon EMR cung cấp tốc độ, độ tin cậy và tính toàn vẹn dữ liệu.  

Tính năng và lợi ích

    Thời gian hoạt động Apache Spark được tối ưu hóa hiệu suất của Amazon EMR tăng tốc khối lượng công việc của hồ dữ liệu với tốc độ thực thi nhanh hơn tới 4,5 lần so với các phiên bản tương đương mã nguồn mở, trong khi vẫn duy trì khả năng tương thích API 100%. Tối ưu hóa này mở rộng đến các hoạt động của Apache Iceberg, mang lại hiệu suất ghi nhanh hơn 2,7 lần cho các hồ dữ liệu giao dịch đòi hỏi cả tốc độ và độ tin cậy.

    Với hỗ trợ cho Apache Iceberg v3 và Spark 4.0 (bản xem trước), EMR cho phép các khả năng nâng cao bao gồm giao dịch ACID, phát triển lược đồ, kiểu dữ liệu VARIANT để xử lý dữ liệu bán cấu trúc và tuân thủ ANSI SQL.

    Thời gian hoạt động Amazon EMR cho Spark tối ưu hóa các kế hoạch truy vấn của bạn để chạy hoàn toàn trong bộ nhớ, tối đa hóa việc sử dụng phần cứng của bạn. Bằng cách hợp lý hóa cách xử lý dữ liệu trung gian, EMR giảm thời gian đưa ra kết quả cho khối lượng công việc máy học sử dụng nhiều tài nguyên nhất của bạn, cho phép bạn lặp lại chu kỳ phát triển nhanh hơn.

    Hiện đại hóa quy trình làm việc của bạn với SageMaker Unified Studio và EMR Studio, cung cấp môi trường tích hợp cho SQL, Python và Scala. Tận dụng Nhà phát triển Amazon Q để tạo mã PySpark được tối ưu hóa và khắc phục sự cố cho các kế hoạch thực thi phức tạp (DAG) theo thời gian thực. Không giống như Spark tiêu chuẩn, EMR cung cấp Giao diện người dùng Spark bền vững, cho phép bạn phân tích và gỡ lỗi bản ghi công việc ngay cả sau khi các ứng dụng phi máy chủ hoặc cụm tạm thời của bạn đã chấm dứt. Sự duy trì này rất quan trọng đối với quá trình kiểm tra và tinh chỉnh hiệu suất liên tục trong môi trường sản xuất.

    EMR phi máy chủ loại bỏ cản trở vận hành bằng cách cung cấp trải nghiệm sổ tay truy cập tức thời. Bạn không còn cần phải cung cấp, điều chỉnh quy mô hoặc quản lý các cụm. Bạn gắn môi trường phát triển ưu tiên của mình, như Studio hợp nhất của Amazon SageMaker hoặc JupyterLab, vào ứng dụng EMR phi máy chủ và bắt đầu truy vấn. Thời gian hoạt động EMR cho Spark đảm bảo rằng mã tương tác của bạn hoạt động với tốc độ cấp doanh nghiệp giống như quy trình sản xuất của bạn. Cho dù bạn đang thực hiện khám phá dữ liệu tùy biến trên nhiều petabyte dữ liệu S3 hay chạy các tác vụ kỹ thuật lấy dữ liệu đặc trưng phức tạp, Amazon EMR cung cấp môi trường liền mạch, hiệu suất cao cần thiết để đẩy nhanh quy trình công việc khoa học dữ liệu quan trọng nhất của bạn.

    Tác tử nâng cấp Apache Spark tự động nhận diện các thay đổi API và sửa đổi hành vi trên các ứng dụng PySpark và Scala. Các kỹ sư có thể khởi chạy quá trình nâng cấp trực tiếp từ Studio hợp nhất của SageMaker hoặc IDE mà họ chọn, với sự hỗ trợ của khả năng tương thích MCP (Giao thức ngữ cảnh mô hình). Trong quá trình nâng cấp, tác tử sẽ phân tích mã hiện có và đề xuất các thay đổi cụ thể, còn kỹ sư có thể xem xét và phê duyệt trước khi triển khai. Tác tử sẽ xác thực tính chính xác về chức năng thông qua các thao tác xác thực chất lượng dữ liệu. Hiện tại, tác tử này hỗ trợ nâng cấp từ Spark 2.4 lên 3.5 và duy trì độ chính xác khi xử lý dữ liệu trong suốt quá trình nâng cấp.

Trường hợp sử dụng

    Tiêu thụ và xử lý dữ liệu theo thời gian thực từ Amazon Kinesis, Apache Kafka hoặc các luồng dữ liệu khác bằng Spark Streaming trên EMR. Thực hiện các phân tích luồng theo cách có khả năng chịu lỗi và ghi kết quả lên S3 hoặc HDFS trên cụm.

    Apache Spark trên EMR cung cấp MLlib cho các thuật toán máy học có khả năng điều chỉnh quy mô hoặc bạn có thể sử dụng các thư viện của chính mình. Bằng cách lưu trữ các bộ dữ liệu trong bộ nhớ khi thực hiện một tác vụ, Spark mang đến hiệu năng tuyệt vời cho các truy vấn lặp lại thường gặp trong khối lượng công việc máy học. Bạn có thể nâng cao khả năng của Amazon SageMaker bằng cách kết nối phiên bản sổ tay với một cụm Apache Spark chạy trên Amazon EMR với Amazon SageMaker Spark để dễ dàng đào tạo và lưu trữ các mô hình.

    Sử dụng Spark SQL cho các truy vấn tương tác, có độ trễ thấp với SQL hoặc HiveQL. Spark trên EMR có thể tận dụng EMRFS, vì vậy, bạn có quyền truy cập vào bộ dữ liệu của mình trong S3, khi cần. Ngoài ra, bạn có thể sử dụng EMR Studio, EMR Notebooks, sổ tay Zeppelin hoặc công cụ BI thông qua kết nối ODBC và JDBC.

Thành công của khách hàng

Yelp

Missing alt text value Nhóm nhắm mục tiêu quảng cáo của Yelp tạo ra các mô hình dự đoán để xác định khả năng người dùng tương tác với một quảng cáo. Bằng cách sử dụng Apache Spark trên Amazon EMR để xử lý lượng dữ liệu lớn nhằm đào tạo các mô hình máy học, Yelp đã tăng doanh thu và tỷ lệ nhấp chuột vào quảng cáo.

The Washington Post

Missing alt text value The Washington Post sử dụng Apache Spark trên Amazon EMR để xây dựng các mô hình hỗ trợ công cụ đề xuất của trang web nhằm tăng sự gắn kết và hài lòng của người đọc. Các mô hình này tận dụng khả năng kết nối hiệu năng cao của Amazon EMR với Amazon S3 để cập nhật các mô hình gần theo thời gian thực.

Krux

Missing alt text value Là một phần của Nền tảng quản lý dữ liệu cho thông tin chuyên sâu về khách hàng, Krux chạy nhiều khối lượng công việc máy học và khối lượng công việc xử lý chung bằng cách sử dụng Apache Spark. Krux sử dụng các cụm Amazon EMR tạm thời với Dung lượng dùng ngay của Amazon EC2 để tiết kiệm chi phí và sử dụng Amazon S3 với EMRFS như một lớp dữ liệu cho Apache Spark.

GumGum

Missing alt text value GumGum, nền tảng quảng cáo theo hình ảnh và quảng cáo bật lên, sử dụng Spark trên Amazon EMR để dự báo tài nguyên quảng cáo, xử lý bản ghi luồng nhấp chuột và phân tích tùy biến dữ liệu phi cấu trúc trong Amazon S3. Những cải tiến về hiệu năng của Spark đã giúp GumGum tiết kiệm thời gian và tiền bạc cho những luồng công việc này.

Hearst Corporation

Missing alt text value Hearst Corporation là một công ty truyền thông và thông tin đa dạng hóa lớn, có các khách hàng xem nội dung trên hơn 200 thuộc tính web. Sử dụng Apache Spark Streaming trên Amazon EMR, nhân viên biên tập của Hearst có thể cập nhật theo thời gian thực về các bài viết đang hoạt động tốt và chủ đề nào đang thịnh hành.

CrowdStrike

Missing alt text value CrowdStrike cung cấp bảo vệ điểm cuối để ngăn chặn vi phạm. Họ sử dụng Amazon EMR với Spark để xử lý hàng trăm terabyte dữ liệu sự kiện và tổng hợp dữ liệu thành các mô tả hành vi cấp cao hơn trên máy chủ. Từ dữ liệu đó, CrowdStrike có thể kết hợp dữ liệu sự kiện và xác định sự hiện diện của hoạt động độc hại.