Tại sao nên sử dụng Tích hợp Amazon Redshift cho Apache Spark?
Tích hợp Amazon Redshift cho Apache Spark giúp đơn giản hóa và tăng tốc các ứng dụng Apache Spark truy cập dữ liệu Amazon Redshift từ các dịch vụ phân tích của AWS, như Amazon EMR, AWS Glue và Amazon SageMaker. Bằng cách sử dụng Amazon EMR, AWS Glue và SageMaker, bạn có thể nhanh chóng xây dựng các ứng dụng Apache Spark đọc từ và ghi vào kho dữ liệu Amazon Redshift mà không làm ảnh hưởng đến hiệu năng hoặc tính nhất quán của giao dịch. Tích hợp Amazon Redshift cho Apache Spark cũng sử dụng thông tin chứng thực dựa trên Quản lý danh tính và truy cập (IAM)–trong AWS để tăng cường bảo mật. Với Tích hợp Amazon Redshift cho Apache Spark, bạn không cần phải thiết lập thủ công hay bảo trì các phiên bản bộ kết nối chưa được chứng nhận của bên thứ ba. Bạn có thể bắt đầu với các tác vụ Apache Spark sử dụng dữ liệu trong Amazon Redshift chỉ sau vài giây. Sự tích hợp mới này giúp cải thiện hiệu năng của các ứng dụng Apache Spark sử dụng dữ liệu Amazon Redshift.
Lợi ích của Amazon Redshift
Cách thức hoạt động
Trường hợp sử dụng
Khách hàng
Huron là công ty dịch vụ chuyên nghiệp toàn cầu hợp tác với khách hàng để biến khả năng thành hiện thực bằng cách tạo ra các chiến lược hợp lý, tối ưu hóa hoạt động, đẩy nhanh quá trình chuyển đổi kỹ thuật số và hỗ trợ các doanh nghiệp cũng như đội ngũ nhân sự làm chủ tương lai của mình.
“Chúng tôi hỗ trợ các kỹ sư xây dựng ứng dụng và quy trình dữ liệu với Apache Spark bằng Python và Scala. Chúng tôi muốn có một giải pháp phù hợp, giúp đơn giản hóa các hoạt động, có thể cung cấp nhanh hơn và hiệu quả hơn đến khách hàng của mình. Tích hợp Amazon Redshift mới cho Apache Spark chính là giải pháp như vậy”.
Corey Johnson, Giám đốc kiến trúc dữ liệu – Huron Consulting
GE Aerospace là nhà cung cấp toàn cầu về động cơ phản lực, linh kiện và hệ thống cho máy bay thương mại và quân sự. Công ty đã thiết kế, phát triển và sản xuất động cơ phản lực kể từ Thế chiến I.
“GE Aerospace đã sử dụng phân tích AWS và Amazon Redshift để cung cấp thông tin chuyên sâu quan trọng về kinh doanh, giúp công ty đưa ra các quyết định kinh doanh quan trọng. Với tính năng hỗ trợ tự động sao chép từ Amazon S3, chúng tôi có thể xây dựng các quy trình dữ liệu đơn giản hơn để di chuyển dữ liệu từ Amazon S3 sang Amazon Redshift. Điều này giúp các nhóm sản phẩm dữ liệu của chúng tôi tăng tốc độ truy cập dữ liệu và cung cấp thông tin chuyên sâu cho người dùng cuối. Chúng tôi đã dành nhiều thời gian hơn cho việc gia tăng giá trị thông qua dữ liệu và giảm bớt thời gian vào hoạt động tích hợp”.
Alcuin Weidus, Kiến trúc sư dữ liệu chính cấp cao – GE Aerospace
Goldman Sachs Group, Inc. là tổ chức tài chính hàng đầu thế giới cung cấp nhiều loại dịch vụ tài chính về ngân hàng đầu tư, chứng khoán, quản lý đầu tư và ngân hàng tiêu dùng cho cơ sở khách hàng lớn và đa dạng, bao gồm các tập đoàn, tổ chức tài chính, chính phủ và cá nhân.
“Trọng tâm của chúng tôi là cung cấp quyền truy cập tự phục vụ vào dữ liệu cho tất cả người dùng tại Goldman Sachs. Thông qua Legend, nền tảng quản trị và quản lý dữ liệu mã nguồn mở của mình, chúng tôi hỗ trợ người dùng phát triển các ứng dụng tập trung vào dữ liệu và khai thác những thông tin chuyên sâu dựa trên dữ liệu khi chúng tôi cộng tác trong ngành dịch vụ tài chính. Với tích hợp Amazon Redshift cho Apache Spark, đội ngũ nền tảng dữ liệu của chúng tôi sẽ có thể truy cập dữ liệu Amazon Redshift với ít bước thủ công nhất, từ đó chúng tôi có thể sử dụng ETL không cần mã để nâng cao khả năng giúp các kỹ sư dễ dàng tập trung vào việc hoàn thiện quy trình làm việc hơn, đồng thời thu thập thông tin đầy đủ và kịp thời. Chúng tôi hy vọng sẽ thấy được sự cải thiện trong các ứng dụng cũng như trong độ bảo mật, vì giờ đây người dùng có thể dễ dàng truy cập dữ liệu mới nhất trong Amazon Redshift”.
Neema Raphael, Giám đốc dữ liệu – Goldman Sachs