Tích hợp không ETL là gì?
Tích hợp không ETL là một tập hợp các tích hợp giúp loại bỏ hoặc giảm thiểu nhu cầu xây dựng quy trình dữ liệu ETL. Trích xuất, chuyển đổi và tải (ETL) là quy trình kết hợp, làm sạch và chuẩn hóa dữ liệu từ các nguồn khác nhau để sẵn sàng cho khối lượng công việc phân tích, trí tuệ nhân tạo (AI) và máy học (ML). Các quy trình ETL truyền thống tốn nhiều thời gian và phức tạp để phát triển, duy trì và điều chỉnh quy mô. Thay vào đó, tích hợp không ETL tạo điều kiện thuận lợi cho việc di chuyển dữ liệu point-to-point (điểm nối điểm) mà không cần tạo quy trình dữ liệu ETL. Tích hợp không ETL cũng có thể cho phép truy vấn qua các lô cốt dữ liệu mà không cần di chuyển dữ liệu.
Tích hợp không ETL giải quyết những thách thức ETL nào?
Tích hợp không ETL giải quyết nhiều thách thức khi di chuyển dữ liệu hiện có trong các quy trình ETL truyền thống.
Tăng độ phức tạp của hệ thống
Các quy trình dữ liệu ETL tăng độ phức tạp cho các nỗ lực tích hợp dữ liệu của bạn. Việc ánh xạ dữ liệu để phù hợp với lược đồ mục tiêu mong muốn bao gồm các quy tắc ánh xạ dữ liệu phức tạp, yêu cầu xử lý các mâu thuẫn và xung đột dữ liệu. Bạn phải triển khai các cơ chế xử lý lỗi, ghi nhật ký và thông báo hiệu quả để chẩn đoán sự cố. Yêu cầu bảo mật dữ liệu càng làm tăng thêm các hạn chế trên hệ thống.
Phụ phí
Các quy trình ETL rất tốn kém để bắt đầu nhưng chi phí có thể tăng khi khối lượng dữ liệu tăng lên. Kho lưu trữ dữ liệu trùng lặp giữa các hệ thống có thể không phù hợp về mặt chi phí khi có khối lượng lớn dữ liệu. Ngoài ra, việc điều chỉnh quy mô của các quy trình ETL thường yêu cầu nâng cấp cơ sở hạ tầng tốn kém, tối ưu hóa hiệu suất truy vấn và kỹ thuật xử lý song song. Nếu yêu cầu thay đổi, hoạt động thu thập và sử dụng dữ liệu phải liên tục theo dõi và kiểm tra quy trình trong quá trình cập nhật, làm tăng chi phí bảo trì.
Trì hoãn thời gian cho phân tích, AI và ML
ETL thường yêu cầu các kỹ sư dữ liệu tạo mã tùy chỉnh, cũng như yêu cầu các kỹ sư DevOps triển khai và quản lý cơ sở hạ tầng cần thiết để điều chỉnh quy mô khối lượng công việc. Trong trường hợp thay đổi nguồn dữ liệu, các kỹ sư dữ liệu phải tự sửa đổi mã của họ và triển khai lại. Quá trình này có thể mất vài tuần, gây ra sự chậm trễ trong việc chạy khối lượng công việc phân tích, trí tuệ nhân tạo và máy học. Hơn nữa, thời gian cần thiết để xây dựng và triển khai các quy trình dữ liệu ETL khiến dữ liệu không phù hợp với các trường hợp sử dụng gần thời gian thực như đặt quảng cáo trực tuyến, phát hiện các giao dịch gian lận hoặc phân tích chuỗi cung ứng theo thời gian thực. Trong những tình huống này, bạn sẽ mất đi cơ hội để cải thiện trải nghiệm của khách hàng, giải quyết các cơ hội kinh doanh mới hoặc giảm rủi ro kinh doanh.
Tích hợp không ETL mang lại những lợi ích gì?
Tích hợp không ETL cung cấp một số lợi ích cho chiến lược dữ liệu của tổ chức.
Tăng tính linh hoạt
Tích hợp không ETL đơn giản hóa kiến trúc dữ liệu và giảm các nỗ lực thu thập cũng như sử dụng dữ liệu. Giải pháp này cho phép bao gồm các nguồn dữ liệu mới mà không cần phải xử lý lại lượng lớn dữ liệu. Điều này giúp tăng tính linh hoạt, hỗ trợ việc ra quyết định dựa trên dữ liệu và đổi mới nhanh chóng.
Tiết kiệm chi phí
Tích hợp không ETL sử dụng các công nghệ tích hợp dữ liệu hoạt động trên đám mây và có thể điều chỉnh quy mô, cho phép các doanh nghiệp tối ưu hóa chi phí dựa trên nhu cầu sử dụng và xử lý dữ liệu thực tế. Các tổ chức giảm chi phí cơ sở hạ tầng, nỗ lực phát triển và chi phí bảo trì.
Thông tin chuyên sâu theo thời gian thực
Các quy trình ETL truyền thống thường bao gồm đến bản cập nhật hàng loạt định kỳ, từ đó trì hoãn tính sẵn có của dữ liệu. Tích hợp không ETL lại cung cấp quyền truy cập dữ liệu theo thời gian thực hoặc gần thời gian thực, đảm bảo dữ liệu mới hơn để phân tích, cho công nghệ AI/ML và báo cáo. Bạn nhận được thông tin chuyên sâu chính xác và kịp thời hơn cho các trường hợp sử dụng như bảng điều khiển theo thời gian thực, trải nghiệm chơi game được tối ưu hóa, giám sát chất lượng dữ liệu và phân tích hành vi của khách hàng. Các tổ chức tự tin hơn khi đưa ra các dự đoán dựa trên dữ liệu, cải thiện trải nghiệm của khách hàng và thúc đẩy thông tin chuyên sâu dựa trên dữ liệu trong toàn bộ doanh nghiệp.
Đâu là các trường hợp sử dụng khác nhau cho tích hợp không ETL?
Có ba trường hợp sử dụng chính cho không ETL.
Truy vấn liên kết
Các công nghệ truy vấn liên kết cung cấp khả năng truy vấn nhiều nguồn dữ liệu khác nhau mà không phải lo lắng về việc di chuyển dữ liệu. Bạn có thể sử dụng các lệnh SQL quen thuộc để chạy các truy vấn và nối dữ liệu qua một số nguồn như cơ sở dữ liệu hoạt động, kho dữ liệu và hồ dữ liệu. Lưới dữ liệu trong bộ nhớ (In-Memory Data Grids – IMDG) lưu trữ dữ liệu trong bộ nhớ để lưu vào bộ nhớ đệm và xử lý. Từ đó, bạn có thể hưởng những lợi ích của phân tích và thời gian phản hồi truy vấn ngay lập tức. Sau đó, bạn có thể lưu trữ kết quả nối trong kho dữ liệu để phân tích thêm và sử dụng tiếp.
Tải nhập truyền phát
Nền tảng truyền dữ liệu và hàng đợi tin nhắn truyền dữ liệu thời gian thực từ một số nguồn. Tích hợp không ETL với kho dữ liệu cho phép bạn tải nhập dữ liệu từ nhiều luồng như vậy và cung cấp dữ liệu để phân tích gần như ngay tức thì. Không có yêu cầu phân đoạn dữ liệu truyền phát để chuyển đổi trên bất kỳ dịch vụ lưu trữ nào khác.
Sao chép tức thì
Theo truyền thống, việc di chuyển dữ liệu từ cơ sở dữ liệu giao dịch vào kho dữ liệu trung tâm luôn đòi hỏi một giải pháp ETL phức tạp. Ngày nay, tích hợp không ETL có thể hoạt động như một công cụ sao chép dữ liệu, ngay lập tức sao chép dữ liệu từ cơ sở dữ liệu giao dịch sang kho dữ liệu. Cơ chế sao chép sử dụng các kỹ thuật thu thập dữ liệu thay đổi (CDC) và có thể được tích hợp vào kho dữ liệu. Người dùng không hề nhận thấy quá trình sao chép – các ứng dụng lưu trữ dữ liệu trong cơ sở dữ liệu giao dịch và các công cụ phân tích truy vấn dữ liệu từ kho một cách liền mạch.
AWS có thể hỗ trợ các nỗ lực không ETL của bạn bằng cách nào?
AWS đang đầu tư vào một tương lai không ETL. Dưới đây là ví dụ về các dịch vụ cung cấp hỗ trợ tích hợp sẵn cho không ETL.
Amazon Athena là dịch vụ phân tích tương tác phi máy chủ, được xây dựng trên các khung nguồn mở và hỗ trợ định dạng tệp cũng như bảng mở. Athena mang đến cách thức đơn giản, linh hoạt để phân tích hàng petabyte dữ liệu ở chính nơi lưu trữ dữ liệu đó. Bạn có thể phân tích dữ liệu hoặc xây dựng ứng dụng từ một hồ dữ liệu thuộc Dịch vụ lưu trữ đơn giản (S3) của Amazon và hơn 30 nguồn dữ liệu khác, bao gồm các nguồn dữ liệu tại chỗ hoặc các hệ thống đám mây khác, bằng SQL hay Python. Athena được xây dựng dựa trên các công cụ nguồn mở Trino và Presto cùng với khung Apache Spark, không yêu cầu phải cung cấp tài nguyên hay cấu hình.
Tính năng Tải nhập luồng của Amazon Redshift thu thập hàng trăm megabyte dữ liệu mỗi giây từ Luồng dữ liệu Amazon Kinesis hoặc Amazon MSK. Hãy xác định lược đồ hoặc chọn tải nhập dữ liệu bán cấu trúc với kiểu dữ liệu SUPER để truy vấn dữ liệu trong thời gian thực.
Tích hợp không ETL của Amazon Aurora với Amazon Redshift kích hoạt tích năng máy học (ML) và số liệu phân tích gần thời gian thực. Giải pháp này sử dụng Amazon Redshift phân tích khối lượng công việc trên hàng petabyte dữ liệu giao dịch từ Aurora. Đây là một giải pháp được quản lý toàn phần để cung cấp dữ liệu giao dịch trong Amazon Redshift sau khi dữ liệu được ghi vào cụm Aurora DB.
Tính năng Tự động sao chép của Amazon Redshift từ S3 đơn giản hóa và tự động hóa việc tải nhập tệp vào Amazon Redshift. Tính năng này liên tục tải nhập dữ liệu ngay khi các tệp mới được tạo trong S3 mà không cần hoạt động viết mã tùy chỉnh hoặc tải nhập thủ công.
Tính năng Kiểm soát truy cập chia sẻ dữ liệu với AWS Lake Formation quản lý tập trung quyền truy cập chi tiết vào dữ liệu được chia sẻ trong tổ chức của bạn. Bạn có thể định nghĩa, sửa đổi và kiểm tra quyền trên bảng, cột và hàng trong Amazon Redshift.
Bắt đầu sử dụng không ETL trên AWS bằng cách tạo tài khoản miễn phí ngay hôm nay!