Di chuyển dữ liệu lên đám mây
Dữ liệu là nền tảng cho sự thành công trong việc triển khai ứng dụng, luồng công việc phân tích và những cải tiến về máy học. Khi di chuyển dữ liệu lên đám mây, bạn cần hiểu dữ liệu cho các trường hợp sử dụng khác nhau đang được di chuyển đến đâu, loại dữ liệu bạn đang di chuyển và tài nguyên mạng được sử dụng cùng những lưu ý khác. AWS cung cấp nhiều dịch vụ và công cụ đối tác để giúp bạn di chuyển các tập dữ liệu của mình bất kể dữ liệu ở dạng tệp, cơ sở dữ liệu, ảnh máy, ổ đĩa dạng khối hoặc thậm chí sao lưu băng từ.
Dịch vụ di chuyển dữ liệu lêm Đám mây AWS
AWS cung cấp một hồ sơ gồm các dịch vụ truyền dữ liệu nhằm mang đến giải pháp thích hợp cho mọi dự án di chuyển dữ liệu. Mức độ kết nối là yếu tố chính trong việc di chuyển dữ liệu. AWS có các dịch vụ có thể xác định nhu cầu của bạn trong việc lưu trữ đám mây kết hợp, truyền dữ liệu trực tuyến và ngoại tuyến.
Lưu trữ đám mây kết hợp
Nhiều khách hàng muốn tận dụng các lợi ích của lưu trữ đám mây nhưng có các ứng dụng chạy tại chỗ cần truy cập độ trễ thấp vào dữ liệu của họ hoặc cần truyền dữ liệu nhanh chóng lên đám mây. Kiến trúc lưu trữ đám mây kết hợp AWS kết nối các hệ thống và ứng dụng tại chỗ của bạn với lưu trữ đám mây nhằm giúp bạn giảm chi phí, giảm thiểu gánh nặng quản lý và cải tiến với dữ liệu của bạn.
AWS Storage Gateway
Dịch vụ AWS Storage Gateway đơn giản hóa việc ứng dụng Lưu trữ AWS tại chỗ. Storage Gateway cho phép bạn kết nối và mở rộng các ứng dụng tại chỗ của mình đến Lưu trữ AWS một cách liền mạch. Khách hàng sử dụng Storage Gateway để thay thế liền mạch thư viện băng từ bằng lưu trữ đám mây, cung cấp tính năng chia sẻ tệp dựa trên lưu trữ đám mây hoặc tạo bộ đệm có độ trễ thấp để truy cập vào dữ liệu trong AWS dành cho ứng dụng tại chỗ. Dịch vụ cung cấp 3 loại cổng khác nhau – File Gateway, Tape Gateway, và Volume Gateway.
- Dữ liệu tệp File Gateway được lưu trữ trên Amazon S3 dưới dạng đối tượng bền bằng Amazon S3 Gateway hoặc bằng cách chia sẻ tệp được quản lý toàn phần sử dụng Amazon FSx File Gateway.
- Cấu hình thư viện băng từ ảo (VTL) Tape Gateway tích hợp liền mạch với phần mềm sao lưu hiện có của bạn để thay thế cho băng từ với chi phí phải chăng trên Amazon S3 và lưu trữ lâu dài trên S3 Glacier cũng như S3 Glacier Deep Archive.
- Cổng kết nối ổ đĩa lưu trữ hoặc lưu cục bộ ổ đĩa dạng khối vào bộ nhớ đệm, với các bản sao lưu theo thời điểm dưới dạng kết xuất nhanh EBS. Các bản kết xuất nhanh này có thể được khôi phục trên đám mây.
AWS Direct Connect
Khách hàng chọn một kết nối vật lý chuyên dụng Direct Connect để đẩy nhanh các đợt truyền dữ liệu qua mạng giữa trung tâm dữ liệu của khách hàng và của AWS.
AWS Direct Connect cho phép bạn thiết lập kết nối mạng chuyên biệt giữa mạng của bạn và một trong những địa điểm của AWS Direct Connect. Sử dụng VLAN theo tiêu chuẩn 802.1q của ngành, kết nối này có thể được phân vùng thành nhiều giao diện ảo. Điều này cho phép bạn sử dụng cùng một kết nối để truy cập các tài nguyên công cộng như các đối tượng được lưu trên Amazon S3 sử dụng không gian địa chỉ IP công khai và các tài nguyên riêng như các phiên bản Amazon EC2 đang chạy trong Amazon Virtual Private Cloud (VPC) sử dụng không gian IP riêng, đồng thời duy trì sự tách biệt mạng giữa môi trường công khai và môi trường riêng. Các giao diện ảo có thể được đặt cấu hình lại vào bất kỳ thời điểm nào để đáp ứng các nhu cầu thay đổi liên tục của bạn.
Khám phá Các gói dành cho đối tác AWS Direct Connect giúp bạn mở rộng các công nghệ tại chỗ lên đám mây.
Truyền dữ liệu trực tuyến
Những dịch vụ này giúp bạn dễ dàng truyền dữ liệu vào và ra khỏi AWS qua các phương pháp trực tuyến.
AWS DataSync
AWS DataSync là dịch vụ truyền dữ liệu giúp bạn dễ dàng tự động hóa việc di chuyển dữ liệu giữa không gian lưu trữ tại chỗ và Amazon S3, Amazon Elastic File System (Amazon EFS) hoặc Amazon FSx for Windows File Server. DataSync tự động xử lý nhiều tác vụ liên quan đến truyền dữ liệu có thể làm chậm quá trình di chuyển hoặc làm ảnh hưởng đến các hoạt động CNTT của bạn, bao gồm tự chạy các phiên bản của bạn, xử lý mã hóa, quản lý tập lệnh, tối ưu hóa mạng và xác thực tính toàn vẹn dữ liệu. Bạn có thể sử dụng DataSync để truyền dữ liệu với tốc độ nhanh hơn gấp 10 lần so với các công cụ nguồn mở. Bạn có thể sử dụng DataSync để sao chép dữ liệu qua AWS Direct Connect hoặc các liên kết Internet đến AWS để di chuyển dữ liệu một lần, quy trình xử lý dữ liệu định kỳ và sao chép tự động để bảo vệ và khôi phục dữ liệu.
Dòng sản phẩm AWS Transfer
AWS Transfer Family cung cấp khả năng hỗ trợ được quản lý toàn diện cho việc truyền tệp trực tiếp ra vào Amazon S3. Với sự hỗ trợ cho Giao thức truyền tệp an toàn (SFTP), Giao thức truyền tệp qua SSL (FTPS) và Giao thức truyền tệp (FTP), AWS Transfer Family giúp bạn di chuyển liền mạch luồng công việc truyền tệp sang AWS bằng cách tích hợp với các hệ thống xác thực hiện có và cung cấp định tuyến DNS với Amazon Route 53 để không xảy ra thay đổi gì với khách hàng và đối tác của bạn hoặc ứng dụng của họ. Với dữ liệu của bạn trong Amazon S3, bạn có thể sử dụng nó với các dịch vụ AWS để xử lý, phân tích, máy học và lưu trữ. Bắt đầu với AWS Transfer Family thật dễ dàng; không cần mua và thiết lập cơ sở hạ tầng.
Amazon S3 Transfer Acceleration
Amazon S3 Transfer Acceleration đẩy nhanh tốc độ truyền Internet công cộng sang Amazon S3. Bạn có thể tối đa hóa băng thông có sẵn không phụ thuộc vào khoảng cách hay môi trường Internet thay đổi, đồng thời không có máy khách đặc biệt hay các giao thức mạng độc quyền. Chỉ việc thay đổi điểm cuối mà bạn sử dụng với vùng lưu trữ S3 và quá trình tăng tốc sẽ tự động diễn ra.
Đây là lựa chọn lý tưởng cho những tác vụ định kỳ diễn ra trên khoảng cách toàn cầu, như tải lên nội dung đa phương tiện, sao lưu và các tác vụ xử lý dữ liệu cục bộ thường được gửi tới một vị trí trung tâm.
AWS Snowcone
AWS Snowcone là thành viên nhỏ nhất của Dòng sản phẩm AWS Snow gồm các thiết bị truyền dữ liệu và điện toán biên. Snowcone di động, chắc chắn và bảo mật. Bạn có thể sử dụng Snowcone để thu thập và di chuyển dữ liệu sang AWS trực tuyến nhờ AWS DataSync. Việc chạy ứng dụng trong môi trường bị ngắt kết nối và các vị trí biên được kết nối có thể gặp khó khăn vì những vị trí này thường thiếu không gian, nguồn điện và hệ thống làm mát cần thiết cho thiết bị CNTT của trung tâm dữ liệu. AWS Snowcone lưu trữ dữ liệu an toàn tại các vị trí biên và có thể chạy khối lượng công việc điện toán biên dùng AWS IoT Greengrass hoặc các phiên bản Amazon EC2. Các thiết bị Snowcone nhỏ và có trọng lượng 4,5 lbs. (2,1 kg), do vậy, bạn có thể mang theo trong ba lô hoặc để vừa không gian hẹp cho các trường hợp sử dụng với IoT, phương tiện giao thông hoặc thậm chí là máy bay không người lái.
Amazon Kinesis Data Firehose
Amazon Kinesis Data Firehose là cách đơn giản nhất để tải dữ liệu truyền phát lên AWS. Dịch vụ này có khả năng thu thập và tự động tải luồng dữ liệu lên Amazon S3 và Amazon Redshift, cho phép thực hiện các phân tích gần theo thời gian thực bằng công cụ thông tin doanh nghiệp và bảng thông tin hiện tại mà bạn hiện vẫn đang sử dụng. Đây là một dịch vụ được quản lý hoàn toàn, tự động thay đổi quy mô để phù hợp với lưu lượng dữ liệu và không cần quản trị liên tục. Công cụ này còn có thể chia lô, nén và mã hóa dữ liệu trước khi tải, nhờ đó giảm thiểu lượng dung lượng lưu trữ sử dụng tại điểm đích và tăng độ bảo mật. Bạn có thể dễ dàng tạo luồng phân phối Firehose từ Bảng điều khiển quản lý AWS, đặt cấu hình cho luồng này chỉ bằng vài lần nhấp chuột và bắt đầu gửi dữ liệu đến luồng từ hàng trăm nghìn nguồn dữ liệu cần tải liên tục lên AWS – tất cả chỉ trong vài phút.
Các sản phẩm dành cho đối tác APN
AWS đã hợp tác với một số nhà cung cấp trong ngành về thiết bị cổng kết nối vật lý giúp xóa bỏ khoảng cách giữa sao lưu truyền thống và đám mây. Hãy liên kết dữ liệu tại chỗ hiện có với đám mây của Amazon để thực hiện di chuyển mà không làm ảnh hưởng đến hiệu suất và giữ nguyên danh mục sao lưu hiện có.
- Tích hợp liền mạch với cơ sở hạ tầng hiện có
- Có thể cung cấp tính năng chống trùng lặp, nén, mã hóa hoặc tăng tốc WAN
- Lưu vào bộ nhớ đệm cục bộ các bản sao lưu gần đây, lưu mọi thứ vào két lưu trữ trên Đám mây AWS
Các công cụ di chuyển dữ liệu lên đám mây không được quản lý
AWS cũng cung cấp các công cụ CLI hoặc tập lệnh đơn giản để di chuyển dữ liệu từ trang web của bạn sang lưu trữ đám mây AWS.
rsync
Khách hàng sử dụng rsync, một công cụ nguồn mở cùng với các công cụ hệ thống tệp bên thứ ba để sao chép dữ liệu thẳng vào các bộ chứa S3.
Giao diện dòng lệnh S3
Khách hàng sử dụng CLI Amazon S3 để viết lệnh di chuyển dữ liệu trực tiếp vào các bộ chứa S3.
Giao diện dòng lệnh S3 Glacier
Khách hàng sử dụng Amazon S3 Glacier CLI để di chuyển dữ liệu vào két lưu trữ S3 Glacier.
Thách thức chung của việc di chuyển dữ liệu lên đám mây
Thực tế khó khăn của việc chuyển dữ liệu xảy ra ở hầu hết các dự án. Bạn làm cách nào để dễ dàng di chuyển dữ liệu từ vị trí hiện tại lên đám mây mới với ít gián đoạn, chi phí và thời gian nhất? Đâu là cách thông minh nhất để di chuyển được hàng GB, TB hay PB dữ liệu?
Vấn đề ngầm định cơ bản là: lượng, quãng đường và tốc độ di chuyển dữ liệu là bao nhiêu? Hãy sử dụng công thức sau đây cho kịch bản tốt đẹp nhất:
Số ngày = (Tổng số byte)/(Megabit trên giây * 125 * 1000 * Mức độ sử dụng mạng * 60 giây * 60 phút * 24 giờ)
Ví dụ: nếu bạn có kết nối T1 (1,544Mbps) và 1TB (1024 * 1024 * 1024 * 1024 byte) cần di chuyển vào hoặc ra khỏi AWS, thời gian tối thiểu trên lý thuyết sẽ cần để tải qua kết nối mạng có mức sử dụng mạng 80% là 82 ngày.
Hãy bình tĩnh. Chúng tôi đã từng làm điều này. Chúng tôi đã nhận thấy rằng khách hàng tiếp cận vấn đề này theo hai cách: sử dụng các công cụ di chuyển rất cơ bản, không được quản lý để di chuyển dữ liệu hoặc chọn một trong các bộ dịch vụ của AWS đã được liệt kê bên trên.
Theo quy luật chung, để thu được kết quả tốt nhất, chúng tôi đề xuất:
Kết nối | Quy mô dữ liệu | Phương pháp |
---|---|---|
Dưới 10 Mbps | Dưới 500 GB | Không được quản lý |
Trên 10 Mbps | Trên 500 GB | Dịch vụ được quản lý |