Quy trình làm việc

  • HealthOmics cung cấp hai loại quy trình làm việc: quy trình làm việc riêng tư và quy trình làm việc Ready2Run. Quy trình làm việc riêng tư là quy trình làm việc tùy chỉnh, cho phép bạn sử dụng các tập lệnh tin sinh học riêng của mình được viết bằng các ngôn ngữ quy trình làm việc được sử dụng phổ biến nhất. Quy trình làm việc Ready2Run là quy trình tin sinh học được dựng sẵn dựa trên các phân tích trong ngành phổ biến, cho phép bạn bắt đầu nhanh chóng mà không cần viết mã. 

  • Các quy trình làm việc riêng của HealthOmics có thể được viết bằng Nextflow, WDL và CWL. Để biết thông tin phiên bản được hỗ trợ, hãy xem tài liệu.

  • HealthOmics cung cấp nhiều quy trình làm việc Ready2Run khác nhau, từ GATK và AlphaFold của Viện Broad đến quy trình làm việc từ các bên phát hành thứ ba như NVIDIA, Element Biosciences, Sentieon và Ultima. Bạn có thể xem danh sách đầy đủ các quy trình làm việc Ready2Run có sẵn tại đây.

  • Có, HealthOmics có thể chạy bioFM, chẳng hạn như NVIDIA NIM, AlphaFold và ESMFold. Bạn có thể điều phối nhiều bioFM trong một quy trình làm việc, mở khóa các quy trình khám phá thuốc trên quy mô lớn. Ví dụ: quy trình khám phá thuốc sử dụng các bioFM, hãy xem kho lưu trữ quy trình khám phá thuốc trên GitHub.

  • Để chạy quy trình làm việc riêng tư đầu tiên của mình, bạn cần một tập lệnh quy trình làm việc được viết bằng Nextflow, WDL hoặc CWL. Ngoài ra, tất cả các công cụ và thành phần phụ thuộc phải được đặt trong bộ chứa và lưu trữ trong kho lưu trữ ECR riêng. Dữ liệu đầu vào có thể được cung cấp trong S3 hoặc từ kho trình tự HealthOmics.

  • Bạn có thể quản lý tài nguyên quy trình làm việc riêng tư với các nhóm chạy quy trình. Nhóm chạy quy trình cho phép bạn kiểm soát các lần chạy đồng thời tối đa, thời lượng chạy tối đa, vCPU và GPU của các lần chạy được gán cho nhóm chạy quy trình. Ngoài ra, HealthOmics cung cấp các công cụ định kích thước phù hợp, chẳng hạn như Trình phân tích chạy, giúp bạn tối ưu hóa việc phân bổ tài nguyên của mình để cải thiện hiệu quả khi chạy. 

  • Các quy trình công việc riêng tư của HealthOmics cung cấp hai tùy chọn lưu trữ chạy: lưu trữ chạy tĩnh và lưu trữ chạy động. Với lưu trữ chạy tĩnh, một hệ thống tệp kích thước cố định được cung cấp khi bắt đầu chạy và được các tác vụ sử dụng để lưu trữ tệp trung gian trong quá trình chạy. Khi quá trình chạy hoàn tất, các đầu ra khi chạy được xuất sang S3 và hệ thống tệp được thu hồi. Lưu trữ chạy động tự động tăng và giảm quy mô theo nhu cầu lưu trữ của bạn trong suốt thời gian chạy và có thời gian cung cấp nhanh hơn. Lưu trữ chạy động được khuyên dùng cho các chu kỳ phát triển nhanh, lặp đi lặp lại và các quy trình chạy nhỏ và ngắn. Lưu trữ chạy tĩnh phù hợp với quy trình làm việc lớn. Nó cung cấp thông lượng hệ thống tệp cao hơn trên mỗi GiB và chi phí trên mỗi GiB thấp hơn so với lưu trữ chạy động.

  • Quy trình làm việc của HealthOmics cung cấp bản ghi theo thời gian thực cho CloudWatch trong quá trình chạy và các bản ghi bổ sung sau khi quá trình chạy hoàn tất. Bạn có thể sử dụng EventBridge để tạo cảnh báo tự động cho các điều kiện bạn xác định. 

  • Có, bạn có thể chia sẻ quy trình làm việc của HealthOmics với các tài khoản AWS khác nhau trong cùng một khu vực bằng cách sử dụng tính năng chia sẻ tài nguyên. Để chia sẻ quy trình làm việc, bạn cần ID tài khoản của tài khoản AWS mà bạn muốn chia sẻ. Thao tác chia sẻ quy trình làm việc sẽ gửi lời mời chia sẻ đến cho người nhận. Người nhận phải chấp nhận yêu cầu chia sẻ trước khi họ có thể chạy quy trình làm việc được chia sẻ. Chủ sở hữu quy trình làm việc có thể thu hồi quyền truy cập bất cứ lúc nào và người nhận không thể sửa đổi hoặc xóa quy trình làm việc được chia sẻ. 

  • Các tệp được sử dụng làm đầu vào để chạy từ S3 và kho trình tự HealthOmics được gán một ETag duy nhất để nhận dạng tệp, các bộ chứa được lưu trữ trong kho lưu trữ ECR riêng của bạn được gán một mã băm duy nhất và quy trình làm việc không thể thay đổi sau khi được tạo để đảm bảo khả năng tái tạo toàn diện các lần chạy. Mỗi lần chạy được gán một uuid duy nhất trên toàn cục và có thể được sử dụng để xác định mọi lần chạy duy nhất, kết quả chạy và nhật ký liên quan. Uuid này có thể được kết nối với hệ thống thông tin phòng thí nghiệm nội bộ (LIMS), máy tính xách tay trong phòng thí nghiệm điện tử (ELN) hoặc hệ thống quản lý mẫu để đáp ứng các yêu cầu truy xuất nguồn gốc và khả năng tái tạo lần chạy.  

  • Khách hàng có thể sử dụng quy trình làm việc và kho dữ liệu cùng nhau hoặc sử dụng chúng như các giải pháp độc lập. Quy trình làm việc của HealthOmics tương thích với S3 và kho tham chiếu và trình tự của HealthOmics. Kho tham chiếu và trình tự của HealthOmics có thể được sử dụng với quy trình làm việc của HealthOmics, Lô AWS và các giải pháp điện toán khác.

Lưu trữ dữ liệu

  • HealthOmics cung cấp hai loại kho lưu trữ dữ liệu: lưu trữ tập trung vào đối tượng và lưu trữ có thể truy vấn. Các kho lưu trữ tập trung vào đối tượng là kho tham chiếu và trình tự. Chúng được thiết kế để lưu trữ và sắp xếp các tệp phân tử một cách tiết kiệm chi phí. Các kho lưu trữ có thể truy vấn là kho lưu trữ chú thích và biến thể. Chúng được thiết kế để biến dữ liệu biến thể và chú thích thành một kho lưu trữ được tối ưu hóa để truy vấn và nhóm lại một cách tiết kiệm chi phí. Kết hợp cùng nhau, các kho này được thiết kế để mang đến khả năng lưu trữ mẫu FAIR (dễ tìm, dễ truy cập, có thể tương tác, tái sử dụng), truy vấn, nhóm thành tập hợp và truy xuất ở quy mô petabyte. 

  • Các kho lưu trữ dữ liệu của HealthOmics giúp tiết kiệm chi phí theo nhiều cách khác nhau. Kho trình tự sử dụng khả năng phân bậc và nén dựa theo mức sử dụng để giảm chi phí lưu trữ cho các đối tượng không được truy cập trong 30 ngày. Điều này có thể giúp tiết kiệm đáng kể so với việc lưu trữ đối tượng AWS truyền thống.

    Các kho biến thể và chú thích của HealthOmics là các kho chứa không ETL, vì vậy bạn chỉ trả tiền cho kho lưu trữ và dữ liệu được quét khi truy vấn. Tiết kiệm tiền thông qua việc loại bỏ chi phí ETL và tách rời dữ liệu biến thể và chú thích để không cần phải sao chép dữ liệu biến thể khi ta muốn thay đổi chú thích. Ngoài ra, vì các kho biến thể được phân vùng theo thông tin mẫu, các truy vấn dựa trên mẫu quét ít dữ liệu hơn dẫn đến tiết kiệm chi phí hạ nguồn hơn.

  • Mỗi kho lưu trữ dữ liệu được thiết kế cho các loại dữ liệu khác nhau. Các kho tham chiếu của HealthOmics hỗ trợ các tệp FASTA. Các kho trình tự của HealthOmics hỗ trợ các tệp FASTQ, uBAM, BAM và CRAM. Các kho biến thể hỗ trợ trích xuất dữ liệu từ các tệp VCF. Kho chú thích hỗ trợ trích xuất dữ liệu từ GFF, TSV, CSV, VCF.

  • Tổng khối lượng dữ liệu và số lượng đối tượng mà bạn có thể lưu trữ trong AWS HealthOmics gần như không có giới hạn. Mặc dù mỗi kho lưu trữ có hạn ngạch có thể điều chỉnh về kích thước và số lượng tệp được hỗ trợ, bạn có thể tiếp tục thêm các tệp khi cần thiết và khách hàng thường lưu trữ vài chục petabyte trong một kho lưu trữ.

  • Các kho dữ liệu của HealthOmics được xây dựng dựa trên độ bền và khả năng phục hồi của Amazon S3, bao gồm các đối tượng được lưu trữ dự phòng trên nhiều thiết bị và Vùng sẵn sàng trong một Khu vực AWS. Kho trình tự bảo tồn và giám sát danh tính ngữ nghĩa đối tượng đảm bảo rằng nội dung của tệp được bảo tồn trong suốt chu kỳ kích hoạt và lưu trữ.

  • Bạn có thể tích hợp trực tiếp các kho trình tự của HealthOmics với hầu hết các công cụ phân tích thông qua URI truy cập S3 cho các đối tượng hoặc sử dụng các công cụ đồng hành. Mỗi đối tượng được lưu trữ trong kho trình tự có một URI S3 duy nhất có thể được sử dụng để đọc đối tượng đó bằng hầu hết các hệ thống tương thích với S3. Nếu hệ thống yêu cầu giao diện dựa trên tệp, bạn có thể sử dụng Mountpoint dành cho S3 để tạo tập phục vụ cho việc đọc hoặc tiền tố kho trình tự có sẵn dưới dạng tệp được gắn để đọc. Nếu cần tùy chỉnh, bạn có thể tích hợp tiện ích bằng SDK của Amazon hoặc trình quản lý truyền của HealthOmics.

  • Kho trình tự của HealthOmics được thiết kế để lưu trữ dữ liệu phân tử tĩnh được truy cập định kỳ và thường xuyên. Kho trình tự có tích hợp tính năng nén và phân bậc, đồng thời có khả năng điều chỉnh quy mô đọc đối tượng được xây dựng trên S3, vì vậy nó phù hợp với dữ liệu ở mọi quy mô với các mức tần suất truy cập khác nhau, từ sử dụng hàng ngày đến hàng năm. Mỗi lần tải nhập sẽ tạo ra một tập phục vụ việc đọc mới và kho trình tự tính phí trong thời gian lưu trữ tối thiểu là 30 ngày, vì vậy giải pháp này không dành cho các tệp tạm thời, linh tinh hoặc cập nhật thường xuyên.

    Amazon S3 rất thích hợp để lưu trữ các tệp linh hoạt thay đổi thường xuyên, các tệp tồn tại trong thời gian ngắn và các tệp phi phân tử không đáp ứng các định dạng được hỗ trợ. Đối với các tệp cần được duy trì vì lý do lưu trữ dữ liệu và tuân thủ nhưng có nhu cầu truy cập cực thấp, Amazon S3 Glacier cung cấp các tùy chọn lưu trữ khác nhau.

Bảo mật & Quyền riêng tư