เวิร์กโฟลว์

  • HealthOmics มีเวิร์กโฟลว์สองประเภท ได้แก่ เวิร์กโฟลว์ส่วนตัวและเวิร์กโฟลว์ Ready2Run เวิร์กโฟลว์ส่วนตัวเป็นเวิร์กโฟลว์ที่ช่วยให้คุณสามารถนำสคริปต์ชีวสารสนเทศของตนเองที่เขียนด้วยภาษาเวิร์กโฟลว์ที่ใช้กันทั่วไปที่สุดมาใช้ได้ เวิร์กโฟลว์ Ready2Run เป็นไปป์ไลน์ชีวสารสนเทศที่สร้างไว้ล่วงหน้าโดยอิงจากข้อมูลการวิเคราะห์อุตสาหกรรมทั่วไป ซึ่งช่วยให้คุณสามารถเริ่มต้นได้อย่างรวดเร็วโดยไม่ต้องเขียนโค้ดเอง 

  • สามารถเขียนเวิร์กโฟลว์ส่วนตัวของ HealthOmics ได้ในแบบ Nextflow, WDL และ CWL สำหรับข้อมูลเวอร์ชันที่รองรับ โปรดดูเอกสารประกอบ

  • HealthOmics มีเวิร์กโฟลว์ Ready2Run ที่หลากหลาย ตั้งแต่ GATK และ AlphaFold ของ Broad Institute ไปจนถึงเวิร์กโฟลว์จากผู้เผยแพร่บุคคลที่สาม เช่น NVIDIA, Element Biosciences, Sentieon และ Ultima คุณสามารถดูรายการเวิร์กโฟลว์ Ready2Run ทั้งหมดที่มีอยู่ได้ที่นี่

  • ได้ HealthOmics สามารถเรียกใช้ bioFM ได้ เช่น NVIDIA NIM, AlphaFold และ ESMFold ได้ คุณสามารถประสาน bioFM หลายรายการภายในเวิร์กโฟลว์เพื่อปลดล็อกไปป์ไลน์การค้นคว้ายาในวงกว้างได้ ตัวอย่างเช่น ขั้นตอนการทำงานการค้นคว้ายาที่ใช้ bioFM โปรดดูพื้นที่เก็บข้อมูลเวิร์กโฟลว์การค้นคว้ายาได้บน GitHub

  • หากต้องการเรียกใช้เวิร์กโฟลว์ส่วนตัวแรกของคุณ คุณจะต้องมีสคริปต์เวิร์กโฟลว์ที่เขียนในแบบ Nextflow, WDL หรือ CWL นอกจากนี้ เครื่องมือและการทำงานร่วมกันทั้งหมดจะถูกจัดเก็บและจัดเก็บไว้ในที่เก็บ ECR ส่วนตัว สามารถระบุข้อมูลอินพุตได้ใน S3 หรือจากที่เก็บลำดับ HealthOmics

  • คุณสามารถจัดการทรัพยากรเวิร์กโฟลว์ส่วนตัวด้วยใช้ Run Group Run Group ช่วยให้คุณควบคุมการเรียกใช้งานพร้อมกันสูงสุด ระยะเวลาการวิ่งสูงสุด vCPU และ GPU ของการวิ่งที่กำหนดให้กับ Run Group นอกจากนี้ HealthOmics ยังมีเครื่องมือกำหนดสิทธิ์ เช่น Run Analyzer ที่ช่วยให้คุณเพิ่มประสิทธิภาพการจัดสรรทรัพยากรของคุณเพื่อปรับปรุงประสิทธิภาพการทำงานอีกด้วย 

  • เวิร์กโฟลว์ส่วนตัวของ HealthOmics มีตัวเลือกพื้นที่เก็บข้อมูลการใช้งานสองตัวเลือก ได้แก่ พื้นที่เก็บข้อมูลการใช้งานแบบคงที่และพื้นที่เก็บข้อมูลการใช้งานไดนามิก ด้วยพื้นที่เก็บข้อมูลการใช้งานแบบคงที่ ระบบไฟล์ขนาดคงที่จะถูกจัดเตรียมเมื่อเริ่มต้นการทำงาน และถูกใช้โดยงานสำหรับการจัดเก็บไฟล์ระดับกลางในระหว่างการเรียกใช้ เมื่อเสร็จสิ้นการเรียกใช้งาน เอาต์พุตการเรียกใช้งานจะถูกส่งออกไปยัง S3 และจะมีการยกเลิกการจัดเตรียมระบบไฟล์ พื้นที่เก็บข้อมูลการใช้งานไดนามิกจะปรับขนาดขึ้นและลงโดยอัตโนมัติตามความต้องการพื้นที่จัดเก็บข้อมูลของคุณตลอดระยะเวลาการทำงานและให้เวลาการจัดเตรียมที่เร็วขึ้น ขอแนะนำให้ใช้พื้นที่เก็บข้อมูลการใช้งานไดนามิกสำหรับรอบการพัฒนาที่รวดเร็วและทำซ้ำและไปป์ไลน์ขนาดเล็กที่ทำงานระยะสั้น พื้นที่เก็บข้อมูลการใช้งานแบบคงที่เหมาะสำหรับเวิร์กโฟลว์ขนาดใหญ่ โดยจะมีอัตราการโอนถ่ายข้อมูลระบบไฟล์ที่สูงกว่าต่อ GiB และมีค่าใช้จ่ายต่อ GiB ที่ต่ำกว่าพื้นที่เก็บข้อมูลการใช้งานแบบไดนามิก

  • เวิร์กโฟลว์ HealthOmics จะส่งบันทึกแบบเรียลไทม์ไปยัง CloudWatch ระหว่างการเรียกใช้งานและบันทึกเพิ่มเติมหลังจากเสร็จสิ้นเรียกใช้งาน คุณสามารถใช้ EventBridge เพื่อสร้างการแจ้งเตือนอัตโนมัติสำหรับเงื่อนไขที่คุณกำหนดได้ 

  • ใช่ คุณสามารถแชร์เวิร์กโฟลว์ HealthOmics กับบัญชี AWS ที่แตกต่างกันในรีเจี้ยนเดียวกันได้โดยใช้ฟีเจอร์การแชร์ทรัพยากร หากต้องการแชร์เวิร์กโฟลว์ คุณจะต้องมี ID บัญชีของบัญชี AWS ที่คุณต้องการแชร์ การแชร์เวิร์กโฟลว์จะส่งคำเชิญการแชร์ไปยังผู้รับ ผู้รับต้องยอมรับคำขอแชร์ก่อนจึงจะสามารถเรียกใช้เวิร์กโฟลว์ที่แชร์ได้ เจ้าของเวิร์กโฟลว์สามารถเพิกถอนการเข้าถึงได้ตลอดเวลา และผู้รับไม่สามารถแก้ไขหรือลบเวิร์กโฟลว์ที่แชร์ได้ 

  • ไฟล์ที่ใช้เป็นอินพุตการเรียกใช้งานจาก S3 และที่เก็บลำดับ HealthOmics จะได้รับ ETag ที่ไม่ซ้ำกันสำหรับการระบุไฟล์ คอนเทนเนอร์ที่จัดเก็บไว้ในพื้นที่เก็บข้อมูล ECR ส่วนตัวของคุณจะได้รับแฮชแบบเฉพาะ และเวิร์กโฟลว์จะไม่เปลี่ยนแปลงหลังจากสร้างขึ้นเพื่อให้แน่ใจว่าสามารถทำซ้ำได้อย่างสมบูรณ์ การเรียกใช้งานทุกครั้งจะได้รับการกำหนด uuid ที่ไม่ซ้ำกันทั่วโลก ซึ่งสามารถใช้เพื่อระบุการเรียกใช้งานที่ไม่ซ้ำกัน ผลลัพธ์การเรียกใช้งาน และข้อมูลบันทึกที่เกี่ยวข้อง uuid นี้สามารถเชื่อมต่อกับระบบข้อมูลห้องปฏิบัติการภายใน (LIMS) โน้ตบุ๊กห้องปฏิบัติการอิเล็กทรอนิกส์ (ELN) หรือระบบการจัดการตัวอย่างเพื่อให้เป็นไปตามข้อกำหนดในการตรวจสอบย้อนกลับและดำเนินการตามข้อกำหนดด้านความสามารถในการทำซ้ำ  

  • ลูกค้าสามารถใช้เวิร์กโฟลว์และการจัดเก็บข้อมูลร่วมกันหรือเป็นโซลูชันแบบสแตนด์อโลนได้ เวิร์กโฟลว์ HealthOmics สามารถทำงานร่วมกันได้กับ S3 และลำดับ HealthOmics และพื้นที่เก็บข้อมูลอ้างอิง สามารถใช้ลำดับ HealthOmics และพื้นที่เก็บข้อมูลอ้างอิงกับเวิร์กโฟลว์ HealthOmics, AWS Batch และโซลูชันการประมวลผลอื่นๆ ได้

พื้นที่จัดเก็บข้อมูล

  • HealthOmics มีพื้นที่จัดเก็บข้อมูลสองประเภท ได้แก่ พื้นที่จัดเก็บข้อมูลที่เน้นอ็อบเจกต์และพื้นที่จัดเก็บข้อมูลที่สามารถสืบค้นได้ พื้นที่จัดเก็บข้อมูลที่เน้นอ็อบเจกต์คือพื้นที่เก็บข้อมูลอ้างอิงและลำดับ ได้รับการออกแบบมาเพื่อการจัดเก็บและจัดระเบียบไฟล์โมเลกุลอย่างคุ้มค่า พื้นที่จัดเก็บข้อมูลที่สามารถสืบค้นได้คือพื้นที่จัดเก็บข้อมูลแบบแปรผันและเป็นที่เก็บคำอธิบายประกอบ โดยได้รับการออกแบบมาเพื่อเปลี่ยนข้อมูลรูปแบบและคำอธิบายประกอบให้กลายเป็นพื้นที่เก็บข้อมูลที่ได้รับการปรับปรุงประสิทธิภาพสำหรับการสืบค้นและการจัดกลุ่มตามรุ่น พื้นที่จัดเก็บข้อมูลเหล่านี้ได้รับการออกแบบเพื่อส่งมอบพื้นที่จัดเก็บข้อมูลตัวอย่าง FAIR (Findable, Accessible, Interoperable, Reusable) (ค้นหาได้ เข้าถึงได้ ใช้งานร่วมกันได้ และนำกลับมาใช้ใหม่ได้) การสืบค้น การจัดกลุ่ม และการดึงข้อมูลในระดับเพตะไบต์ 

  • ที่เก็บข้อมูล HealthOmics สามารถช่วยประหยัดได้หลายวิธี พื้นที่จัดเก็บข้อมูลเป็นลำดับจะใช้การจัดระดับและการบีบอัดที่ขับเคลื่อนโดยการใช้งานเพื่อลดต้นทุนพื้นที่จัดเก็บข้อมูลสำหรับอ็อบเจกต์ที่ไม่มีการเข้าถึงเป็นเวลา 30 วัน ซึ่งสามารถทำให้ประหยัดได้อย่างมากเมื่อเทียบกับพื้นที่จัดเก็บอ็อบเจกต์ AWS แบบเดิม

    พื้นที่จัดเก็บข้อมูลแบบแปรผันและคำอธิบายประกอบของ HealthOmics เป็นพื้นที่จัดเก็บข้อมูล ETL แบบไร้รอยต่อ ดังนั้นคุณจะจ่ายเฉพาะพื้นที่จัดเก็บและข้อมูลที่สแกนเมื่อทำการสืบค้นเท่านั้น วิธีหลักในการประหยัดเงินคือการขจัดความจำเป็นในการใช้ ETL และแยกข้อมูลรูปแบบและคำอธิบายประกอบ เพื่อให้การเปลี่ยนแปลงคำอธิบายประกอบไม่จำเป็นต้องทำซ้ำข้อมูลรูปแบบ นอกจากนี้ เนื่องจากพื้นที่จัดเก็บข้อมูลรูปแบบต่างๆ ถูกแบ่งพาร์ติชันตามข้อมูลตัวอย่าง การสืบค้นตามตัวอย่างจะสแกนข้อมูลน้อยลง ซึ่งนำไปสู่การประหยัดต้นทุนในดาวน์สตรีมเพิ่มเติม

  • พื้นที่จัดเก็บข้อมูลแต่ละแห่งได้รับการออกแบบสำหรับประเภทข้อมูลที่แตกต่างกัน พื้นที่จัดเก็บข้อมูลอ้างอิง HealthOmics รองรับไฟล์ FASTA พื้นที่จัดเก็บข้อมูลแบบลำดับ HealthOmics รองรับไฟล์ FASTQ, uBAM, BAM และ CRAM พื้นที่จัดเก็บข้อมูลรูปแบบต่างๆ รองรับการแยกข้อมูลจากไฟล์ VCF พื้นที่จัดเก็บข้อมูลคำอธิบายประกอบรองรับการแยกข้อมูลจาก GFF, TSV, CSV, VCF

  • ปริมาณข้อมูลทั้งหมดและจำนวนอ็อบเจกต์ที่คุณสามารถจัดเก็บได้ใน AWS HealthOmics นั้นมีจำนวนแทบจะไม่จำกัด แม้ว่าพื้นที่จัดเก็บข้อมูลแต่ละแห่งจะมีโควตาที่ปรับเปลี่ยนได้สำหรับขนาดไฟล์และจำนวนไฟล์ที่รองรับ แต่คุณสามารถเพิ่มไฟล์ต่อไปได้ตามต้องการ โดยลูกค้าจะจัดเก็บในพื้นที่จัดเก็บข้อมูลขนาด 10 เพตะไบต์เป็นประจำ

  • พื้นที่จัดเก็บข้อมูล HealthOmics สร้างขึ้นโดยมีความทนทานและความยืดหยุ่นของ Amazon S3 ซึ่งรวมถึงอ็อบเจกต์ที่จัดเก็บซ้ำซ้อนบนอุปกรณ์หลายเครื่องและ Availability Zone ใน AWS Region พื้นที่จัดเก็บข้อมูลแบบลำดับจะรักษาและตรวจสอบเอกลักษณ์เชิงความหมายของอ็อบเจกต์ เพื่อให้มั่นใจว่าเนื้อหาของไฟล์จะถูกเก็บรักษาไว้ตลอดรอบการเปิดใช้งานและการเก็บถาวร

  • พื้นที่จัดเก็บข้อมูลแบบลำดับของ HealthOmics สามารถผสานการทำงานร่วมกับเครื่องมือวิเคราะห์ส่วนใหญ่ได้โดยตรงผ่าน URI การเข้าถึง S3 สำหรับอ็อบเจกต์หรือใช้เครื่องมือคู่กัน แต่ละอ็อบเจกต์ที่จัดเก็บไว้ในที่เก็บลำดับมี S3 URI ที่ไม่ซ้ำกันซึ่งสามารถใช้เพื่ออ่านโดยใช้ระบบที่เข้ากันได้กับ S3 ส่วนใหญ่ หากระบบต้องการอินเทอร์เฟซแบบไฟล์ คุณสามารถใช้ Mountpoint สำหรับ S3 เพื่อสร้างชุดการอ่านหรือคำนำหน้าพื้นที่จัดเก็บข้อมูลแบบลำดับที่พร้อมใช้งานเป็นไฟล์ที่เมาท์สำหรับการอ่าน หากจำเป็นต้องมีการปรับแต่งก็สามารถผสานการทำงานได้โดยใช้ SDK ของ Amazon หรือ HealthOmics Transfer Manager

  • พื้นที่จัดเก็บข้อมูลแบบลำดับของ HealthOmics ได้รับการออกแบบมาสำหรับการจัดเก็บข้อมูลโมเลกุลแบบคงที่ซึ่งเข้าถึงได้เป็นระยะๆ และบ่อยครั้ง พื้นที่จัดเก็บข้อมูลแบบลำดับมีการบีบอัดและการจัดระดับในตัว ขณะเดียวกันก็มีการปรับขนาดการอ่านอ็อบเจกต์บน S3 ดังนั้นจึงเหมาะสำหรับข้อมูลทุกขนาดที่มีความถี่ในการเข้าถึงระดับต่างๆ ตั้งแต่การใช้งานรายวันไปจนถึงรายปี การนำเข้าแต่ละครั้งจะสร้างชุดการอ่านใหม่ และจะมีการเรียกเก็บเงินการจัดเก็บลำดับตามระยะเวลาการจัดเก็บขั้นต่ำ 30 วัน ดังนั้นจึงไม่ได้มีไว้สำหรับไฟล์ชั่วคราว ไฟล์เริ่มต้น หรือไฟล์ที่อัปเดตบ่อยครั้ง

    Amazon S3 เหมาะอย่างยิ่งสำหรับไฟล์แบบไดนามิกที่เปลี่ยนแปลงบ่อย ไฟล์ที่มีอายุสั้น และสำหรับไฟล์ที่ไม่ใช่โมเลกุลซึ่งไม่ตรงตามรูปแบบที่รองรับ Amazon S3 Glacier มีตัวเลือกพื้นที่จัดเก็บข้อมูลที่แตกต่างกันสำหรับไฟล์ที่ต้องได้รับการบำรุงรักษาเพื่อเหตุผลด้านการเก็บข้อมูลและการปฏิบัติตามข้อกำหนด แต่มีความต้องการการเข้าถึงที่ต่ำมาก

ความปลอดภัยและความเป็นส่วนตัว