Panduan ini membantu pengguna menyiapkan data genomika, klinis, mutasi, ekspresi, serta pencitraan untuk analisis skala besar dan melakukan kueri interaktif terhadap danau data. Panduan ini juga mencakup otomatisasi infrastruktur sebagai kode (IaC), integrasi berkelanjutan dan pengiriman berkelanjutan (CI/CD) untuk iterasi cepat, jalur penyerapan untuk menyimpan dan mengubah data, serta notebook dan dasbor untuk analisis interaktif. Kami juga mendemonstrasikan cara varian genomika dan data anotasi disimpan dan dilakukan kueri menggunakan notebook AWS HealthOmics, Amazon Athena, dan Amazon SageMaker. Panduan ini dibuat dengan berkolaborasi dengan Bioteam.
Diagram Arsitektur
-
Arsitektur
-
CI/CD
-
Arsitektur
-
Langkah 1
Serap, format, dan buat katalog data dari The Cancer Genome Archive (TCGA). Data mentah diambil dari Registri Data Terbuka di AWS (RODA) melalui API TCGA. Data diubah dalam tugas extract, transform, and load (ETL) AWS Glue dan dikatalogkan oleh perayap AWS Glue. Sehingga data tersedia untuk kueri di Athena.Langkah 2
Data dari The Cancer Imaging Atlas (TCIA) diserap, diformat, dan dikatalogkan. Data mentah diambil dari RODA melalui API TCIA. Data diubah dalam tugas ETL AWS Glue dan dikatalogkan oleh Perayap AWS Glue. Lokasi citra dapat dilakukan kueri dan ditampilkan menggunakan Notebook SageMaker.
Langkah 3
Data VCF dari proyek Seribu Genom (One Thousand Genomes), sampel VCF, dan Anotasi ClinVar VCF diserap ke dalam Penyimpanan Varian dan Anotasi Amazon Omics dan tersedia sebagai tabel di Lake Formation.
Langkah 4
Ilmuwan penelitian menganalisis data multimodal melalui antarmuka visual di QuickSight. Data di-cache dalam basis data SPICE (Super-fast, Parallel, In-memory Calculation Engine), yang mengoptimalkan performa kueri.
Langkah 5
Ilmuwan data menganalisis data dengan kode menggunakan notebook Jupyter yang disediakan melalui lingkungan Notebook SageMaker.
-
CI/CD
-
Langkah 1
Buat proyek AWS CodeBuild yang berisi skrip setup.sh. Skrip ini membuat kode, repositori kode, tumpukan AWS CloudFormation yang tersisa.Langkah 2
Tumpukan zona landasan (zona) membuat repositori pipa AWS CodeCommit. Setelah tumpukan zona landasan (zone) menyelesaikan pengaturannya, skrip setup.sh mendorong kode sumber ke repositori pipa CodeCommit.Langkah 3
Tumpukan jalur (pipa) deployment membuat repositori kode CodeCommit, peristiwa Amazon CloudWatch, dan jalur kode AWS CodePipeline. Setelah tumpukan pipeline deployment (pipa) menyelesaikan pengaturannya, skrip setup.sh mendorong kode sumber ke repositori kode CodeCommit.
Langkah 4
Pipeline CodePipeline (kode) melakukan deployment tumpukan CloudFormation basis kode (genomika, pencitraan, dan omik). Setelah jalur CodePipeline menyelesaikan penyiapannya, sumber daya yang dilakukan deployment di akun Anda meliputi bucket Amazon Simple Storage Service (Amazon S3) untuk menyimpan log akses objek, artefak build, dan data dalam danau data Anda; repositori CodeCommit untuk kode sumber; proyek CodeBuild untuk membuat artefak kode; jalur CodePipeline untuk mengotomatiskan build dan deployment sumber daya; contoh tugas, perayap AWS Glue, dan katalog data; serta instans notebook Jupyter Amazon SageMaker.Penyimpanan Referensi, Penyimpanan Varian, dan Penyimpanan Anotasi Amazon Omics disediakan, dan file panggilan varian sampel (VCF), subset 1000 VCF genom, dan VCF Anotasi ClinVar diserap untuk analisis. Menggunakan AWS Lake Formation, Admin Danau data dapat mengaktifkan akses data di Penyimpanan Varian dan Anotasi Omik menggunakan Amazon Athena dan SageMaker. Penyimpanan Referensi, Penyimpanan Varian, dan Penyimpanan Anotasi Amazon Omics disediakan untuk menyimpan data varian dan anotasi yang tersedia untuk umum serta tersedia untuk kueri dan analisis.
Langkah 5
Tumpukan pencitraan membuat hyperlink ke mulai cepat CloudFormation, yang dapat diluncurkan untuk melakukan deployment tumpukan Amazon QuickSight. Tumpukan QuickSight membuat sumber daya Identity and Access Management (IAM) dan QuickSight yang diperlukan untuk menjelajahi set data multiomik secara interaktif.
Pilar Well-Architected
Kerangka Kerja AWS Well-Architected membantu Anda memahami keuntungan dan kerugian dari keputusan yang Anda buat saat membangun sistem di cloud. Enam pilar dari Kerangka Kerja ini memungkinkan Anda mempelajari praktik terbaik arsitektur untuk merancang dan mengoperasikan sistem yang andal, aman, efisien, hemat biaya, dan berkelanjutan. Dengan Alat AWS Well-Architected yang tersedia secara gratis di Konsol Manajemen AWS, Anda dapat meninjau beban kerja dan membandingkannya terhadap praktik terbaik ini dengan menjawab serangkaian pertanyaan untuk setiap pilar.
Diagram arsitektur di atas adalah contoh Solusi yang dibuat dengan mempertimbangkan praktik terbaik Well-Architected. Untuk menjadi Well-Architected sepenuhnya, Anda harus mengikuti praktik terbaik Well-Architected sebanyak mungkin.
-
Keunggulan Operasional
Panduan ini menggunakanCodeBuild dan CodePipeline untuk membangun, mengemas, dan melakukan deployment semua yang diperlukan dalam solusi untuk menyerap dan menyimpan File Panggilan Varian (VCF) serta bekerja dengan data multimodal dan multiomik dari set data di Atlas Genom Kanker (The Cancer Genome Atlas (TCGA)) dan Atlas Pencitraan Kanker (The Cancer Imaging Atlas (TCIA)). Analisis dan penyerapan data genomika nirserver ditampilkan menggunakan layanan terkelola penuh - Amazon Omics. Perubahan kode yang dibuat dalam repositori CodeCommitsolusi dengan dilakukan deployment melalui pipeline deployment CodePipeline yang disediakan.
-
Keamanan
Panduan ini menggunakan akses berbasis peran dengan IAM dan semua bucket yang sudah terenkripsi, bersifat privat, dan memblokir akses publik. Katalog data di AWS Glue sudah terenkripsi dan semua data meta yang ditulis oleh AWS Glue ke Amazon S3 juga terenkripsi. Semua peran ditentukan dengan hak akses paling rendah dan semua komunikasi di antara layanan tetap berada dalam akun pelanggan. Administrator dapat mengontrol notebook Jupyter, data Penyimpanan Varian Amazon Omics dan akses data Katalog AWS Glue terkelola penuh menggunakan Lake Formation, dan akses data Athena, Notebook SageMaker, dan Amazon QuickSight dikelola melalui peran IAM yang disediakan.
-
Keandalan
AWS Glue, Amazon S3, Amazon Omics, dan Athena semuanya bersifat nirserver dan akan menskalakan performa akses data saat volume data Anda meningkat. AWS Glue menyediakan, mengonfigurasi, dan menskalakan sumber daya yang diperlukan untuk menjalankan tugas integrasi data Anda. Athena bersifat nirserver sehingga Anda dapat dengan cepat melakukan kueri data Anda tanpa harus menyiapkan dan mengelola server atau gudang data apa pun. Penyimpanan dalam memori QuickSight SPICE akan menskalakan eksplorasi data Anda ke ribuan pengguna.
-
Efisiensi Performa
Dengan menggunakan teknologi nirserver, Anda hanya menyediakan sumber daya seperti yang Anda gunakan. Tiap tugas AWS Glue akan menyediakan klaster Spark sesuai permintaan untuk mengubah data dan menghilangkan penyediaan sumber daya saat selesai. Jika Anda memilih untuk menambahkan set data TCGA baru, Anda dapat menambahkan tugas AWS Glue baru dan perayap AWS Glue juga akan memprediksi sumber daya sesuai permintaan. Athena secara otomatis mengeksekusi kueri secara paralel sehingga sebagian besar hasilnya akan kembali dalam hitungan detik. Amazon Omics mengoptimalkan performa kueri varian dalam skala besar dengan mengubah file menjadi Apache Parquet.
-
Optimisasi Biaya
Dengan menggunakan teknologi nirserver yang sesuai permintaan, Anda hanya membayar sumber daya yang Anda gunakan. Untuk lebih mengoptimalkan biaya, Anda dapat menghentikan lingkungan notebook di SageMaker saat tidak digunakan. Dasbor QuickSight juga dilakukan deployment melalui templat CloudFormation terpisah, jadi jika Anda tidak bermaksud menggunakan dasbor visualisasi, Anda dapat memilih untuk tidak melakukan deployment untuk menghemat biaya. Amazon Omics mengoptimalkan biaya penyimpanan data varian dalam skala besar. Biaya kueri ditentukan berdasarkan jumlah data yang dipindai oleh Athena dan dapat dioptimalkan dengan menulis kueri yang sesuai.
-
Keberlanjutan
Dengan menggunakan layanan terkelola dan penskalaan dinamis secara ekstensif, Anda meminimalkan dampak lingkungan dari layanan backend. Komponen penting untuk keberlanjutan adalah memaksimalkan penggunaan instans server notebook. Anda harus menghentikan lingkungan notebook saat tidak digunakan.
Pertimbangan Tambahan
Transformasi Data
Arsitektur ini memilih AWS Glue untuk Extract, Transform, and Load (ETL) yang diperlukan untuk menyerap, menyiapkan, dan membuat katalog set data dalam solusi untuk kueri dan performa. Anda dapat menambahkan Tugas AWS Glue dan Perayap AWS Glue baru untuk menyerap set data Atlas Genom Kanker (The Cancer Genome Atlas (TCGA)) dan Atlas Citra Kanker (The Cancer Image Atlas (TCIA)) baru sesuai kebutuhan. Anda juga dapat menambahkan tugas dan perayap baru untuk menyerap, menyiapkan, dan membuat katalog set data milik Anda sendiri.
Analisis Data
Arsitektur ini memilih Notebook SageMaker untuk menyediakan lingkungan notebook Jupyter untuk analisis. Anda dapat menambahkan notebook baru ke lingkungan yang ada atau buat lingkungan baru. Jika Anda lebih memilih RStudio daripada notebook Jupyter, Anda dapat menggunakan RStudio di Amazon SageMaker.
Visualisasi Data
Arsitektur ini memilih QuickSight untuk menyediakan dasbor interaktif untuk visualisasi dan eksplorasi data. Dasbor QuickSight disiapkan melalui templat CloudFormation terpisah sehingga jika Anda tidak bermaksud menggunakan dasbor, Anda tidak perlu menyediakannya. Di QuickSight, Anda dapat membuat analisis sendiri, menjelajahi filter atau visualisasi tambahan, dan berbagi set data dan analisis dengan rekan kerja.
Sumber Daya Implementasi
Repositori ini membuat lingkungan yang dapat diskalakan di AWS untuk menyiapkan data genomika, klinis, mutasi, ekspresi, dan pencitraan untuk analisis skala besar dan melakukan kueri interaktif terhadap danau data. Solusi menunjukkan cara 1) menggunakan Penyimpanan Varian & Penyimpanan Anotasi HealthOmics untuk menyimpan data varian genomika dan data anotasi, 2) menyediakan jalur penyerapan data nirserver untuk persiapan dan pembuatan katalog data multimodal, 3) memvisualisasikan dan menjelajahi data klinis melalui antarmuka interaktif, serta 4) menjalankan kueri analitik interaktif terhadap danau data multimodal menggunakan Amazon Athena dan Amazon SageMaker.
Panduan terperinci disediakan untuk bereksperimen dan digunakan dalam akun AWS Anda. Setiap tahap pembuatan Panduan, termasuk deployment, penggunaan, dan pembersihan, diperiksa guna mempersiapkannya untuk deployment.
Kode sampel adalah titik awal. Kode sampel ini diivalidasi industri, bersifat preskriptif, tetapi tidak definitif, dan coba periksa kode sampel ini untuk memulai.
Konten Terkait
Panduan untuk Analisis Data Multimodal dengan Layanan AI dan ML Kesehatan di AWS
Kontributor
BioTeam adalah perusahaan konsultasi IT ilmu hayat yang memiliki misi untuk mempercepat penemuan ilmiah dengan menutup celah antara apa yang ingin para ilmuwan lakukan dengan data—dan apa yang dapat mereka lakukan. Bekerja di bidang seputar sains, data, dan teknologi sejak tahun 2002, BioTeam memiliki kemampuan interdisipliner untuk menerapkan strategi, teknologi canggih, dan layanan IT yang memecahkan masalah penelitian, teknis, dan operasional yang paling menantang. Terampil dalam menerjemahkan kebutuhan ilmiah ke dalam ekosistem data ilmiah yang kuat, kami bangga dengan kemampuan kami untuk bermitra dengan berbagai pemimpin dalam penelitian ilmu hayati, mulai dari perusahaan rintisan biotek hingga perusahaan farmasi global terbesar dan mulai dari lembaga pemerintah federal hingga lembaga penelitian akademik.
Penafian
Kode sampel; pustaka perangkat lunak; alat baris perintah; bukti konsep; templat; atau teknologi terkait lainnya (termasuk yang sebelumnya disediakan oleh personel kami) disediakan untuk Anda sebagai Konten AWS berdasarkan Perjanjian Pelanggan AWS, atau perjanjian tertulis yang relevan antara Anda dan AWS (mana saja yang berlaku). Anda tidak boleh menggunakan Konten AWS ini di akun produksi Anda, atau pada produksi atau data penting lainnya. Anda bertanggung jawab untuk menguji, mengamankan, dan mengoptimalkan Konten AWS, seperti kode sampel, yang sesuai untuk penggunaan tingkat produksi berdasarkan praktik dan standar kontrol kualitas spesifik Anda. Melakukan deployment Konten AWS mungkin dikenakan biaya AWS untuk membuat atau menggunakan sumber daya AWS berbayar, seperti menjalankan instans Amazon EC2 atau menggunakan penyimpanan Amazon S3.
Referensi ke layanan atau organisasi pihak ketiga dalam Panduan ini tidak menyiratkan dukungan, sponsor, atau afiliasi antara Amazon atau AWS dan pihak ketiga. Panduan dari AWS adalah titik awal teknis, dan Anda dapat menyesuaikan integrasi Anda dengan layanan pihak ketiga saat melakukan deployment arsitektur.