1000 個基因體專案是一個國際協作專案,該專案建立了最詳盡的人類遺傳變異目錄,包含 SNP、結構性變異及其單型內容。專案的最後階段為全球來自 26 個不同種族、超過 2500 人進行基因定序,並從這些個體產生了包含超過 8 千萬種基因變異的定相單體型全面資料。
Amazon 鏡像包含專案的完整資料集,您可以在下列位置找到這些資料:s3.amazonaws.com/1000genomes。
如需詳細資訊,請瀏覽 http://www.1000genomes.org。如果有任何問題,請傳送電子郵件到 info@1000genomes.org。
AWS 將 1000 個基因體專案的資料免費公開提供給社群使用。AWS 上的公用資料集提供一個在 Amazon Simple Storage Service (Amazon S3) 上託管的集中化公用資料儲存庫。資料可從 Amazon Elastic Compute Cloud (Amazon EC2) 和 Amazon Elastic MapReduce (Amazon EMR) 等 AWS 服務進行無縫存取,為組織提供利用這些大型資料集合所需的可高度擴展運算資源。AWS 是以免費提供給社群使用的方式來存放這些公用資料集。只有當研究人員需要進一步處理或分析資料時,才必須針對額外的 AWS 資源支付費用。進一步了解 AWS 上的公用資料集。
最新的 1000 個基因體專案資料在 1000genomes Amazon S3 儲存貯體公開提供。
您可以透過簡單的 HTTP 請求存取此資料,或者利用 Ruby、Java、Python、.NET 和 PHP 等語言的 AWS 開發套件。
研究人員可使用 Amazon EC2 公用運算服務深入了解此資料,無須一般處理這種資料規模時的資本投入。AWS 還提供數種協調和自動化服務,以協助團隊公佈研究成果,讓其他人重新混合搭配及重複使用。
透過 Amazon S3 儲存貯體提供資料也代表客戶可透過 Amazon Elastic MapReduce 使用 Hadoop 處理資訊,並利用持續增加的工具集合執行生物資訊學任務流程,例如 CloudBurst 和 Crossbow。
NIH 美國國家生物技術資訊中心 (NCBI) 是 NIH 美國國家醫學圖書館的一個部門:
- ftp://ftp-trace.ncbi.nlm.nih.gov/1000genomes
- ftp6.ncbi.nlm.nih.gov (適用於 IPv6 存取)
- 1000 Genomes:NCBI/NLM/NIH (透過 Aspera)
歐洲生物資訊研究所 (EMBL-EBI),以及來自惠康基金的支援:
教育工作者、研究人員和學生可申請免費積分,以利用 AWS 提供的公用運算平台,以及如 1000 個基因體專案資料這類的公用資料集。如果您正在進行基因體研討會,或您的研究專案可利用託管的 1000 個基因體資料集,則可申請 AWS 贊助。