COVID-19 の研究と開発のためのパブリックデータレイク

AWS COVID-19 データレイクは、新型コロナウイルス (SARS-CoV-2) の感染と特徴に着目する、最新かつキュレーションされたデータセットの一元化されたリポジトリです。このデータレイクには、分析のために誰もがすぐに使用できる、一般閲覧が可能な事前処理およびキュレーションされたデータが含まれており、これらの多くが AWS Data Exchange から調達されています。

AWS クラウドでホストされるキュレーション済みのデータレイクには、ニューヨークタイムズから得た COVID-19 事例追跡データ、COVID 追跡プロジェクトから得た COVID-19 テストデータ、Definitive Healthcare から得た病院用ベッドの可用性、Delphi Research Group から得た健康調査データ、および Allen Institute for AI の COVID-19 および関連するコロナウイルスについての 45,000 件を超える記事から得た有用なデータセットが含まれています。データセットの新しいバージョンが公開され、他の信頼できるソースが利用可能になったら、データレイクを更新します。

組織や個人がこのデータを使用して COVID-19 との闘いに役立てることを願っています。たとえば、地方の保健当局はダッシュボードを構築して、病気の拡散を追跡しながら、病院用ベッドや人工呼吸器などの重要なリソースを効率的にデプロイできます。疫学者はこれを使用して、既存のモデルとデータセットを補完し、テストの可用性や人口規模と密度などのホットスポットと傾向についてより良い予測を生成できます。

このデータを機械が読み込める形式でサブスクライブしたり、パブリックデータレイクのデータセットを提供したりすることにご興味がある場合は、AWS Data Exchange ページにアクセスしてください。AWS Diagnostic Development Initiative (DDI) を介して診断研究プロジェクトの資金を申請することもできます。

料金

このデータは、Amazon S3 で無料でホストされています。S3のデータをリクエストする際の通常料金は、パブリックデータレイクバケットでは無効になっているため、費用はかかりません。ただし、Amazon Athena など、データレイクの分析に使用するサービスには標準料金がかかります。

開始方法

AWS COVID-19 データレイクからのデータを AWS アカウントで利用できるようにするには、次の Amazon CloudFormation テンプレートを使用してデータカタログにデータを入力します。AWS アカウントにサインインしている場合は、次のリンクでスタック作成フォームをほとんどご記入ください。(スタックを作成) を選択するだけで充分です。CloudFormation スタックの作成手順については、CloudFormation ドキュメントの入門ガイドを参照してください。このテンプレートは、データカタログに covid-19 データベースを作成し、パブリック AWS COVID-19 データレイクを指すテーブルを作成します。

AWS Glue データカタログでそのデータの定義をセットアップし、Amazon Athena でクエリする方法については、このブログ記事をお読みになって、ステップバイステップの指示通り実行してください。 データレイクについての質問がおありですか? aws-covid-19-data-lake@amazon.com にお問い合わせください。

データカタログ

次の表に、データレイクでホストされているデータの概要を示します。

米国の州によるワクチンの割り当て

このデータセットトラックは、米国州ごとのワクチン割り当てに関する情報を提供します。

テーブル名

説明

送信元

プロバイダー

更新

cdc_pfizer_vaccine_distribution

ファイザー/BioNTech ワクチンの配布に関するデータ

CDC

rearc

毎日

cdc_moderna_vaccine_distribution モデルナワクチンの配布に関するデータ
世界の予防接種データ

テーブル名

説明

送信元/プロバイダー

更新

owid_world_vaccinations

このデータセットには、国ごとに分類された COVID-19 ワクチン接種に関するデータが含まれています。

データから読み取る世界

毎日

owid_us_state_vaccinations このデータセットには、米国の州ごとに分類された COVID-19 ワクチン接種に関するデータが含まれています。
owid_world_vaccinations_by_manufacturer このデータセットには、国と製造元ごとに分類された COVID-19 ワクチン接種に関するデータが含まれています。
COVID-19 の世界で確認された症例、死亡、検査

テーブル名

説明

送信元

プロバイダー

更新

world_cases_deaths_testing

このデータセットには、確認された症例、死亡、検査が含まれています。

複数

rearc

毎日

米国コロナウイルス (COVID-19) の症例

このデータセットは、米国で確認された症例と死亡について州別と郡別に追跡します。

テーブル名

説明

送信元

プロバイダー

更新

nytimes_states

米国の州レベルでの COVID-19 症例に関するデータ

ニューヨークタイムズ

Rearc

毎日

nytimes_counties

米国の郡レベルでの COVID-19 症例に関するデータ
コロナウイルス病 (COVID-19) 試験データ

このデータセットは、COVID-19 の完了したテスト、保留中のテスト、ポジティブテストとネガティブテストの数を追跡します。

テーブル名

説明

送信元

プロバイダー

更新

covid_testing_states_daily

米国州別テストの日別傾向の合計 

 

COVID 追跡プロジェクト

 

Rearc

毎日

covid_testing_us_daily

米国テストの日別傾向の合計

covid_testing_us_total

米国テストの合計
米国の病院用ベッド

テーブル名

説明

送信元

プロバイダー

更新

hospital_beds

米国の病院用ベッドとその利用に関するデータ

Definitive Healthcare

Rearc

毎日

CORD19 オープンリサーチデータセットの課題

これは、COVID-19、SARS-CoV-2、および関連するコロナウイルスについての 45,000 件以上の研究記事 (33,000 件以上の全文) のコレクションです。Amazon Comprehend Medical から抽出した注釈を使用して、データの前処理と強化を行いました。Amazon Comprehend Medical の詳細については、こちらをクリックしてください。

テーブル名

説明

送信元/プロバイダー

更新

alleninstitute_metadata

CORD-19 の研究課題データセットから抜粋した論文のメタデータ。'sha' 列は、レイクペーパーのファイル名であるペーパー ID を示します。

Allen Institute for AI

毎週
alleninstitute_comprehend_medical Amazon Comprehend Medical の結果は、CORD-19 研究課題データセットと比較して実行されます。 AWS
COVIDcast (COVID-19) 疫学データ

Delphi の COVIDcast データセットは、CMU が実行する Facebook 健康調査、Google が運営する健康調査、Quidel Inc が提供するラボテスト結果、Google Health Trends がリリースした検索データ、全国的な医療制度によって提供される外来医の訪問診察など、さまざまなデータソースに基づいています。

テーブル名

説明

送信元

プロバイダー

更新

covidcast_data

CMU Delphi の COVID-19 監視データ

Delphi Research Group (CMU)

Rearc

毎日

covidcast_metadata

CMU Delphi の COVID-19 監視メタデータ

Tableau COVID-19 Data Hub

テーブル名

説明

送信元

プロバイダー

更新

tableau_covid_datahub

このデータセットには、New York Times や European CDC を含む信頼されたソースから集計されたコロナウイルス (COVID-19) データが含まれます。

NYT

ECDC

Tableau

毎日

COVID-19 郡と病院の予測モデル

UC バークレーの Yu グループは、個々の郡と病院の両方で COVID-19 流行の深刻度を予測するのに役立っています。

テーブル名

説明

送信元

プロバイダー

更新

prediction_models_severity_index

深刻度インデックスモデル

UC バークレーの Yu グループ

Rearc

毎日

prediction_models_county_predictions

郡レベルの予測データ

CORD19 ナレッジグラフ

Allen Institute CORD-19 データセットから作成されたグラフ構造化データセットです。これには、紙のメタデータ自体に、および Comprehend Medical から抽出した注釈に、接続するグラフネットワークを構成するノードとエッジのセットが含まれています。

テーブル名

説明

送信元/プロバイダー

更新

covid_knowledge_graph_nodes_concept

Comprehend Medical から動的に生成された出力に基づくノード

AWS

毎週

covid_knowledge_graph_nodes_institution

加盟校ノード

covid_knowledge_graph_nodes_author

筆者ノード

covid_knowledge_graph_nodes_paper

ペーパーノード

covid_knowledge_graph_nodes_topic

カスタムオントロジーに基づくトピックノード

covid_knowledge_graph_edges

さまざまなノードを接続するエッジ

毎日のグローバルおよび米国COVID-19 の症例と検査データ

Our World in Data、The New York Times、COVID 追跡プロジェクトから得た COVID-19 データの集約。

テーブル名

説明

送信元/プロバイダー

更新

enigma_aggregation_global

すべての地域を組み合わせる

Enigma

毎日

enigma_aggregation_global_countries

国レベルのみ

enigma_aggregation_us_states

米国の州のみ

enigma_aggregation_us_counties

米国の郡のみ

AspireVC Clio Go 接触者追跡データ

テーブル名

説明

送信元/プロバイダー

更新

aspirevc_crowd_tracing

AspireVC から得た接触者追跡データ

AspireVC

毎日

aspirevc_crowd_tracing_zipcode_3digits

状態検索のための郵便番号

AspireVC
COVID-19 英国データ

テーブル名

説明

送信元/プロバイダー

更新

uk_covid

英国の症例と検査データ

英国政府

毎日

視覚化をサポートするためのルックアップテーブル

テーブル名

説明

country_codes

国コードのルックアップテーブル

county_populations

最近の国勢調査データに基づく各郡人口のルックアップテーブル

us_state_abbreviations

米国州別略語の参照表