COVID-19 の研究と開発のためのパブリックデータレイク
AWS COVID-19 データレイクは、新型コロナウイルス (SARS-CoV-2) の感染と特徴に着目する、最新かつキュレーションされたデータセットの一元化されたリポジトリです。このデータレイクには、分析のために誰もがすぐに使用できる、一般閲覧が可能な事前処理およびキュレーションされたデータが含まれており、これらの多くが AWS Data Exchange から調達されています。
AWS クラウドでホストされるキュレーション済みのデータレイクには、ニューヨークタイムズから得た COVID-19 事例追跡データ、COVID 追跡プロジェクトから得た COVID-19 テストデータ、Definitive Healthcare から得た病院用ベッドの可用性、Delphi Research Group から得た健康調査データ、および Allen Institute for AI の COVID-19 および関連するコロナウイルスについての 45,000 件を超える記事から得た有用なデータセットが含まれています。データセットの新しいバージョンが公開され、他の信頼できるソースが利用可能になったら、データレイクを更新します。
組織や個人がこのデータを使用して COVID-19 との闘いに役立てることを願っています。たとえば、地方の保健当局はダッシュボードを構築して、病気の拡散を追跡しながら、病院用ベッドや人工呼吸器などの重要なリソースを効率的にデプロイできます。疫学者はこれを使用して、既存のモデルとデータセットを補完し、テストの可用性や人口規模と密度などのホットスポットと傾向についてより良い予測を生成できます。
このデータを機械が読み込める形式でサブスクライブしたり、パブリックデータレイクのデータセットを提供したりすることにご興味がある場合は、AWS Data Exchange ページにアクセスしてください。AWS Diagnostic Development Initiative (DDI) を介して診断研究プロジェクトの資金を申請することもできます。
料金
このデータは、Amazon S3 で無料でホストされています。S3のデータをリクエストする際の通常料金は、パブリックデータレイクバケットでは無効になっているため、費用はかかりません。ただし、Amazon Athena など、データレイクの分析に使用するサービスには標準料金がかかります。
開始方法
AWS COVID-19 データレイクからのデータを AWS アカウントで利用できるようにするには、次の Amazon CloudFormation テンプレートを使用してデータカタログにデータを入力します。AWS アカウントにサインインしている場合は、次のリンクでスタック作成フォームをほとんどご記入ください。(スタックを作成) を選択するだけで充分です。CloudFormation スタックの作成手順については、CloudFormation ドキュメントの入門ガイドを参照してください。このテンプレートは、データカタログに covid-19 データベースを作成し、パブリック AWS COVID-19 データレイクを指すテーブルを作成します。
AWS Glue データカタログでそのデータの定義をセットアップし、Amazon Athena でクエリする方法については、このブログ記事をお読みになって、ステップバイステップの指示通り実行してください。 データレイクについての質問がおありですか? aws-covid-19-data-lake@amazon.com にお問い合わせください。
データカタログ
次の表に、データレイクでホストされているデータの概要を示します。
このデータセットトラックは、米国州ごとのワクチン割り当てに関する情報を提供します。
テーブル名 |
説明 |
送信元 |
プロバイダー |
更新 |
---|---|---|---|---|
cdc_pfizer_vaccine_distribution |
ファイザー/BioNTech ワクチンの配布に関するデータ |
CDC |
rearc |
毎日 |
cdc_moderna_vaccine_distribution | モデルナワクチンの配布に関するデータ |
テーブル名 |
説明 |
送信元/プロバイダー |
更新 |
---|---|---|---|
owid_world_vaccinations |
このデータセットには、国ごとに分類された COVID-19 ワクチン接種に関するデータが含まれています。 |
データから読み取る世界 |
毎日 |
owid_us_state_vaccinations | このデータセットには、米国の州ごとに分類された COVID-19 ワクチン接種に関するデータが含まれています。 | ||
owid_world_vaccinations_by_manufacturer | このデータセットには、国と製造元ごとに分類された COVID-19 ワクチン接種に関するデータが含まれています。 |
テーブル名 |
説明 |
送信元 |
プロバイダー |
更新 |
---|---|---|---|---|
world_cases_deaths_testing |
このデータセットには、確認された症例、死亡、検査が含まれています。 |
複数 |
rearc |
毎日 |
このデータセットは、米国で確認された症例と死亡について州別と郡別に追跡します。
テーブル名 |
説明 |
送信元 |
プロバイダー |
更新 |
---|---|---|---|---|
nytimes_states |
米国の州レベルでの COVID-19 症例に関するデータ |
ニューヨークタイムズ | Rearc |
毎日 |
nytimes_counties |
米国の郡レベルでの COVID-19 症例に関するデータ |
このデータセットは、COVID-19 の完了したテスト、保留中のテスト、ポジティブテストとネガティブテストの数を追跡します。
テーブル名 |
説明 |
送信元 |
プロバイダー |
更新 |
---|---|---|---|---|
covid_testing_states_daily |
米国州別テストの日別傾向の合計 |
COVID 追跡プロジェクト
|
Rearc |
毎日 |
covid_testing_us_daily |
米国テストの日別傾向の合計 | |||
covid_testing_us_total |
米国テストの合計 |
テーブル名 |
説明 |
送信元 |
プロバイダー |
更新 |
---|---|---|---|---|
hospital_beds |
米国の病院用ベッドとその利用に関するデータ |
Definitive Healthcare |
Rearc |
毎日 |
これは、COVID-19、SARS-CoV-2、および関連するコロナウイルスについての 45,000 件以上の研究記事 (33,000 件以上の全文) のコレクションです。Amazon Comprehend Medical から抽出した注釈を使用して、データの前処理と強化を行いました。Amazon Comprehend Medical の詳細については、こちらをクリックしてください。
テーブル名 |
説明 |
送信元/プロバイダー |
更新 |
---|---|---|---|
alleninstitute_metadata |
CORD-19 の研究課題データセットから抜粋した論文のメタデータ。'sha' 列は、レイクペーパーのファイル名であるペーパー ID を示します。 | Allen Institute for AI |
毎週 |
alleninstitute_comprehend_medical | Amazon Comprehend Medical の結果は、CORD-19 研究課題データセットと比較して実行されます。 | AWS |
Delphi の COVIDcast データセットは、CMU が実行する Facebook 健康調査、Google が運営する健康調査、Quidel Inc が提供するラボテスト結果、Google Health Trends がリリースした検索データ、全国的な医療制度によって提供される外来医の訪問診察など、さまざまなデータソースに基づいています。
テーブル名 |
説明 |
送信元 |
プロバイダー |
更新 |
---|---|---|---|---|
covidcast_data |
CMU Delphi の COVID-19 監視データ |
Delphi Research Group (CMU) |
Rearc |
毎日 |
covidcast_metadata |
CMU Delphi の COVID-19 監視メタデータ |
テーブル名 |
説明 |
送信元 |
プロバイダー |
更新 |
---|---|---|---|---|
tableau_covid_datahub |
このデータセットには、New York Times や European CDC を含む信頼されたソースから集計されたコロナウイルス (COVID-19) データが含まれます。 |
NYT ECDC |
Tableau |
毎日 |
UC バークレーの Yu グループは、個々の郡と病院の両方で COVID-19 流行の深刻度を予測するのに役立っています。
テーブル名 |
説明 |
送信元 |
プロバイダー |
更新 |
---|---|---|---|---|
prediction_models_severity_index |
深刻度インデックスモデル |
UC バークレーの Yu グループ |
Rearc |
毎日 |
prediction_models_county_predictions |
郡レベルの予測データ |
Allen Institute CORD-19 データセットから作成されたグラフ構造化データセットです。これには、紙のメタデータ自体に、および Comprehend Medical から抽出した注釈に、接続するグラフネットワークを構成するノードとエッジのセットが含まれています。
テーブル名 |
説明 |
送信元/プロバイダー |
更新 |
---|---|---|---|
covid_knowledge_graph_nodes_concept |
Comprehend Medical から動的に生成された出力に基づくノード |
AWS |
毎週 |
covid_knowledge_graph_nodes_institution |
加盟校ノード |
||
covid_knowledge_graph_nodes_author |
筆者ノード |
||
covid_knowledge_graph_nodes_paper |
ペーパーノード |
||
covid_knowledge_graph_nodes_topic |
カスタムオントロジーに基づくトピックノード |
||
covid_knowledge_graph_edges |
さまざまなノードを接続するエッジ |
Our World in Data、The New York Times、COVID 追跡プロジェクトから得た COVID-19 データの集約。
テーブル名 |
説明 |
送信元/プロバイダー |
更新 |
---|---|---|---|
enigma_aggregation_global |
すべての地域を組み合わせる |
Enigma |
毎日 |
enigma_aggregation_global_countries |
国レベルのみ |
||
enigma_aggregation_us_states |
米国の州のみ |
||
enigma_aggregation_us_counties |
米国の郡のみ |
テーブル名 |
説明 |
送信元/プロバイダー |
更新 |
---|---|---|---|
aspirevc_crowd_tracing |
AspireVC から得た接触者追跡データ |
AspireVC |
毎日 |
aspirevc_crowd_tracing_zipcode_3digits |
状態検索のための郵便番号 |
AspireVC |
テーブル名 |
説明 |
送信元/プロバイダー |
更新 |
---|---|---|---|
uk_covid |
英国の症例と検査データ |
英国政府 |
毎日 |
テーブル名 |
説明 |
---|---|
country_codes |
国コードのルックアップテーブル |
county_populations |
最近の国勢調査データに基づく各郡人口のルックアップテーブル |
us_state_abbreviations |
米国州別略語の参照表 |