COVID-19 Datasets Now Available on Databricks: How the Data Community Can Helpの翻訳です。
本記事の初稿は2020/4/14に公開されましたが、2020/4/21に改訂されています。
本記事で言及されているサンプルノートブックを日本語に翻訳しています。
現在も続いているCOVID-19の感染拡大に対して、多くのデータエンジニア、データサイエンティストは自問しています。「データコミュニティで支援できることはないのか?」と。データコミュニティは既に短期間で素晴らしい取り組みを行なっています。その中で最も頻繁に使用されているCOVID-19のデータソースはJohns Hopkins CSSEによる2019年の新型コロナウィルスCOVID-19(2019-nCOV)データリポジトリです。以下のアニメーションGIFは3/22から4/14の期間における感染確認のケース(郡レベル)、死者数(円)を可視化したものです。
他の取り組みとしては、リアルタイムで病原体の拡大をトラッキングした様子を可視化した新型コロナウィルスの[遺伝学的疫病学](https://nextstrain.org/ncov/2020-04-03)が挙げられます(クリックをすることで[系統発生学と伝染の様子を再生](https://nextstrain.org/ncov/global)できます)。 ![](https://databricks.com/wp-content/uploads/2020/04/genomic-epidemiology-of-covid-19-min.jpg) 図2: ソース: 新型コロナウィルスの遺伝学的疫病学(2020-04-08以降)病院リソース利用率モデリングの強力な事例としては、University of Washington’s Institute of Health and Metrics Evaluation (IHME) COVID-19 projectionsが挙げられます。以下のスクリーンショットは、2020/3/28のピークを強調し、予測された病院リソース使用量のメトリクスを表示しています。
図3: IHME COVID-19 projections for Italy(2020-04-08以降)
でも、どうやって支援できるのでしょうか?
COVID-19に打ち勝つことは、現時点では世界にとって最も困難な課題であり、重要な意思決定を行うためには、背後にあるデータを理解することが重要であると信じています。このことを受けて我々は、多くの皆様、データ探索の初心者からデータのプロフェッショナルまでが、この取り組みに参画できるような一歩を踏み出しました。
3月末に、Analyzing COVID-19: Can the Data Community Help?における技術的セッションにおいて、COVID-19データセットに対するデータ分析入門から我々は活動を開始しました。このセッションでは、Apache Spark™、Python、pandas、BERTなどの様々なオープンソースプロジェクトを活用して、探索的データ分析と自然言語処理(NLP)をお見せしました。この際に使用したノートブックは公開されており、ローカルのPythonの仮想環境やクラウド環境、Databricksコミュニティエディションなどのご自身の環境にダウンロードできます。
例えば、このセッションではCOVID-19 Open Research Dataset Challenge (CORD-19)を分析し、以下の洞察を得ました。
- 数千のJSONファイルがあり、それぞれは参照情報を含む研究論文テキストが含まれている。JSONスキーマの複雑性はデータ処理を複雑なものにする官能性がある。幸運にも、Apache Sparkは自動的かつ高速にJSONファイルのスキーマを推定し、このノートブックを用いることで、数千のJSONファイルを数個のParquetファイルに変換でき、後段の探索的データ分析を容易にします。
- テキストの多くは構造化されておらず、筆頭著者の国を正確に識別することが困難などのデータ品質に関する課題が存在します。このノートブックを用いることで、データをクレンジングし、あとで筆頭著者の属する国のカウントを地図にマッピングできるように、ISO Alpha 3の国コードを識別できるようにしました。
図4: Analyzing COVID-19: Can the Data Community Help?で説明された、COVID-19関連論文の筆頭著者の属する国の数 - データをクレンジングすることで、データから洞察を得るために様々なNLPアルゴリズムを適用できます。このノートブックでは、論文のアブストラクトを一般化(論文ごとに7800から1100の文字列)し、研究論文のタイトルに基づいて以下のワードクラウドを作成しました。
図5: Analyzing COVID-19: Can the Data Community Help?で説明されたCOVID-19関係の論文から作成したワードクラウド
データを見てみましょう!
探索的データ分析においてはデータの品質が非常に大きな影響を与えると、多くのデータアナリスト、データエンジニア、データサイエンティストは口を揃えて証言することでしょう。A Few Useful Things to Know about Machine Learning (October 2012)で以下の発言があります。
大量のデータと愚かなアルゴリズムは、そこそこの量のデータとスマートなアルゴリズムを駆逐する
この発言は、特徴量エンジニアリングの重要性などの機械学習における様々な重要な側面を軽んじるのではなく、高品質かつ大量のデータを持つことの重要性を強調しており、データのみでは不十分であるということを言っています。
データコミュニティの多くの人は、SARS-CoV-2(原因)、COVID-19(疾病)などの様々なデータセットをKaggleやGithubに提供し続けています。
容易に分析を進められるように、Databricksコミュニティエディションを含め、我々は定期的に研究用の(非商用利用目的で使用できる)様々なCOVID-19データセットを追加・更新しています。現時点では以下のデータセットを提供しており、今後追加していく予定です。
/databricks-datasets/[場所] | リソース |
---|---|
/../COVID/CORD-19/ | COVID-19 Open Research Dataset Challenge (CORD-19) |
/../COVID/CSSEGISandData/ | 2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSE |
/../COVID/ESRI_hospital_beds/ | Definitive Healthcare: USA Hospital Beds |
/../COVID/IHME/ | IHME (UW) COVID-19 Projections |
/../COVID/USAFacts/ | USA Facts: Confirmed : Deaths |
/../COVID/coronavirusdataset/ | Data Science for COVID-19 (DS4C) (South Korea) |
/../COVID/covid-19-data/ | NY Times COVID-19 Datasets |
探索的データ分析ワークショップの詳細
原文のCOVID-19 Datasets Now Available on Databricks: How the Data Community Can Helpを参照ください。
COVID-19データセットから洞察を得る
COVID-19データセットの分析を容易にスタートできるように、tech-talks/samplesフォルダーに追加のノートブックを格納しています。これらのノートブックはNew York Times COVID-19 dataset、2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSEの両方に対応したものです。/databricks-datasets/COVID
配下にあるこれらのデータは定期的に更新されています。
NY Times COVID-19 Analysis notebookには、郡ごとのCOVID-19の感染者と死者の分析が含まれています。
図6: 教育機関が閉鎖された時期をハイライトした、ワシントン州におけるCOVID-19感染者数の比率トップ10(ソース: 2020/4/14時点のニューヨークタイムスCOVID-19データセット)
図7: 教育機関が閉鎖された時期をハイライトした、ニューヨーク州におけるCOVID-19感染者数の比率トップ10(ソース: 2020/4/14時点のニューヨークタイムスCOVID-19データセット)
JHU COVID-19 Analysisで得られた洞察には以下が含まれます。
- 2020/4/11時点で、JHU COVID-19 daily reportsは三回スキーマを変更しています。上述のノートブックは、それぞれのファイルから(日付を取得するために)ファイル名を抽出し、異なるスキーマを統合します。
- アメリカにおけるCOVID-19に関連する感染者数、死者数の指数関数的増加を、静的・(スライドバーで)動的に可視化するためにAltair visualizationsを使用しています。
Johns Hopkins COVID-19データセットとAltairコロプレスマップによる、3/22と4/11における感染者数(郡レベル)、死者数(緯度経度)のマップ
加えて、NYT COVID-19 Analysisノートブックには、ワシントン州(2020/3/13)とニューヨーク州(2020/3/18)で教育機関が閉鎖された時期の2週間ウィンドウでの、感染者数と死者数(実数と人口に対する比率)のコロプレスマップと棒グラフが含まれています。
NY Times COVID-19 datasetに基づく、教育機関が閉鎖された時期の2週間ウィンドウにおけるCOVID-19感染者数(郡レベル)、死者数(緯度経度)のコロプレスマップ、棒グラフ
まとめ
感染爆発が起きている状況下においても、データコミュニティはデータの背後にあるパターンに基づき、洞察を提供することで支援を行うことができます。これには、郡ごとの感染者数、死者数の増加率、早期にソーシャルディスタンスを導入した州における増加率へのインパクト、ソーシャルディスタンス導入による増加の抑制などが含まれます。重要なことですが、COVID-19は医療の問題です。すなわち、どのようにして患者の命を救うのかを考える必要があります。また、データの理解によって、医療コミュニティがより良い意思決定を行えるようにするという疫学の問題でもあります。例えば、人々が感染しないような公共医療のポリシーを決定できるように、どのようにデータを活用できるのかを考える必要があります。
サンプルノートブック
本記事で言及されているノートブックをこちらで日本語に翻訳しています。
- 1. JSONデータセットの読み込み
- 2. CORD-19データセットの分析
- 3. 自然言語処理を用いたCORD-19データセットの探索
- 4. New York Times COVID-19 データセット分析
- 5. JHU COVID-19 データセットの分析
1と2は主にデータ準備に関する内容となっています。3では関連論文からワードクラウドの作成、BERTによる要約生成を行なっています。4と5がアメリカにおける感染者数、死者数に対する様々な切り口での分析となります。4、5には機械学習は含まれていませんが、以下のような地図を用いた可視化を行なっています。色塗りが感染者数で、赤い点が死者数となります。