自分用にメモ。英語聞くのしんどい・・・。
1: Wednesday morning keynote
- Al Ghodsi(Databricks)
- データ分析はチームスポーツ。複数のチーム間のデータ連携が重要になってきた
- 祝Spark10周年
- Matei Zaharia(Databricks)
- PySpark利用が全体の7割
- Spark3.0出たよ
- 3,400くらいパッチをあてた。約半分がSparkSQL
- Adaptive Query Execution(AQE)追加した。動的にreducer/join最適化。TPC-DS 1TBで最大8倍ほど速くなった
- Dynamic partition pruning追加した。TPC-DS 1TBで2〜18倍速くなった。TPC-DS 30TBでざっくり倍速くなった
- Apache Arrowを呼ぶようにした。SparkRは40倍早くなる。PySparkは若干
- Koalas頑張ってる。PandasのAPI8割ほどカバーした
- Project Zen: 今後PySparkのエラー出力簡素化する。Koalasバックポートする
- Al Ghodsi(Databricks)
- LakeHouseアプローチがイケてるのでその辺カバーする
- DeltaLakeの上にDeltaEngineというやつを作った
- Reynold Xin(Databricks)
- Delta EngineはQuery Optimizer、Native Execution Engine, Cachingでできてる。Apache Spark 3.0の上に作っている。SQL, Spark DataFrameを高速化できる。
- Query Optimizerでスタースキーマのケースでは18倍高速化できる
- Cachingでscanを5倍高速化できる
- Native Execution Engine(Photon)はC++で書いててSIMD使ってるのでネイティブで速度が出せる。使いたかったらDataBricksに連絡してね(つまり有償?)
- Al Ghodsi(Databricks)
- Delta Lake内部にオートローダー作ってDelta Lakeだけでデータソースから取り込めるようにした
- アクセス制御いろいろ追加した
- ReDashがDataBricksに参加したよ
- Starbucksの事例を紹介するよ
- Vish Subramanian(Starbucks)
- Azure+Azure DataBricksで作ったよ。いろいろ頑張った。エンジニア募集中!
2: Wednesday afternoon keynote
- Dr. Phillip Atiba Goff
- Black Lives Matterに関する運動は、最初はとある一地域で起きた黒人に対するリンチのようであったが、時間が立つに連れて州をまたいだ大きな運動になった。それを予測できなかったのは現在の課題を計測できていなかったからだ。
- データサイエンティストは眼の前の課題に集中しがちだが、外に出て何が起きているのかを見てほしい。そして計測してほしい。例えば子供の成長を背の高さを計測することで認識するように。計測することの必要性は強調するまでもないと思う。世の中には報道されていないことが数多くある。データサイエンティストが地元で活動することに大きな意味がある。
- 基礎的な社会投資が少なくなっていることも影響しているかもしれない。それはめぐりめぐって様々なことに影響を及ぼしているかもしれない。警察予算を削減しようという意見もあるが、それが本当に問題を解決するのか?教育予算、公共予算も同様だ。
- USに警察組織は18,000あるが、使用されているシステムは相互にデータを融通することができない。これが何を意味するか想像できると思う。データサイエンティストは現状でも貢献できることはあるはずだ。
- 今本当に取り組むべき問題が表出しているときだと思う。オタク、データオタク、正義オタクが活躍できる時代だと思う。ぜひ自分の周りに目を向けて、活動してほしい。
- Jennifer Chayes(UC Berkeley)
- Berkeleyでデータサイエンスを活用して社会課題に取り組む組織ができた。最近できた組織でいろいろ部署があるけどPublic Healthの分野でCOVID-19パンデミックが起きてさっそくフル稼働することになってしまった
- 最初にやったのは今後7日でどの病院がどの程度負荷を受けるかの予測。20個のデータセットを使ったがそれぞれフォーマットが違ってた。フェイスシールドをどこに配送すべきかの予測も行った。
- 次にやったのがCOVID-19の影響でどこがどの程度経済的な影響を受けて飢餓や餓死者が出るかの予測。ナイジェリア、トーゴ、ウガンダ、バングラデシュに影響が出ることがかなりの精度で予測された。これも衛星画像や電話の通話記録などぜんぜん違うデータセットを組み合わせた。これらの国で2.5億人の人が飢餓に苦しむことが予測できた。
- イタリアの死亡率の正確性の検証もやった。最初に言われてたものよりぜんぜん死亡率は高いことがわかった。年代による死亡率の変化も計測、可視化することができた。
- 世界中の約80,000のCOVID-19論文をクロールして関連性を調べたり、どのような手段が試されているかなどを可視化した
- MLでワクチンのドラッグデザインを行った
- スマホの陽性者接触アプリのデータを収集してる。もちろん個人情報は収集していない
- いろんなデータソースを繋げるのにSparkの上にアプリを作った。今までのものと比べて20倍〜100倍早い
- Nate Silver(FiveThirtyEight.com)
- 90%のデータはこの2年で生成されている。コロナウイルス、大統領選挙、(日本で起きた)大きな地震、など
- データが多くなるほど議論の余地、解釈の余地が大きくなる傾向がある。そこに「見たいものを見たい」という認知バイアスが入る余地が出てきてしまう。Zoomの会議でも参加人数が多くなると混沌となり、無意識のうちに情報を選択する状態と似ている。
- 2つのルートを見てみる。なぜドライバーは最短ルートを通らないのか。GPSで捉えられない情報がある。最適値以外をエラーとして切り捨てる危険性。
- 確率的な要素に注意しよう。堤防の水位を予測して警報を出す場合に、予測値にはプラスマイナスの誤差が含まれていることを忘れてはいけない。予測された水位が堤防以下でも、誤差を考慮すると溢れてしまうという確率がある。不確実性に注意し、伝えるようにしよう。台風の予測進路のグラフィックは参考になると思う。
- グループがどのような特徴やバックグラウンドを持っているのかに着目しよう。あるグループは必ずしもあなたが考えるような行動をとらないかもしれない。
- (ここはわからなかった)