More than 5 years have passed since last update.

pandas, binder, geonotebook, ipysigma作者の発表

Last updated at 2017-11-11Posted at 2017-10-28

1 / 17

この投稿は
JupyterCon 振り返り勉強会のためのものです。

紹介する発表

Jeremy以外はslideのpdfはここにあります。
またWesとJeremyはゲストスピーカーだったようでカンファレンスの発表以外にもインタビューの動画がYouTubeにあります。

2007年から2017年のデータサイエンス環境の変化について
- (今の人は当然あるものとしてPyData toolsを使っているが, この時期にWesが頑張ってくれた成果が今のPythonを用いたデータサイエンス全盛期の礎となっている)
closed source > open source
- matlab > R, Python
pandas, Jupyter の普及
- Jupyterはデータサイエンスの共通フロントエンドとなったがその一方でフロントエンド以外は?...

フロントエンドにはJupyterがありその下にPython, Rなどがあるわけだが...
Python, R, JVM, Julia等の言語は"Silo(他部門と連携を取らないもの)"になっている
- Siloの中にはnumpy, pandas, scikit-learn などがある
同じ機能を各言語で様々に実装している > 無駄
"SHARED DATA SCIENCE RUNTIME"のようなものがあれば同じ実装を異言語で繰り返さなくて済む

具体的に何を実現するのか

Apache Arrow の開発

binder の作者
神経科学者
janelia research campus から CHAN ZUCKERBERG INITIATIVE(CZI) へ
- 今はresearcherとしてより，CZI での研究の推進を行うためのmanagerの役割が主となっている模様
その「研究の推進」がどのようなものかをJupyter活用も混ぜて行うといったことがこの発表の主旨かと

いわゆる「部門間の連携が無い，これがすべて有機的に結合すれば...」に似たこと
- 生物学の実験，データは複雑
生命システムを理解するためには異種の技術をうまくまとめあげる必要がある
- グルー言語であるPythonとJupyter Notebookを始めとするオープンソースソフトウェアは生物学者にも活用されている
しかしまだまだ生物学者が大きな負担なく快適に分析できるような環境が整っているとは言い難い
- 計測, 解析, HPC資源, ... すべてを統合するのは大きな負担
- 例) 実験 <-> 画像分析Javaソフト <-> Python機械学習 <-> Sparkクラスタ
一般人, CZIのソフトウェアエンジニア，計算科学者，生物学者をつなぐようなシステムをJeremyらは求め(CZIで活動を行っ)ている
- Jupyterはそのようなシステムに役立つかもしれない

HUMAN CELL ATLAS
- 人の異組織，臓器の一細胞レベルでの遺伝子発現情報を集め，分析することを「GLOBAL STRATEGIC BLUEPRINT」としている
- ここにCZIも噛んでいる
そのopen-source data coordination platform
- このデータをJupyterを使って解析できるようにしている模様

leafletとはどう違うのか?
- tile serverにアクセスするのは同じと思われる
- しかしそのtile server側を自分で望む解析ができるように利用者の手中にあるか否かが異なる
真価はガチの地空間情報利用者ではないのでわかりませんでした
- 発表中でもあるようにdeployが難しい
- Dockerfileをbinderにかけてみたのですがfailしてました https://mybinder.org/v2/gh/OpenGeoscience/geonotebook/master

IPySigmaを試す時間が無かったのでこの場で https://github.com/bsnacks000/IPySigma-Demo の Dockerfile を作りbinderで試してみましょう...