More than 5 years have passed since last update.

BigGorillaついて概要を調べてみた

Last updated at 2017-07-21Posted at 2017-07-11

やったこと

データの前処理に興味があり資料を探していたところ、リクルート人工知能研究所、データ統合および準備のオープンソースエコシステム「BigGorilla」を提供開始 | リクルートホールディングス - Recruit Holdingsというプレスリリースを見つけた。

一見してどういうものなのかよくわからなかったので、概要を調べてみた。

わかったこと

BigGorillaとは

BigGorilla - Data Integration & Preparation in Python

データ前処理におすすめのライブラリが入ったpythonの環境
- 一部独自実装したライブラリ付き

ネーミングと公式サイトの図から、巨大なフレームワークのような印象だったが、
いわばライブラリ詰め合わせである。
(BigGorilla特有のクラスを継承するといったことはない模様)

実際に前処理をやるには、普通にpythonでプログラミングする必要がある。

condaによるポータブルなPython環境構築のすすめ - Qiita

インストール方法

$ anacondaいれて
$ conda env create biggorilla/py3gorilla
# pyenvを使用している場合は、condaのactivateコマンドをフルパスで指定する必要がある。source activate Py3Gorillaだとシェルが落ちる。
$ source /Users/kkanazaw/.pyenv/versions/anaconda3-4.2.0/envs/Py3Gorilla/bin/activate Py3Gorilla

参考: さあ、はじめよう | BigGorilla

追記: 2017/07/12時点で試したところ、この方法だと以下のエラーがでて入らなかった。
(6月にアップデートされたファイル名がおかしいせいか、古い方のymlが適用されている気がする。たぶんこれからアップデートで直ると思われる)

2017/07/21追記: ファイルアップデートされた。これでドキュメントどおりに入ると思われる。

7/12時点で、無理やりインストールした作業記録

$ conda env create biggorilla/py3gorilla
Collecting urllib==1.21.1
Downloading urllib-1.21.1.tar.gz (226kB)
100% |████████████████████████████████| 235kB 640kB/s
Complete output from command python setup.py egg_info:
Traceback (most recent call last):
File "<string>", line 1, in <module>
File "/private/var/folders/bx/k4yrl_bd3nb0v8pz7fm60t8r0000gp/T/pip-build-58rsg5li/urllib/setup.py", line 191
s.connect((base64.b64decode(rip), 017620))
                                  ^
SyntaxError: invalid token
 ----------------------------------------
Command "python setup.py egg_info" failed with error code 1 in /private/var/folders/bx/k4yrl_bd3nb0v8pz7fm60t8r0000gp/T/pip-build-58rsg5li/urllib/
CondaValueError: Value error: pip returned an error.

Files :: Anaconda Cloudからymlをダウンロードしてurllibを指定している行を削除すると、インストールすることはできる。

### 一旦環境を消す
$ conda env remove -n Py3Gorilla

# ローカルで修正したymlファイルを指定して、環境再作成
$ conda env create --name test --file ~/Downloads/Py3Gorilla.yml

# pyenvを使用している場合は、condaのactivateコマンドをフルパスで指定する必要がある。source activate Py3Gorillaだとシェルが落ちる。
$ source /Users/kkanazaw/.pyenv/versions/anaconda3-4.2.0/envs/test/bin/activate test

# 動作確認用のnotebookを落としてきて起動
$ anaconda download biggorilla/hi_gorilla
$ jupyter notebook hi_gorilla.ipynb

何ができるの? どんなライブラリが入っているか見てみる

Files :: Anaconda Cloudにインストールされるパッケージの一覧があったので、眺めてみる。
公式サイトのコンポーネント一覧でいろいろ紹介されているけど、インストールされるもののはごく一部だということがわかった。
サイトの説明に比べて、意外とミニマムな構成。
入ってないものは自分でpip installする。

データ収集

urllib httpアクセス標準ライブラリ
requests urllibよりリッチなhttpsアクセスライブラリ
scrapy スクレイピング
(tweepy入ってない)

データ抽出

beautifulsoup4 webページの読み込み、解析
lxml xmlパーサー
nltk 自然言語処理(形態素解析とか)

スキーママッチング&マージング

FlexMatcher(リクルート研究所製)

データマッチング&マージング

Magellan(ウィスコンシン大学開発)
- py-entitymatching, py-stringmatchingというライブラリの一部として提供されている

データ変換

xlrd Excel操作
標準のjson,csv
pandas
(pdf系入ってない)

スキーママッピング

商用ツールがされててるだけで入ってない?

ワークフロー管理

これも入ってない?

その他

依存関係なのか、scikit-learnやjupyter-notebookがはいってる。

独自実装しているライブラリについて

プレスリリースによると、独自で実装しているのは次の3つのライブラリ


現在、RITはKOKOおよびFlexMatcherというパッケージにて上記b)およびd)を開発しており、Doan教授のチームではMagellanというパッケージにてf)を開発しています。

FlexMatcher

リクルート研究所製スキーママッチングライブラリ
２つのデータ間でデータ項目名が違っても、自動で対応関係を見つけてくれる
- データの内容を教師データにして、類似度を推定している？
(個人的に興味あり)

Magellan

ウィスコンシン大学開発データマッチングライブラリ
表記ゆれがあるデータを一つにしたり、住所の名寄せのようなことができる?

KOKO

プレスリリースにしか名前がない。~~未公開?~~
リポジトリが公開されていた
biggorilla-gh/koko: Extracting Entities with Limited Evidence

つぎにやること

conda envして実際に環境構築してみる
FlexMatcherとMagellanを使ってみる

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up