分析につかうCSVファイルをElasticsearchに取り込んでみたときのメモ。
環境はOS X El capitan。Javaは1.8.0_05。
簡単な役割紹介(僕の理解):
Embulk*1:CSV取り込み、パーサー。
Elasticsearch:取り込み先。
Kibana:表示。
参考資料:
Elasticsearch参考記事:チュートリアルを一通り実施。
https://www.elastic.co/guide/en/elasticsearch/reference/current/getting-started.html
Embulk参考記事:大変お世話になりました。
http://www.embulk.org/docs/recipe/scheduled-csv-load-to-elasticsearch-kibana4.html
http://n-agetsuma.hatenablog.com/entry/2016/02/24/224437
インストール
1. Elasticsearch
ココ からzipをダウンロードして作業用フォルダに展開。バージョンは2.3.3(以下確認)
$ elasticsearch-2.3.3 ./bin/elasticsearch --version
Version: 2.3.3, Build: 218bdf1/2016-05-17T15:40:04Z, JVM: 1.8.0_05
ココにある便利なプラグインを入れておく。
$ elasticsearch-2.3.3 ./bin/plugin install mobz/elasticsearch-head
動作確認:httpでRESTが実現できる。デフォルトは9200番。ブラウザで、以下叩いてみて下さい。
http://localhost:9200/_plugin/head/
2. Embulk
ココを参考にEmbulkをダウンロードして作業用フォルダに展開。
latestは執筆現在V0.8.9。バージョンは0.8.9(以下確認)
$ curl --create-dirs -o ~/.embulk/bin/embulk -L "http://dl.embulk.org/embulk-latest.jar
$ echo 'export PATH="$HOME/.embulk/bin:$PATH"' >> ~/.bashr
$ source ~/.bashrc
$ embulk embulk --version
$ embulk 0.8.9
Elasticsearch用のプラグインを導入。
$ embulk gem install embulk-output-elasticsearch
3. Kibanaインストール
ココ からダウンロードして作業用フォルダに展開。バージョンは4.5.1(以下確認)。
$ kibana-4.5.1-darwin-x64 ./bin/kibana --version
4.5.1
動作確認:ブラウザで以下叩いてみて下さい。Kibanaはポート5601
http://localhost:5601/
*1 Logstashのcsvプラグインを当初使った。一度取り込んだデータを使ってテストした際に、一度取り込んだデータを再度取り込まないような仕様になっている関係のところで躓いて挫折。。。また分析用CSVがWindowsからのコピーで、文字コードと改行コードの問題でEmbulkを選択。