More than 5 years have passed since last update.

Kibana(Elasticsearch)＋Logstashでオタクの出費を可視化してみる

Last updated at 2017-12-16Posted at 2017-12-16

はじめに

まとめると趣味の出費を可視化して分析してみよう、という話です。

なぜそんなことをしようとしたかは長くなるので省略します。

アプリケーションにはKibana, Elasticsearch, Logstashを使用することにします。
いろいろあって複雑そうに見えますが、これらは、セットで扱うことが多いようです。（ー＞ ELK Stack）

Kibanaとは

ビジュアライゼーションツール。Elasticsearchのデータを可視化することができる。
Webサーバとして起動する。

Elasticsearchとは

全文検索エンジン・データベース。

Logstashとは

ログ収集ツール。コマンドラインから実行可能。

インストール

公式サイトからダウンロードして展開します。

Elastic · Revealing Insights from Data (Formerly Elasticsearch) | Elastic

今回は以下の環境で試しました。

Windows7 64bit
Elasticsearch 6.0.0
Kibana 6.0.0
Logstash 6.0.0

ElasticsearchとKibanaの起動と確認

Elasticsearchの起動

> elasticsearch\bin\elasticsearch.bat

デフォルトで9200,9300ポートで起動します。

Kibanaの起動

>kibana\bin\kibana.bat

デフォルトでポート5601で起動します。

確認する

5601ポートでKibanaにアクセスします。

画面が表示できればOKです。

入力データ

入力データはcsvで用意しました。
例えば、「12月12日にSphereのチケットを1,000で購入した」という場合は、以下のようなcsvとしました。

1,2017/12/12,1000,チケット,Sphere

先頭の数値はシーケンス的なユニークのIDです。

Logstashを設定する

次はLogstashの設定を行います。

Logstashは[入力]-[変換]-[出力]といった、ストリーミング的な設定をyamlですることができます。
ここではCSVデータを入力、Elasticsearchに出力にします。

○inputのブロック

指定のディレクトリ内のファイルを対象にします。
sincedb_pathはどこまで読み込んだかを管理するファイルが保存されるパスです。
csvファイルはExcelで作成しているため、Shift-JISとしました。

input {
	file {
		path => ["H:/01_daily/20171202/data/*"]
		sincedb_path => "H:/01_daily/20171202/sincedb"
		start_position => "beginning"
		codec => plain { 
			charset => "SJIS"
		}
	}
}

○filterのブロック

読み込んだcsvを処理します。
columnsでcsvの各カラムに名づけをします。
変換処理として、日付と金額の型変換を行っています。

filter {
	csv {
		columns => ["id", "date", "value", "category1", "category2"]
		convert => {
			"value" => "integer"
		}
	}
	date {
		match => ["date" , "yyyy/MM/dd"]
	}
}

○outputのブロック

elasticsearchに出力します。
indexはいわゆるRDBにおけるテーブル名、document_idはPKとなります。
接続ホストはデフォルトでlocalhost:9200となるため、省略しています。

output {
	elasticsearch {
		index => "expenses"
		document_id => "%{id}"
	}
}

まとめると以下のようになります。
ファイル名をwotaku.confとしました。

input {
	file {
		path => ["H:/01_daily/20171202/data/*"]
		sincedb_path => "H:/01_daily/20171202/sincedb"
		start_position => "beginning"
		codec => plain { 
			charset => "SJIS"
		}
	}
}

filter {
	csv {
		columns => ["id", "date", "value", "category1", "category2"]
		convert => {
			"value" => "integer"
		}
	}
	date {
		match => ["date" , "yyyy/MM/dd"]
	}
}

output {
	elasticsearch {
		index => "expenses"
		document_id => "%{id}"
	}
}

データを投入する

Logstashを起動してelasticsearchにデータを投入します。
以下のコマンドを実行すると、設定ファイルで設定したディレクトリを監視してデータを投入します。

≫ \bin\logstash.bat -f .\wotaku.conf

ディレクトリのファイルに追記したり、ファイルを作成したら数秒で反映されます。これは便利ですね！

kibanaで可視化する

まずはkibanaにindexの設定をします。

http://localhost:5601 から、左側のメニューの「Management」-「Kibana」-「Index Pattern」を選択し、indexを追加します。

Index patternに設定ファイルで指定した「expenses」を選択して、「Create」します。

「Time Filter field name」はデフォルトの@timestampとします。
これはメタデータの時刻となるフィールドを指定しておきます。デフォルトではデータ投入時刻になります。
今回は明示的に@timestampというフィールドは作成していませんが、データ投入時刻ではなく、csvのdateカラムとなります。
filterでdate変換した場合、その値が@timestampに設定されるためです。