何回かに分けて Watson Analytics を無料で学んでみる記事を投稿したいと思いますの第2回です。
##今回の内容
第一回(http://qiita.com/shinyama/items/3477a419fef6fc085187 ) では、Watson Analyticsでの無料アカウントの作成、ログイン、少しだけ分析ツールを動かしてみる、をやってみました。
今回は、新しいデータの取り込み、確認、色々な分析を行ってみたいと思います。
##<手順>
第一回の手順で、以下からWatson Analyticsにログインしてください。
https://watson.analytics.ibmcloud.com/product
この画面で、Local fileを選択すると、自分のPC上のExcelやCSVファイルをアップロードする事もできます。
適当にお持ちのデータで試して頂いても良いですが、今回はWatson Analyticsのサンプルデータを取り込む事にします。
「Sample Data」を選択します。
サンプルのデータのリストから、下の方にスクロールして「Employee Performance.csv」を選択し、「Import」をクリックします。
ある仮想の会社ですが、そこの社員の労働状況を分析してみようかと思います。
このような、地球のようなものが回っている間はしばらく待ちます。
こうなればインポートは成功です。
Watson Analyticsではこの様に、分析対象のデータは全てSaaSのクラウド上にアップロードしてから分析を行います。データベースに重いSQLを投げて頑張らせるのではなく、クラウド上でメモリー上でデータを取り扱い、高速に処理するという思想です。
「Refine」を選択します。Refineは、分析の前にデータを確認し、データの事前準備を行う機能です。
このように、どういうデータがインポートされたかが見えるので、分析にどのようなデータが使えるか、この画面で何となくイメージしておきます。
赤枠の「>」をクリックします。
確認は終わりで、「Refine」は閉じます。
赤枠の「^」をクリックし「Employee Performance」の「x」をクリックし閉じます。
先ほどの画面に戻りますので、今度は「Employee Performance」のタイルそのものをクリックします。
「Discover」の機能の初期画面です。データの内容をWatson Analyticsが読み取り、分析を行うスタートポイントの推奨のものが表示されていますが、ここでは一旦、下の方にスクロールします。
「JobSatisfaction」というデータがありますので、「この会社での仕事の満足度は、何の要因によって決まるのだろうか」という興味のもとに分析を進めてみたいと思います。
第1回目でやったように、下のバーから「JobRole」をx-axisに、「JobSatisfaction」をy-axisに配置します。
早速ですが、折れ線グラフだと分析の意図に合わないので、棒グラフに変えてみたいと思います。
赤枠の「Visualization」から「Bar」を選択します。
するとこの様に、使用しているデータアイテムは変わらないまま、棒グラフでの表示になります。
JobRoleの名称が全て見えているので、明らかに棒グラフの方が見やすいです。
とりあえず、左のウィンドウは閉じます。「Visualization」のアイコンを再度クリックします。
この様に見えます。棒グラフで何が1番満足度高いのか良くわからないので、「JobSatisfaction」順にソートしたいと思います。
X軸の「JobRole」の文字を右クリックし「Sortの>」を選択します。
以下のように「JobSatisfaction」でソートされた順になるので、「Human Resources」が最も仕事の満足度が低く、「Healthcare Representative」が最も高いことがわかります。
さらに別の要因も加えてみるとどうなるかと、「YearsWithCurrManager」、つまり今の上司と何年一緒か、というデータアイテムを「Color」においてみます。
結果はこの様な表示ですが、何となく年数が多い方が満足度が低いような、という印象を受けます。
もう少し見せ方を変えてみようと、「Visualization」から「Heatmap」を選択してみます。
表示がこのようになりました。
右に行くほど上司との付き合いが長く、色の濃いもの程満足度が高いのですが、右に行くほど色の薄い傾向にあるような気がします。
別の分析をするため、赤枠の「+」を選択して、別タブを開きます。
赤枠のウィンドウに、「What is a predictive model for JobSatisfaction?」と自然言語で打ち込んでみます。※2016年12月現在では、日本語のサポートはまだありません。
するとこの様に、入力された自然言語の意図を理解して、推奨のスタートポイントが「JobSatisfaction」関連のものになります。
質問の仕方が難しい人のために、赤枠の「How to ask a question?」を選択します。
文書を全て打ち込むのではなく、このように質問のカテゴリや「and」「over」「by」などで区切った文節に、プルダウンでアイテムを選択する事で、質問を組み立てる事もできます。※ここでは説明だけで「Ask」は押しません。
とりあえず推奨された一覧の中から、左端の決定木分析のスタートポイントを選択します。
分析結果が表示されますが、良くわからないので「Decision tree」の文字を選択します。
マウスの真ん中のボタンを押したまま上下で、拡大・縮小ができます。
見ていくと「Attrition」=「消耗」が大きな因子になっている事がわかります。
それはもう「消耗」している部署で満足度の高いわけが無いですよね。
また「YearsSinceLastPromotion」から、前回の昇進から、1-4年の人が最も満足度高い事がわかります。
右に行くと「TrainingTimesLastYear」つまり去年受けたトレーニングの数が3以上の人が満足度高いです。
ちゃんと教育をしてくれると、仕事に対する満足度も上がるのですね。
これは残念な結果です。「YearsWithCurrentManager」が、1年以内の人は、それ以上の人と比較して、圧倒的に満足度が高い結果です。
上司と長年付き合っていると、そのうち嫌になってくる、という、会社にとってはあまりうれしくない結果ですね。
という様に、色々とこの会社の雰囲気がわかってきたわけですが、この画面上でもWatson Analyticsが、別の分析を推奨していますので、赤枠のグラフをクリックしてみる事にします。
これは、「未婚」「既婚」「離婚経験あり」で、満足度を見た結果ですが、○の大きさが変わらないので、この要素は満足度には影響は無いようです。
という感じに、色々な分析の推奨をしてくれるのが、思いがけない発見につながるかも知れない、Watson Analyticsの魅力の一つであると言えます。
適当な名称を付けて、保存先に「Personal」を選らんで「Save」します。
TOP画面に戻り、「Discover」をクリックすると、赤枠のように先ほど保存した分析結果のタイルが表示されます。ここでは「Personal」つまり個人のフォルダにおいていますが、無料版のライセンスではなく、有料版であれば「Shared」つまり他の人と分析結果を共有する事ができるわけです。
さて、今回は以上となります。
セルフサービスBIのツールですが、自然言語解析や推奨の機能など、「Watson」という名前が付くツールの意味がある程度ご理解頂けたかと思います。
「Discover」の機能も、他にも表現を色々と変えれる機能がありますので、気の向くままに触ってみてください。
第7回目も投稿しましたら、こちらにリンクを貼りますのでご期待下さい。
第1回目(アカウント作成~基本のグラフ作成)のリンク
http://qiita.com/shinyama/items/3477a419fef6fc085187
第2回目(データの確認~色々分析してみる)のリンク
http://qiita.com/shinyama/items/6d2dc941f50cbc34b6ea
第3回目(Displayの機能を学ぶ)のリンク
http://qiita.com/shinyama/items/a08a0b555149b86d52a6
第4回目(データの精製)のリンク
http://qiita.com/shinyama/items/3196e0176d87217fe3f6
第5回目(統計解析の機能)のリンク
http://qiita.com/shinyama/items/e6f9d63e1d3405826402
第6回目(FAQ)のリンク
http://qiita.com/shinyama/items/a281ac355d1e216f894e