機械学習 (前半)
【導入:機械学習を用いているもの】
①レコメンド
・人
→似たアイテムを見た人が見たアイテム
・アイテム
→似た人の集団が見たアイテム
②クラス分類
・正解をもつデータを大量に渡すと、未知数yに対してのxを求める
→迷惑メールを判断する際に使われたりしている
③異常検知
・大量のデータと異なる性質を持ったものを検出
→セキュリティシステム
【Q&A】
Q1.機械学習は人手でも代替できるか?
→YES ただし、データ数や種類にもよるが。
Q2.レコメンドには人手(アナログロジック)、ルールベース、機械学習どれを導入していくのがいいの?
→メリット、デメリットを比べて使用するかどうかの判断
→情報量が少なかったり、サイコロの目などのような運的なものには機会学習は向かない。
Q3.どんなツールを使えばいいか?
分析業務:
R、Weka、Matlab、SpSS
システムに使いやすい:
ScipY、Shogun
クラウドベース機械ツール:
bigML、Bazil
ビックデータ向け:
Mahout
【各社事例】
Yahoo:
・コンテンツ連動広告(YDN)
・ビジネスインパクトが大きい(※レコメンドのロジックを修正しただけで数百億の売り上げ規模)
・レコメンドを用いる上でパフォーマンスが重要
→2段階の構成
→マッチング(情報検索アプローチ) → リランキング(機械学習ランキング)
入札金額 × CTR = 期待収益で判断させている
学会発表に詳しく書いているよう
楽天;
商品の形態素解析ツールを使っている
写真も何が最適なのかを判断しているよう
その後は色々長かったので割愛
詳しくは下記の資料を見て下さい。
http://www.slideshare.net/shoheihido/cross-30115506?from_search=3
機械学習 (後半)
Q&A方式で色々進めていく。
個人的に頭に残ったのだけ紹介
Q1.機械学習の導入方法は?
田島さん(Yahoo):
間違えてもおこられないところ。広告やリコメンデーションなど。広告の審査にも使っているが、薬事法に反した広告が出てはまずい。
最終的には人間の判断になるが、その前段として使うと、問題の切り出しが難しい。
間違ってもいいかどうかは導入のポイントのひとつ
平手さん(楽天):
人手で不可能とあきらめている大規模なデータでの発見などから始まっている印象がある
小宮さん(アルバート):
マーケティングでは機械学習は手段のひとつ。Webマーケティングにおいては利益追求のためのリコメンドなど。リアルマーケティングでは在庫管理などで使うことが多そう
村上さん(FFRI);
セキュリティーについては間違えてもいいという点で同意できる。機械学習の誤判定はセキュリティーにおいてはクリティカル。すぐ人間をリプレースできるという話ではない。人に対する説明が求められるので、専門家のヘルプや専門家の教育などに使える
油井さん(奈良先端):
別の軸もある。機械学習でどれだけ質のよい文例データが集められるかという面もある。CTR/CVRなど直接レベニューに効いてくるところから導入が進むだろう
福島さん(Gunosy):
やらないとわからないし、やってダメでしたも受け入れられる人が経営者にいるかどうかもポイント。仮説が感覚と合っていると使われやすいだろう
比戸さん:
自社サービスを社内で評価するときはやってダメでしたならいい。しかし、お金をもらって分析した結果、データに価値がありませんでしたをちゃんと報告できるかと言うと難しい。これで何%くらい出そうですかと聞かれてもやってみないで答えるのは無理
Q2. レコメンドのアルゴリズムなどに関して(どれを導入したら良いか?)
比戸さん:
アカデミックな評価と実用の評価とは基準が違う。一方で新しい手法はアカデミアから来る。論文ではよさそうなのに使ってみたらダメダメということがある。
田島さん:
機械学習は1回でポンといいモノが入るわけではない。KPIを決めておく。売上なのかクリックなのか。それができないとプロジェクトが迷走してしまう。やりながらKPIが上がっていく、上げることを楽しむのが大事。
KPI設定の失敗は細かくいろいろある。失敗した例としては国によってマーケット規模を推定するようなこと。為替がががっと変わってモデルがダメになってしまったことがある。時間軸が短く、確実に構造が同じだよね、というところで生かせると思う。
小宮さん:
機械学習は手段という観点をくり返しますが、機械学習のアウトプットをそのまま顧客に渡すのではなく、ドメイン知識で解釈したものを出すべき
その他はハッシュタグ:#cross2014a で検索下さいませ!
http://www.slideshare.net/shoheihido/cross-ml-kouhen
個人的にこのセッションを聞いて
前半
・(既にですが)今後ますます必要なアプローチだろうと感じた
・うちに導入する時は大学院とかと組んでやるのが一番よさそう
後半
・結局どのようなアルゴリズムを使ったとしても、ざっくりと人に伝えられるものかつ納得感を持てるものでないと信頼されない
→結果みんなどこもシンプルなものを用いているみたい
・そんなすぐに良いアルゴリズムなんてでないんだから、経営者の人の理解力が必要w
・広告業界だと、本当にその人に合ったというロジックではなく売り上げを最大限あげるためのロジックになっているんだなと。。。