JSAI2015 2日目 2015.05.31(日) #機械学習

ユーザーとの長期伴走を考慮したブライダル・ウェディング情報の情報推薦システムの構築

リクルートテクノロジーズ
リクルートマーケティングパートナーズ

背景

挙式の準備では長期間, 多岐にわたり必要な情報を収集しなければならない（3ヶ月から半年ほど）
人によって挙式に求める嗜好性はばらつきがある
推薦システムでの解決
各領域ごとに推薦を行うと領域が変わるごとに学習が必要になってしまう

既存研究

コンテンツベースの手法
ユーザー属性とアイテム属性の関係性をモデル化
コールドスタートに強いが, 属性に依存してしまう
協調フィルタリングを用いた手法

目的

コンテンツベースの手法を元に, 簡便な方法としてアソシエーションを用いた手法を提案
各領域を横断した推薦システムを提案する

アルゴリズム

ユーザーの記事に対する閲覧, ブックマークからスコアを算出
{ホテル: 10, レストラン: 5, 教会: 0}
のように１つの記事に対してアイテム属性へのスコアを付ける

記事の閲覧情報を元にアソシエーションを行い, アイテム間の共起関係を算出
教会 - ホテル: Confidence = 0.7
(教会 = 12) - (ホテル = 12 * 0.7 = 8.4)

実験

ゼクシィのアプリ上で実験
期間によって重みを付けて新着記事・未読記事を優先

オフラインテスト
Matrix Factorization（Spark MLib）との比較
提案手法の方がいい結果
オンラインテスト
転移学習（共起関係を考慮）ありなしで比較
提案手法の方がいい結果

今後の展開

記事内容の自然言語処理によるアイテムの属性化
協調フィルタリングの組み合わせによるハイブリッド化
各領域ごとにおける潜在変数の追加

コメント機能付動画共有サービスにおけるネタバレ検知

ニコニコ動画におけるネタバレ検知
データをAPI経由で取得し, 有識者に各コメントがネタバレかどうかを判断してもらう

ルールベース
「〜が」「〜は」などのネタバレになりそうな表現で判断
単語のバーストしたかどうかで判断
機械学習
単語のngramなどで教師あり学習

献立の雰囲気を考慮した料理情報推薦システム

背景

単一レシピサイト
クックパッド, 楽天レシピ
献立サイト
ユーザーの好みや融通を効かせることができない

システム概要

ユーザーの選択に合わせてリアルタイムに提案される料理が提案される

ユーザーの入力「中華」
→麻婆豆腐, 回鍋肉, 棒々鶏
→ユーザーの選択「麻婆豆腐」
→肉団子, 卵スープ, 棒々鶏

アルゴリズム

レシピ名の単語と食材でレシピをベクトル化
k-meansでクラスタリング（最小クラスタのレシピ数が5以下にならないように）
クラスタ同士の共起関係を献立への出現回数でCosine類似度を用いて算出

大規模リワード広告システムにおける行動履歴と広告属性を利用したコンバージョン予測モデルの構築

サイバーエージェント
ヤフー

背景

リワード広告
コンバージョン成立で報酬を支払う

目的

広告利益の最大化
行動履歴と広告属性によるCV予測

提案手法

クリック・CV × 広告マトリクスからNMFによってレコメンド広告を取得
クリックしてCVしたら1, CVしなかったら0
広告属性からロジスティック回帰によりCV予測を行いレコメンド広告を取得
ユーザー: 性別, 年齢, 前月課金額
広告: 広告の種類, 有料・無料, 広告カテゴリ

Score = NMF(0-1) + Logistic(0-1)
あまり結果は出てなく, 単体の手法の方が出ている

東日本大震災時のツイートのトピック系列の可視化と分析

背景 / 目的

Twitterから入ってくるデータはフォローなどのネットワーク情報に左右される
議論話題の変遷が観測可能なツールの実現

提案手法

1. テキスト抽出

Twitter × LDA
LDAは短文やノイズに弱いので前処理が必要

一つのユーザーの全てのツイートを一つにまとめる
最初にURL, HashTag, ユーザー名, HTMLタグ, リツイート部分を除去
抽出したいのは議論のツイートなので形態素解析の結果の単語数が閾値以下の場合は無視

2. トピック抽出

文書をBag-of-Wordsで表現してLDA（PLDA）で抽出
単語をtf-idfでスコアリング

3. トピック系列の生成

トピックの時系列関係を表す
Ti[t]とTj[t+1]（現在のトピックと1区間後のトピック）でトピック × 単語間のコサイン類似度を計算
類似度が閾値を超えていたら同一トピックとして表現する

4. トピックを可視化

HTML5 + Canvas + JavaScript

ニューラルネットワークを用いたTweetデータの分類に関する研究

背景 / 目的

Twitterのシステム上, ユーザーが災害時にツイートを探しづらい
Tweetを分類して災害時に有益か無益か判断

提案手法

バックプロパゲーション（NN）
ツイートをJUMAN形態素解析に掛けてカテゴリ, リンク, 文字数などを説明変数に
ロジスティック回帰
NNモデルの検証・比較用

ソフトクラスタリングを用いた災害情報の分類

先行研究

RTに基づいたクラスタリング

択一的分類（ハードクラスタリング）が適切か？
著名人のツイートが同じクラスタにまとめられやすい

提案手法

Tweet間の類似性＝RTしたユーザーの重複率（Jaccard係数）
閾値を超えたらTweetノード間にエッジを貼る
ネットワークソフトクラスタリング[07 Zhang]

複雑ネットワークを用いた学術研究の動向に関する研究

背景 / 目的

既存研究から, ネットワークの中心にいる研究者はリーダーであることが言える
研究資金の分配
優位な研究者の特徴抽出

提案手法

科研費と研究者ネットワークの相関分析
共著者ネットワークの中心性と科研費の相関係数
研究者のクラスタリングから特徴抽出
10年前と現在の中心性の順位からクラスタリング

結果

研究者はリーダー・底辺・没落・成長クラスタの4つに分かれる
リーダー・成長クラスタに属する研究者の特徴

共著者数が多い
副分野を持つ人が多い
所属変更者が多い