正確な情報を得て活用するにはデータ管理大事!
ということで、緑の会社は何にしてるのか聞きにいきました。
あとCyberZが前職の競合案件だったので気になりました。
前だし感想:CyberZ凄い!!
(引用)
"第二回!道玄坂LT祭り"を開催します!
今回のテーマは「統計機械学習やそれに関わるミドル祭り」です。
LTが日本でも広く普及した印象がありますが、
「統計や機械学習もカジュアルに語りたい」
「緑の会社でこんなことやってる」
などの思いをもった方も増えてきたと思います。
そこで今回はゆるく飲みながらサイバーエージェントグループ含めて統計や機械学習に関わるエンジニア話を共有したいと思います。
ぼくはTableau CyberZ 遠藤
Hadoopに貯めたデータ活用できてますか?
Impala使用してます。
「課金UU知りたい」×無限
→対処方法:可視可してあげる
BIツール活用(そうだtableau!!)
tableau:Excelのリッチ版(Impalaにつながる・Hadoopとも連携できる)
表作成カンタン。
しかし・・・
エンジニア以外にデータ構成を説明するのが難しかった。
よかった点
tableauでデイリー更新やバッチ設定ができる。
グラフがあるのでいろいろな人が見やすい。
希望
mapとarrayに対応して欲しい。
特徴ベクトル変換器を作った話 ところてん
タナザワ:タイトルから意味不明。。。
ところてんさん:ZenClerkの雑用してます。
ECサイトをみてる人をリアルタイムで解析。
データ分析の流れを説明。
マエショリスト(データの前処理)を中心に仕事してます。(データフォーマットの変換、特徴量チューニング)
なんとなくわかった。
例:大量のログを取得→加工→サービスに反映(データからどうやってインプレッションを取得するか、広告屋に良くあるシステム)
ぼくもTableau Cyberagent 和田
(遠藤さんの続き)
タナザワ:この資料すごく綺麗!!
資料 道玄坂Lt#2 wdkz
Tableau with R (R使えるようになりました!)
Tableauでk-meansを使ってます。
結論:\もうShinyで良くない?/
タナザワ:とりあえずカオス!!
Spark DataFrames Introduction いしかわゆう
資料 Spark DataFrame Introduction
Apache Spark使ってます。
Hadoop MapList より10倍位速い。
プレモルタイム 飛び込みLT可
30分ほどナチュラルウォーター会(モルツ! が、飲めない・・・@タナザワ)
適切な分析の話 あんちべ
・前向き調査法
例:はじめに100人集めてずっとその100人を調査する方法。
・後ろ向き調査法
追跡調査するのでなく、○○したかをどうかを後から見る調査方法。
前向きか後ろ向きの調査方法なのかしっかりと把握して統計しないと間違いのもと。
調査法によって注意点がかわるため。
単純な比はとっていけない。
単純な比を見るのではなく、オッズ比で見ないと、データの認識を間違えるので注意。
タナザワ:数値の比率マジック。数値を複眼的に見る方法!新世界。
萌え要素のシナジー効果を探る 髙野
役にたつ発表ではございません!!ビール飲んでください
より萌えるにはどうしたら良い?
萌え要素を組み合わせて相性の良い萌え要素をさぐる。
pixiv、ニコニコのデータつかいまーす。
結果:
◆シナジー効果が高いもの
巨乳×小柄
バニーガール×オッドアイ
ショタ×ゲス顔
ロリ×ババア
・・・タナザワ:ひどい内容だったので自粛します!
資料 萌え要素のシナジー効果を探る
SparkStreamingを試してみた DMM.comラボ 田中
SparkStreamingを使ってみた話。
ユーザの行動ログや購入履歴などから行動分析・機械学習を行ってます。
SparkML、GraphX、SparkStream の構成。
・最初の問題
プログラムの実行方法がわからない。
タナザワ:見たかんじjavaの構成ですー。
・次の問題
動作モードがわかんない。
タナザワ:scalaでした。分散処理させるためにがっつり実装。
twitter4j(http://twitter4j.org/ja/)の設定がチラっと露出。
GraphXで分散グラフ処理 DMM.comラボ 加嵜
リアルタイムレコメンドシステム実装中。
ツイッターのトレンドをリアルタイムで拾ってDMM内の商品をレコメンドする。
ツイッターから5秒毎にツイートを取得して処理してるらしい。
タナザワ:是非ECで使いたい機能!
Apache Hama、GraphLab、GraphX 使ってます。
バルク同期処理(BSP)をグラフ描写で行ってます。(データをどうやってマージしながらグラフ描写するか)
Impalaで高速に分析する Cloudera 嶋内
Impala = Hadoop用の最高の分析ツール
データの前処理のだるさを理解しろ!!
タナザワ:自作したすべてのまともなスライドを一切スルー。ひたすら語る。分析者は下々の痛みを理解しろと。
資料 Impala概要
・データの取り込みについて
生データをすべてHadoopにまかせるでない!(出口の見えないトンネル)
データの意味を解釈するために前処理の人は頑張るしかない。出口の見えないトンネルを歩こう!!
機械学習システムの開発と運用 Cyberagent 數見
Hbase入門本の紹介
仕事:スパムフィルタリング、投稿監視などを行ってます。
・機械学習はメンテナンスコストが高いのが問題。
1.実験評価環境の整備
あとの運用を予測して設計するのが理想
2.モデルバージョンの管理
バグ時の切り戻し
3.モニタリング
なにを?
パフォーマンス変化、素性の分布の変化
再学習のタイミングを知ることができる。
おれは人工知能!
無茶振り枠らしい。博士な人。
・人工知能について語る。
・広告×AI 広告をAIにやらせたい(クエリを考える手間の削減)