LoginSignup
2
5

More than 5 years have passed since last update.

Big Data Analytics Tokyo 1日目 参加メモ

Last updated at Posted at 2017-02-08

Big Data Analytics Tokyo に参加したのでメモを残す。

基調講演 実録!分析企業の起業秘話

草野隆史(株式会社ブレインパッド 代表取締役会長 )

12年前と日本ではかなり早期にデータ分析に注目して起業し、東証一部上場まで実現したブレインパッドの創業者の立場から、起業家としての学び、日本での分析をコアにした事業の立ち上げの難しさ、面白さ、オポチュニティの大きさについて、12年が経過した現在の人工知能ブームに沸く現状でも通用する点を中心に紹介をさせていただきます。

実録!分析企業の起業秘話

アジェンダ

  • 起業して今年で13年。どういう経緯でブレインパッドをつくったのか話す

経歴

サン・マイクロシステムズ

  • マーケティング本部
  • 大企業のIT利用の現状の理解
  • B2Bビジネスの理解

フリービット

  • 孫さんがブローバンドを買い占めて、データで何かできないかなと思った。
  • 2004年、A/Bテストのツールを販売し始めたが、この国には予測値がないという衝撃な事実に出会った
  • この国には予測値を出す文化がなかった

ブレインパッド

  • シーズしかないので営業を増やした
  • データマイニング 90年代に痛い目あっている人はビジネスにならないよと忠告された
  • 事例作りたくて「タダでもやりますよ」と言っても、「データがないんだよね」と言われた

  • 株式会社ブレインパッド

  • 現在社員 200名

  • プライベートDMP Rtoaster

  • 売上の94%がクライントのダイレクトな取引。誰も営業してくれないので、その結果

日本のマーケット

  • 日本のアドホック調査は50%
  • 世界の平均は25%
  • 企画書にペタッと貼るために、楽にするためにインターネット調査を使っているんじゃないかな

分析組織の立ち上げの難しさ

  • 分析組織を立ち上げるマネージメント人材の不足
  • 分析組織は、組織横断型の組織
  • プロであるデータサイエンティストの事業会社内のキャリア形成の難しさ
  • 結果としての人材の定着率の悪さ

なぜデータ活用がなされないのか?

  • 分析人材がいないから。けど、本当にいないんじゃなくて、 「分析をする仕事を会社がいないから」

  • 日本企業の半分にはCIOがいない。USAの比較

Marketing First!

受託分析で「予測」

  • 投資対効果がはっきりしているので、次の仕事がもらいやすかった
  • データを預かって分析した。人月だとシステム開発になる。分析結果200万円で効果あるでしょ、となった
  • データ分析って、ギリギリまでやってて、降順昇順を間違って、損害賠償した。これほど保険会社に感謝したことはない

  • SAPがで結構売れた。それで他のシステムを売り出した

  • 企業のIT部門から情報出して、となるとそれでお金が結構かかった。分析レポートのみであれば200万円だが、データ集計で400万円で計600万円となった。分析で600万円の効果を出せと言われた

入札最適化ツール

** Operation First!**

  • 業務プロセスをデータを使って改善していく
  • テレビ広告
  • 物流量予測

分析人材

  • 0
    • 日本には統計学部・学科がない
  • 1
    • データサイエンス学部も今年ようやく1つ目。そもそも理工系の学生の数自体が足りない
  • 0.6%
    • データサイエンスとして登録した求職者の割合
  • 6.11
    • 分析人材の転職求人倍率(全体平均 2.93)

変化の兆し

  1. 経営者の意識の変化
  2. 競合の変化
  3. 開発手法の限界
    • アジャイル

HADOOP / SPARK を中心としたデータエンジニアリング & データサイエンス基盤

有賀康顕(Cloudera セールス エンジニア兼フィールドデータサイエンティスト)

Cloudera Enterprise を使うことで、エンタープライズグレードの Hadoop / Spark 基盤の運用・構築が可能となります。大規模データを活用するにはどのように基盤を作れば良いのか、それらをどのように活かせば良いのか、データエンジニアリングとデータサイエンスの観点から SQL-on-Hadoop や Spark、Python を活用した機械学習についてご紹介いたします。

HADOOP / SPARK を中心としたデータエンジニアリング & データサイエンス基盤

なぜAIが人気になった

  • オープンソースとオープンな論文
  • arXiv で論文が公開された次の週にOSS実装が公開される

データの民主化の加速化

  • Cookpad は RedShift
  • Web ディレクタから依頼がって、エンジニアがSQLを書いて、渡す
  • データを一箇所に集めることで、データの活用が進む
  • エンジニアだけなく、企画職の人たちも SQL/BIツールを使い、改善のための指標を自ら考え、計測を始めた
  • 数秒から数十秒で対話的に分析ができる
  • データの権限を気にしない

50-80%が前処理に時間を費やしている

  • データエンジニアリングとデータサイエンティストで役割を分けている
  • Cookpad にいたときのWebディレクタは、大学のときから料理本を読み漁っている。でユーザはこういうときはこう思うよ、と答えてくれる

Spark

  • 最近は S3 に保存したテーブルに直接 SQL でクエリが投げられる
  • Python と Ibis と scikit-learn による素早くプロトタイプ

Demo

https://qiita-image-store.s3.amazonaws.com/0/120553/0250e42b-bdca-389b-8ca3-bb881e4e753d.png

機械学習の業務フロー

  • 2. 機械学習をしなくてもいい方法を考える
  • 高利子の技術的負債がたまるクレジットカード

大企業、ウェブ系、外資

  • 大企業、センシティブなデータを扱うので、ファイヤーフォールを囲ってガバナンスをきかせて、ネットワーク的に外部と遮断する

Big Data Analysis for Cyber Security

満永 拓邦(東京大学情報学環 セキュア情報化社会研究寄付講座 特任准教授)

昨今、サイバー攻撃による個人情報などの漏えいが後を絶たない。これは攻撃手法の巧妙化により攻撃を防ぐことは難しくなっているためであり、セキュリティ事故発生時の迅速な検知・対応により、被害の局所化を図る必要がある。本講演ではBig Dataとも言える膨大なログから、攻撃を効果的に検知する手法や可視化について紹介する。発表では、サイバー攻撃手法を紹介するとともに、ログの活用について紹介することで、サイバーセキュリティにおけるBig Dataの活用方法を提案する。参加者は以下の内容について学ぶことができる。・標的型攻撃等の攻撃手法・攻撃検知のためのログ活用手法

スライド写真

インシデント発生状況

  • 年間20000万件
  • スキャン 49.9%
  • サイト改ざん21.9%
  • 標的型攻撃0.9% 年間150件
  • 制御システム 0.2%
    • 工場など。PCからラインに対して電気信号がいく。PC windows アプリに
  • 最近は標的型攻撃と制御システム攻撃が流行っている

大容量のログへの対処

  • サイバー攻撃検知に向けたログ活用
  • Monitoring and Attack Detection
  • 大量の通信データなどに対して、分析、可視化をおこなうことで以上通信などの検知
    • Elasticseach, Kibana
  • IBM が監査

モチベーション

  • 裾野の広いところが手薄
  • [News]サイバーセキュリティ委員会を作ります

通信先の分類

  • 検知フェーズでは、Proxy で取得する複数の通信に対して、White、Gray、Blak に分類する

分析、悪意ある通信の類似性探索

  • 感染したPCかわからない場合、レコメンドのアルゴリズム(協調フィルタリング)が使えそう

デモ

https://lh3.googleusercontent.com/iCGIbHLUmNZayfg7yFrTh5mqNhlinkoyyMask6L62lzKN0NBGZ_Nc9qMzWm56FDHeRghmhvj_4vCcZg=w1356-h618-rw

攻撃者の分類

https://lh3.googleusercontent.com/clm3tNx6hqm-NUY5TsedBAP680e5fa58fqSwelSALpI92IbyG569W4Ihzhq5swlYJQ4Qw0XS_naB0yU=w1356-h618-rw

https://lh6.googleusercontent.com/Dsfa6CBkfpqb1fA60uHYX2IQ7_h-DrI1PXJVrxZwlAnb3mhozp0N15ujEBXK5itwdNf5__5N4ndvnjQ=w1356-h618-rw

  • 150件というインシデントが集まる。A社ではわからないが、IP、サーバー、など全てを表示すると、真ん中に悪いグループが特定している
  • ベンダーは公開している。パンダは中国、くまはロシア

SDN

  • Software-Defined Networking
  • SDN を活用することにより、脅威度に応じて、自動的に通信を振り分ける

All models was wrong but some are useful

シバタアキラ(DataRobot データサイエンティスト)

機械学習(ML)モデルは、DataRobotのようなツールを使うことで、簡単に大量に生成することができるようになりましたが、どのモデルを選ぶのが正しいのでしょうか?精度や、計算速度のような今までのモデル選択指標に加え、モデルの解釈可能性は、MLモデルを現実問題の解決に応用する上でしばしば決定的な要素として上がります。本講演では、革新的な手法を使って、MLモデルが学習したパターンと、モデルが計算する予測値の根拠をどうやって説明できるようになるのかをお話します。

https://lh3.googleusercontent.com/LcNW-cmEsKt4uJaV0-FgZtLVChg2xIzWAcVvQWVBe3iMj0OK4BVmOXQsZxlX5qFXeRdNzsBHWsaQBRY=w1356-h618-rw

All models was wrong but some are useful - George E.P Box

ブラックボックス -> グレーボックス

https://lh3.googleusercontent.com/eSzayDCXOeTJBc_snBCac5Lv5723Gs1sgZ5AHpu6MnqgFI-oaVsqhB8VeNMdvCMaDlqZ4iYXxJD48-s=w1356-h618-rw

  • シンプルなアルゴリズムを使うようにしている

    • こう入力パラーメタを入れて、こういう特徴を捉えていて・・・って説明する
    • reason code
  • kaggle

FINTECH企業におけるデータサイエンスの取り組み

伊藤 徹郎(株式会社マネーフォワード PFM本部)

近年注目されつつあるFinTech業界において、マネーフォワードがどのようなサービスを提供しているか。また、データサイエンスや機械学習などの取り組みをどのように考え、組織として推進しているかをご紹介します。対外的には綺麗な取り組みの事例が多いですが、新しい取り組みを推進する上での避けられない障害やその乗り越え方、苦労話や注意すべき点などもご紹介いたします。

発表資料

マネーフォワードのご紹介

ミッション

  • 「お金を前へ。人生をもっと前へ。」

事業概要

  • PFM(personal Financial Management)事業
  • 個人向け自動家計簿・資産管理サービス
  • MFクラウド
  • ビジネス向け

マネーフォワード

  • シェアNo.1 2600以上の金融サービスに対応
  • 平均月11,642円の収支改善

  • 自動分類がユーザに支持されている

  • レシートを紙の家計簿で手入力して見える化していたのを、自動化して圧倒的に楽にしたこと

  • お金の使い方を変えたという人が増えた。家計の管理でライフシフト。

FinTech

  • 日本のおけるFintech企業の分布
  • 左側の規制がないところにベンチャーが増えていた。右側の既存規制のエリアにもベンチャーが増えてきた。

データサイエンティストの取り組み

セキュリティ

  • セキュリティポリシーを決めている。銀行は報告義務ある。マネーフォワードはないが同等のセキュリティ。
  • 一箇所に集めるとあったが、銀行のデータの場合、漏れたときどうするのか、とあるので、アクセス権限を決めている。

  • 差分プライバシー

2
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
5