概要: Microsoft Azureのラインナップ展開を通じて、2015年の技術動向を調査する。ガートナー2014の報告通り、ビッグデータは死にゆくワードとなり、IoTは期待値が高まってきている。それに伴い、機械を用いた「知能もどき」の利活用が進んでいくと思われる。
まとめ
- 巨大企業からの技術公開により、近年の大量データの集計、統合、利用のプラットフォームがオープンになりつつある
- 人間の「知能」に相当するものを機械に置き換えることで高い付加価値を提供している(e.g., Prediction API, Azure ML, Pepper, Watson)
以下、Azureコミュニティイベント(GoAzure 2015)での発表のメモ(全23セッション中2セッション)。
IoT大量データをStream Analyticsでリアルタイムデータ分析
- IoT大量データをStream Analyticsでリアルタイムデータ分析
- Hidemasa Togashi (Capy Inc.)
Capy
- puzzle captcha
IoTのマーケット規模
- market size: 15T USD in 2034 ~ GDP of USA 2013
手法
- Batch
- Interactive/MPP
- Amazon Redshift
- Apache Spark
- Big Query
- Realtime
- Storm
- Norikra
- EsperTech
- Amazon Kinesis
- Azure Stream Analytics
膨大な入力
- 受信
- 送信
- 処理
類似製品
- Storm
- EsperTech
- Apache Kafka
リアルタイム
- Norikra
- fluentd
独自プロトコル
- Kinesis applications
- Amazon Kinesis
Event Hubs (Azure)
- Azure Event Hubs
Azure Event HubsはKafkaみたいなもの。
-
HTTP(S) (supported)
-
MQTT
-
CoAP
-
AMQP(S) (supported)
-
SQL
Windowing
3種類対応
- tumbling
- hopping
- sliding
ユースケース
- 不正アクセスの検出
はまった点
- Event Hubsのイベントをsubscribeできない
- Qpid-Protonを使用した
- ConsumerGroupとPartitionの指定が必要だった
- AMQPのDirect Connectを使うとPartitionの考慮が必要だったので、使うの止めて、WindowsでEventProcessorHostを使うことにした
- Stream AnalyticsからのJSONデータがデコードできない
- JSON出力がmalformなので、手元で修正して利用している
課題
-
以下の設定を変更するにはStream Analyticsの再起動が必要
- Inputs (Blob)
- Output
- Query
- Scale
-
キャパシティのメトリックスが分かりにくい
- in/out events, data conversion errors, out of order eventsしか取れない
-
event subは事実上EventProcessorHost以外で使えない(使いにくい)
展望
- IoTのトレンドは伸びていく
- 20年前のInternetのよう
Azure MLでマシンラーニング
- Azure MLで機械学習をやってみよう
- Ryuichi Tokugami (aucfan)
ビッグデータ活用
- Organize (何が起こった)
- Analysis (何で起こった)
- Monitoring (何が起きている)
- Prediction (何が起こる?)
Predicitonには複雑な作業が必要
- predictionは過去のデータが必要
- 時間の差以上に価値の差が広がる
2014年以降出荷された製品
- IBM Watson
- Azure ML
- SB Pepper
機械学習!=人工知能
人工知能
- 強いAI (strong AI)
- 知能そのもの
- 弱いAI (weak AI)
- 知能の代替ができるもの
Azure ML
- ブラウザでできる
- D&Dで簡単に
- HW/SW不要
- 世界で一番簡単
できること
- 2値の分類
- 複数値の分類
- 回帰を使った予測
- 複数の基準を持った、並び替え(レコメンドエンジン)
- クラスタリング
概念
- もっとも大きな論理単位はWORKSPACE
- EXPERIMENTというモデル
- WORKSPACEごとにDATASETというデータを追加
- DATASET共有可
- ML Studioでモデルを作成
Module
- 上からinput、下からoutput
デモ
- スキー用品の価格予測
- 取引件数
- 流通総額
- 平均価格
価格
- 8 JPY/h for preview (安い)