株式会社iRidgeのアドベントカレンダー初日の投稿を任されました@aimofです! 本来なら初日は偉い人がやるところですが、12/1が誕生日なので投稿を譲っていただきました。
会社のアドベントカレンダーなのでネタに走りたい気持ちを抑えて真面目に業務に絡んだ話をさせいただきます。
今回のトピック「位置情報解析」
最近iRidge関係、プライベートともに社外で話す機会が増えてきました。その時に良い反応をいただけるのが位置情報解析の話です。
さて、iRidgeには一日あたり二億件の位置情報が集まってきます。膨大な量なので、その活用をビジネス化すべく日夜がんばっているかんじです。B2B2C企業なので利用にあたり制約は多いのですが、非常に面白みのある仕事です。
今回のテーマ「なぜ位置情報解析は難しいのか?」
位置情報の解析は非常に難しいです。こないだLT会で、位置情報解析に必要なものは「気合と根性=前処理」なんて話をしてきたのですが、とにかく面倒臭いです。
位置情報が持つ情報
- 緯度
- 経度
- 正確さ
- 時刻
- 端末、アプリ情報
- その他付随する情報
位置情報分析を難しくする要素
- 切り捨てる情報の選び方が難しい
- 一つの点だけではほぼ意味がない(点同士の関係が大切)
- 正確さが数十メートル単位なので正確な場所判定は難しい
- 一つの端末、アプリに対して点の数がバラバラ
- 他の情報をどのように組み合わせるか考えるのが難しい
- 機械学習しづらいよ!
- 道具の整備が不十分
切り捨てる情報の選び方が難しい
これは位置情報に限った話ではありませんが、ビッグデータ分析は使わない情報を考えてノイズを削除するのが大変です。
一つの点だけでは意味がないが関係性を考えると問題が生じる
おおよそ上のリストの通りなのですが、要は、計算がすごく大変だよってことです。
色々な手法を使って扱いやすい形にデータを落とさなければなりません。
- 一つの端末あたりで取得できる位置情報の数とタイミングがバラバラ
- 経度、緯度は楕円体(歪んだ球)上の点を表すため点同士の演算が複雑になる
- ただでさえ複雑な計算に時刻が絡む(しかも間隔は一定ではない)
この辺りが下手人。
正確さが数十メートル単位なので正確な場所判定は難しい
特定の確率で範囲内にいることを示す円の半径が正確さなのですが、数十メートル単位です。言い換えると、小さな店舗、ビルにいたかどうかを一点の位置情報のみから判断するのはほぼ不可能です。連続して近くにいれば、近くにいたことはわかりますがそれでも近くにいた、以上の情報とはなりません。部屋の位置レベルで特定できるの正確さがあれば、話は別なのですが……
位置情報から自店、競合店の来店情報を解析しています!みたいなことをいう企業は大概他の情報も利用しています。
一つの端末、アプリに対して点の数がバラバラ
一日を通して一回しか位置情報を送ってこない端末があれば、 1000回単位で送ってくる端末もあります。端末たちをうまくまとめ上げ、使いやすい情報にするのが難しいです。
他の情報と組み合わせるのが難しい
位置情報は付随する情報が大切です。普通の分析と違うのが、どの情報と結合するか考えるところでしょう。
機械学習しづらいよ!
- カラムバラバラ
- 点同士の関係が特殊
- バランスが悪い
というわけで機械学習するのが難しいです。
前処理が大変!
道具の整備が不十分
【脱GIS】Pythonとかで地理空間情報、位置情報を扱うための情報まとめ【随時更新】
昔書いた記事です。この記事に書いたのですが、一般に流通している分析ツールがまだ整備されているとは言いがたく、なかなか大変です。やりたいことが多岐にわたり、データが一定でないのが原因かなと思っています。
大変!でも楽しい
位置情報を処理するのは大変ですが、まだまだ誰も気づいていない新しい事実がそこら中に転がっている分野です。大変だからやりたがる人は少なめだけど皆が皆期待を感じている、そんな分野なのです。
位置情報分析をしよう!
位置情報分析、楽しいのでやりましょう。
もし同士がいればご連絡いただければ幸いです。