初めまして、ブレインパッドのデジタルソリューション本部プロダクトデザイン部 BrainPad VizTactプロダクトマネージャーの王です。
Small Dataってなに?
最近自分の仕事関係でよく聞くようになった”Small Data”というキーワードがありますが、”Big Data”と比較すると全く馴染みがないと思います。正直てっきり”Big Data”が流行りだしたあとに、ビッグデータと比べての”Small Data”かともいました。しかし、検索してみると意外とビッグデータが流行り出す前からすでに使われている言葉でした。また、2014年がSmall Dataの元年と言われているが、遥か前から日本の大学などですでに”Small Data”という言葉が使われていたようです。
日本とアメリカと中国の”Small Data”と”Big Data”のトレンドを比べてみました。Big Dataはどの国も減少しているに比べて、Small Dataは日本ではまだまだ注目されていないが、アメリカでは緩やかに上がっている傾向ではあります。
■アメリカのSmall DataとBig Dataのトレンド:
※2010年以後中国本土はGoogleより百度の検索エンジンを利用することが多いので、中国全域の結果ではないと考えられる。
実際3ヶ国語でそれぞれ検索してみると関連記事やブログの数もかなり違うように思いました。
多くの”Small Data”の記述の中で一番好きなのは下記の定義です。
スモールデータ(Big Dataおよび/あるいは「局所的な」情報源から導出された)タイムリーかつ有意義な洞察を、アクセス可能かつ理解可能、日々の業務でアクション可能なかたちに(そしてしばしばビジュアルなかたちに)体系化してまとめ上げたうえで、人と結びつけるものである。
Paul Greenberg (Special to ZDNet.com) 翻訳校正: 村上雅章 野崎裕子 2013-12-13 07:30
##Small Dataの価値
スタンフォード大学は、2017年秋に「Small Data」というタイトルのコースを開催していました。また、Martin Lindstromは企業がビッグデータだけに頼るのではなく、より小さな観察を通して優れた製品とサービスを創る方法についての本まで書いています。Lindstromは本の中で、“If one takes the top 100 biggest innovations of our time, perhaps around 60% to 65% percent are really based on Small Data” 訳:**"今の時代のトップ100のイノベーションを選び出す場合、おそらくそのうちの約60%~65%実はSmall Dataに基づいている"**と宣言しています。スモールデータの価値はすでに注目されるようになってきました。
また、誰でもデータ分析ができて、しないといけない今の時代ではBig DataとくらべたらSmall Dataの分析にかかった費用と効率の差が著しいです。
実際、データセットの規模とそれが生成できる洞察との間にはほとんど相関関係がなく、データが大きくなくても、データが役に立たないわけではありません。データから価値を引き出すということになると、データの大きさなどよりもデータを深く理解することが大事だと思います。
いまでは多くのデータを使用した分析することに注目していて、Big Dataから個人の価値を見落としていると思います。
例えば、パーソナライズの世界でBig Dataから発見のルールを適用するのは本当に顧客一人一人のためなのかとても疑問に思います。
##Small Dataの価値を活す
Small Dataをもっと活かせるために、まずは、Small Dataの限界を知っておいた上の利用が必要です。Small Dataは偶然のバラツキがあり、データ偏りがちです。しかし、それは有用でないという意味ではありません。手元のデータでできることとできないことを知ることは、そのデータから正しい答えを得るための鍵ではないかと思います。ですので、Small Dataで試すときにデータの内容と背景を理解することがとても大事になります。
データの内容と背景を理解した上で、データセットが十分に小さい場合、あるポイントに集中して視覚化することだけでも傾向を知ることができます。単純にデータをプロットすることでも、実は多くの場合、パターンをみつけることができます。
下記は”何か人々の幸福度を影響している”を調査するためのデータをBrainPad VizTactでプロットした結果です。
上記のように、「”自由”と”健康”が”人々の幸福度”に影響している」というような価値のある結果が誰でもわかるような表現で瞬時に出せることこそが、データ分析本当に目指したいところではないかと私は思います。
ただ、実は単にビジュアル化をすることでは、何か一番ターゲット(このデータの”人々の幸福度”を指す)に影響しているのかを判断することがとても難しいです。そこで、更にSmall Dataを活かす方法の一つ”拡張分析(Augmented Analytics)”という分野を簡単にご紹介したいと思います。
##拡張分析
Gartnerは2017年の新興テクノロジーのHype Cycleレポートで”拡張分析(Augmented Analytics)”という用語を作り出し、それが「データ分析の未来」であると主張しました。
下記はすべての国で”拡張分析(Augmented Analytics)”キーワードのトレンドとなります。この一年でかなり人気向上していることが読み取れます。
拡張分析はとは、機械学習やAI(人工知能)を組み込んだデータ分析のことを指す。 従来のデータ分析との違いは、AIに膨大な量のデータの構造を学習させることで、分析を行い、人々にインサイト(洞察)を提供するところまでを“自動化”できることです。データが生データソースから自動的に取得され、分析され、公平な方法で、人間が理解できる自然言語処理を使用したレポートで伝えられます。
ExcelやBIツールで分析する場合、担当している人が思いつく限りの結果しかでません。
多くのパターンを見るための労力とセンスが重要です。それに、多くの結果だしても最終的にどれか一番みたいターゲットに影響しているのがわからないままで終わってしまいます。
また、データサイエンティストの皆様が分析した結果を上司や顧客にわかるように、プレゼン資料を作ったり、結果を視覚化したりしていると思います。簡単な分類や回帰なら、一つのツールで分析を完結することもできます。
例えば、先程プロットした人々の幸福度に影響している要因を調査するためのデータでBrainPad VizTactの機械学習を組み込んだメニューでは下記のような結果がすぐに出すことができます。
結果はとてもわかりやすく言葉とグラフで表現しているので、データアップロードしてすぐに上記のような結果確認できて、BIツールで軸を考えてから出すよりはかなり効率てきではないかと思います。
最後に、まとめとしまして、データセットが小さいからといって、価値がないわけではありません。Big Dataの時代には、小さなデータの力を無視することがよくありますが、効果的に使用すれば、小さいデータセットでもビジネスに大きな価値をもたらすことができます。正しい考え方と手法でアプローチすれば、問題を異なる方法で見るのに役立つ可能性があります。