#はじめに
5章目です。
この章では、IoTにおけるデータの集め方や活用方法、機械学習について触れていきます。
【今回取り組む内容】
・5-1~5-4 (テキストP144-155)
データの分析手法や活用、統計に関する知識について学ぶ。
#5-1 IoTでデータを活用
####データ分析と活用方法
IoTの普及に伴い、IoTに関わるデバイスも膨大な数になっている。
総務省の予測によると、2020年には世界で300億ものIoTデバイスがインターネットに繋がり、
たくさんのデータ(ビッグデータ)が多く発生することが予想される。
折角生まれた情報資源を、価値あるサービス・商品の創造に使えないかといった取り組みが、先進国を中心にして盛んに行われている。
####企業におけるデータ分析
企業は、IoTシステムで取得したデータをビジネスに役立てようと利用している。
例えば、コンビニやスーパーといった販売店は、売れた商品のメーカーや値段、入荷日といった情報を日々記録し、データとして積み上げている。
データは集計され、よく売れた商品のメーカーや種類を基準に今後の入荷を判断する。また、統計の知識を用いることで、今まで分からなかったような情報、例えば、○曜日に雑誌が売れやすいといった「隠れパターン」発見できる。
これを**データマイニング(Data_Mining,データの採掘)**と呼び、膨大なデータから有用な知見や価値を見出せる技術として注目されている。
他にも、企業で取得したデータを用いて、ビジネスでの意思決定の判断材料にするデータ分析を**ビジネスインテリジェンス(Business_Intelligence)**と呼び、顧客への提案でったり、新規ビジネスの提案、管理の効率化といったあらゆる局面で役立っている。
データ分析では、まず課題、目的を明示してからデータを集め、どういった手法で分析していくかを考えなければならない。加えて、統計の知識も必要になってくる。
普段は表作成やデータベース構築に使われる、Microsoftの**Excel(エクセル)やAccess(アクセス)**が分析ツールとしてもよく使われるが、
本格的に分析するならSAS(Statisical Analysis System)やSPSS(Statistical Package for Social Science)というツールがある。
####IoT時代のデータ分析
様々な場所にあるIoTデバイスが取得したデータは、どこからでもアクセス可能なクラウドに集積され、分析が行われる。
日常的に送信蓄積されるデータは1テラバイト(1024GB)、1ペタバイト(1024TB)と恐ろしく大量のデータとなるので、それを管理、分析しなければならない。
こうしたビッグなデータを処理するため、Hadoop(ハドゥーブ)やApache Sparkのような、ビッグデータの分散処理に特化したソフトウェア基盤を利用する。
クラウドに処理を一任すると、通信の遅延や回線負荷といった問題が考えられる。
そこで注目されているのが**エッジコンピューティング(端のコンピューティング)**であり、IoTデバイスの周りのシステムで一部処理を行い、クラウドの負担を減らそうといった作戦が取られている。
通信負荷や遅延が減るので、リアルタイムな活用、例えば、通信障害が大きいリスクに繋がるドローン操縦や自動運転での活用が期待される。
最近注目されているAI技術、機械学習・深層学習を使うのも、今まで人が見つけられなかった「隠れパターン」をビッグデータから発見できる大きな可能性を秘めている。
#5-2 データ分析とアプローチ手法
####分析手法
可能性があると言っても、ただ闇雲にデータを集めて分析しても何か見つかるとは限らない。
発生している問題や、新たアイデアを裏付けるなど、目的を明らかにした上で、達成のために動くことが重要である。
以下では、2つの有効なアプローチ手法を紹介する。
####・【手法1】PPDAC
PPDACとは、
Problem 問題
Plan 計画
Data データ
Analysis 分析
Conclusion 結論
の頭文字からなるデータ分析の進行手法である。
以下に、その手順を示す。
①Problem(問題)
データ分析をする目的・問題を明確にする。
以降、何をするべきかを分かりやすくするステップ。
②Plan(計画)
分析の計画を立てる。
必要なデータ、入手方法、問題解決を目的とした分析手法といった項目を挙げ、
期間も考慮した上で計画を立てていく。
③Date(データ)
計画に沿ってデータを集め、状況に合わせつつ管理する。
④Analysis(分析)
収集したデータ(生データ)は、欠損や外れ値(他と大きく異なるデータ)といった、分析には向かない要素を含むので、異質なデータを排除するクレンジングを行う。
(クレンジング→洗剤とかのアレ)
クレンジングしたデータを、計画にのっとり分析する。
⑤Conclusion(結論)
分析結果をまとめ、Problemステップの問題解決に至ったかを評価する。
評価に満足しなければPloblemステップに戻り、再度問題提議し、作業を行う。
①-⑤の順番、場合によってはサイクルで分析を行うのがPPDACである、
####【手法2】仮説に基づくデータ分析
収集されたデータに対し、仮設を立ててから作業を進めていく手法。
**イシューツリー(Issue Tree,問題の木)**という樹木図を使って、作業を進めやすくする。
テキストでは、「故障が多発する」といった問題提起に対し、それがなぜ発生するのか仮説を立て、それに関わっているデータを挙げ、どういった手法で分析するかを判断している。
問題(故障の多発)→仮説(天気が関係ある)→データ(温度、湿度)→分析
重要なのは、分析に使うデータを絞ることである。闇雲にデータを集めず、仮説を立てて、目標を絞っていくことが大事である。
#5-3 統計と確率
####活用方法
複雑かつバラバラなデータを表・グラフにまとめ、データの特徴を見つけて、いろいろな現象を説明するのが統計学である。
ビジネスの分野でも統計は重要である。客の動向から仕入れる商品を考えたり、アンケート結果をサービス充実に活かすのも統計の知識を利用している。
####基本統計量
統計で用いる基本的なデータを基本統計量と呼び、テキストでは以下を示している。
・平均
・標準誤差
・中央値
・最頻値
・標準偏差
・分散
・尖度(せんど)
・歪度(わいど)
・範囲
・最小
・最大
・合計
・データの個数
分散はデータのばらつきの度合いを示しており、平均から離れるようなデータが多いほど高くなる。
標準偏差は分散の平方根で、こちらもデータのばらつき度合いを示している。
####8月1日の気温の傾向
ヒストグラムと呼ばれる、度数分布、数値の分布を視覚化したグラフを用いると、どういったデータが多く存在しているかを分かりやすく見ることができる。
一番値が高い帯の温度と、平均値が一致していることが見て分かる。
####30℃以上になる日の確率
集めたデータから、どの位の確率で30℃以上になるかを計算する。
このとき、平均値と標準偏差を用いた正規分布が役立つ。
正規分布とは、さまざまな現象がどのくらいの確率で発生するか示すモデルで、しばしば利用される。
Excelに平均値と標準偏差を入れることで、標準値を簡単に求められる。
山のようなグラフ(y軸:割合、x軸:気温)が表示され、気温別に図形を切り取ることで、面積から気温の発生確率を求めることが出来るようになっている。
経験的な値や、誤差だと思った現象を統計で分析することで、客観的な説明ができるようになる。
#5-4 相関と回帰
####解析の狙い
気温が高いと冷えた飲み物が売れるといった、一方の値の変化で他の値が変化するような関係を把握することで、ビジネスの充実をはかることができる。
####相関分析
テキストは、気温とビール販売数を**散布図(データ値をプロット、点として記録した図)**で表している。
統計手法の一つである相関分析は、関係の強さを-1 ~ +1で示し、
プラスは**正の相関、片方が増えると対象も増える。シンクロしている。
マイナスは負の相関、片方が減ると対象は増える。**互いに逆方向に向かう。
一般的には、±0.7以上で強い相関関係と言われる。
この係数も、Excelのcorrel関数を用いることで計算でき、気温とビール売上数には、強い正の相関関係があることが分かる。
####回帰分析
散布図に、回帰直線という直線を引くことで、気温ごとの売れるビール数の見込みを予測できる。
回帰分析という、多変量(今回は気温とビール売上)の関係を解析する手法で、1次方程式での予測を可能にしている。
####関係性の強さ
相関関数は、±0.7以上で強い、±0.7~0.4でややあり、±0.4~0.2で弱い、±0.2以下で相関ほとんどなしと一般的には判断される。
相関係数が弱い場合、他に相関関係の強い数値が隠れている可能性があり、さらなる検討が必要になる。
#試験に出そうなところ
ビッグデータの活用技術や事例は、5つある出題カテゴリの1つを占めているので、問題数も多くなる可能性があります。
莫大な量があり、扱いにくそうなビッグデータをどう取り扱うか、といった旨の問題は出てもおかしくないでしょう。
統計関連は、聞きなれない言葉が出てきても対応できるようにしたい。
####データ活用
・企業が、IoTで取得したデータを使う理由は?
・データマイニングとは何か?何のために使われるか?
・ビジネスインテリジェンスとは何か?どういった手順、知識が必要か?
####ビッグデータ
・なぜ、取り扱うデータ量は増え続けているのだろう?
・ビッグデータを扱うクラウドで発生する問題と、対応策は何か?
####分析手法
・【重要】PPDACとは何で、どういったことをするか?
選択肢で出しやすそう。データを集める方法の検討は、PPDACのどこに該当するかとか
でかでかと図のせてるし、数回の試験で出る可能性高そう。
・仮説に基づくデータ分析は、どういった手順で分析をするか?
####統計関連
・基本統計量とはどういったものを指すか?
テキストでは平均、標準偏差、分散にしか詳しく触れていないが、試験では他の値に関する問題も出てくるのだろうか?
取り敢えず、どの値がどういったことを示すかぐらいは覚えておいたほうが良いかも?
・分散、標準偏差は何を示しているか?
・ヒストグラムから何が分かるか?
・正規分布は、どういった数値で構成され、何が分かるか?
####相関・回帰関連
・相関分析とは何か?相関係数は何を示しているか?
・回帰分析、回帰直線とは何か?