午前 データ分析、機械学習のプロセスや手法についての座学
1.データ分析概論
IoTをどう活用するか、データ分析の目的は何か、どんな手法で分析するかという内容。
統計の手法1や、QC7つ道具2、モデリングの手法3を紹介していた。
2.機械学習概論
機械学習の目的、種類、そしてそれをどう処理して応用するかという内容。
従来の機械学習と深層学習(ディープラーニング)の違い4、画像認識システムへの応用5を紹介していた。
感想
午前は工学系の大学でやるような内容だった。
特に1は、自分が高専の授業で習ったものと重なる部分も多かった。
効率良くデータ分析をするにはどうすれば良いか
という観点から、いくつかの具体例を提示して適解を紹介していた。
「ほぉほぉ、こんな方法があるのかぁ」という感じで聞いていた。
午後 Pythonを用いたハンズオン
3.機械学習プラットフォーム
様々なプラットフォーム6を紹介した上で、Pythonの代表的な機械学習ライブラリであるScikit-learnと、Googleが開発を行っているTensorFlowに焦点を当てていた。
また、Pythonのプログラミング環境として、初心者向けのJupyter Notebookの使い方を紹介していた。
4.機械学習手法の理解
機械学習の利用シーンを3つを上げ、それぞれに適切なアルゴリズムでハンズオン学習を行った。
利用シーン | 説明 | アルゴリズム |
---|---|---|
クラス分類 | データに適切なクラスを割り当てる | SVM7 |
回帰 | 過去の傾向から未来の値を予想する | 線形回帰8 |
クラスタリング | 類似性からデータをグループ化する | K平均法9 |
5.実践的な機械学習の利用
はじめに、気象データと電力消費量のデータを元に、2つのデータのヒストグラムを作成し、それらのデータを結合することで、
気温と電力消費量の関係をひと目で分かるようなグラフ
をpythonで作成した。
その後、実際に機械学習を用いて、気象データから電力消費量を予測した。
データの準備
→機械学習の実行と評価
→実測値と予測値の相関グラフの作成
という一連の流れで機械学習を体験した。
感想
自分自身、機械学習というものに触れたことがなかったので、慣れない部分も多かったが、視覚的にわかりやすく学ぶことができた。
どんなデータを渡すかで機械学習の精度が大きく変わったり、適切なアルゴリズムを用いないと精度が落ちたり、驚かされる部分も多かった。
今回の例では、気温
、日照時間
、時刻
、日付
を用いたときに精度が一番良く、それに風速
、湿度
を加えると精度が落ちた。
何でもかんでも、データを無造作に与えれば精度が上がるというわけではなく、与えるデータを選別しなければいけないようだった。
-
分布の中心傾向を表す「最頻値」「中央値」「平均値(相加平均、加重平均、移動平均)」、分布のばらつきを表す「分散(偏差平方和、標本分散、不偏分散)」「標準偏差」「正規分布(ガウス分布)」など。 ↩
-
「層別」「パレート図」「ヒストグラム」「チェックシート」「特性要因図」「散布図」「管理図」を
QC7つ道具
という。 ↩ -
機械の故障分析などで利用される「SVM」や「決定木モデル」、ある数値から別の数値を予測する場合に使われる「線形回帰モデル」、顧客分類などに利用される「クラスターモデル」や「K平均法」など。 ↩
-
例えば、何かを分類したいとき、「色を見て分類しろ!」と人間が着眼点を指定して、人工知能が分類を行うのが従来の機械学習である。深層学習は、着眼点を人間が教えなくても、人工知能が森羅万象の中からパターンを見つけ出してくれる。 ↩
-
そのままの画像ではデータサイズが大きすぎるので、「畳み込み層」や「プーリング層」を用いて計算コストを軽減したりするらしい。 ↩
-
「Google Cloud Platform」「Azure Machine Learning」「Amazon Machine Learning」「IBM Watson」「Caffe」「Chainer」「PyTorch」など。 ↩
-
「マージン最大化」や「カーネルトリック」などを用いて、最適に分類する。 ↩
-
「最小二乗法」を用いた。 ↩
-
K平均法の動作原理を可視化したサイトがある。 ↩