More than 1 year has passed since last update.

ElixirAdvent Calendar 2022

@piacerexin

fukuoka.ex：福岡Elixirコミュ

Elixirで機械学習に初挑戦①：基礎知識とLivebook＋Nx＋Axonによる機械学習入門

Last updated at 2023-05-05Posted at 2022-12-08

この記事は、Elixir Advent Calendar 2022 2の8日目です

昨日は、@the_haigo さんで「Livebook + Evision基本編 Evision(OpenCV)でお手軽画像処理でした

piacere です、ご覧いただいてありがとございます

この2年間で、Elixirの機械学習環境が凄まじく発展し、プロダクションに実戦投入しても問題無いフェーズに入ったので、「Eixirで機械学習に初挑戦」をテーマにシリーズコラムをお届けします

入門者向けに「機械学習とは何か？」や、機械学習の中で出てくる数々のキーワード解説もしていきますので、AI・MLの知識が無いWeb開発者／IoT開発者の方や、PythonでAI・MLを学んだけどイマイチ入らなかった方、Elixir経験者だけどNx／Axon／Livebook等の新テクノロジーに追いつけていない方にも、スッと入りやすい内容としてまとめていこうと思います

今回は、機械学習の最低限の基礎知識を入れつつ、カンタンな実装も行ってみます

なお、本コラムに対し、更に分かりやすい解説を @RyoWakabayashi さんが書いてくれていますので、本コラムを読んでいて難しいなぁ…と感じた方は、コチラをご参考に理解を深めてください

また、下記のように、本コラムをベースに、ゼロから解説するハンズオンイベントも開催していますので、connpassメンバー登録をして、イベント開催通知をお待ちいただくのも手です

Elixir Advent Calendar: 言語カテゴリ1位+全カテゴリ2位!

例年を遥かに超える盛り上がりを見せ、堂々のトップ獲得ッ！

https://qiita.com/advent-calendar/2022/elixir
https://qiita.com/advent-calendar/2022/ranking/feedbacks
https://qiita.com/advent-calendar/2022/ranking/feedbacks/categories/programming_languages

本シリーズの目次

①：基礎知識とLivebook＋Nx＋Axonによる機械学習入門
|> ②：機械学習コードの解説と「学習データの可視化」「学習過程のアニメ化」
|> ③：「予測」の可視化と「精度」の変化要因、「学習過程グラフ」の読み方
|> ④：データ処理に強いElixirでKaggle挑戦（前編）…「データ前処理」基礎編
|> ⑤：データ処理に強いElixirでKaggle挑戦（後編）…「統計」と「EDA」でKaggleに挑む
|> ⑥：いま、Elixir AI・MLで何が出来る？ → Elixirのメリット→2023年に攻略する領域

本コラムの検証環境

本コラムは、以下環境で検証しています（恐らくUbuntu実機やMacでも動きます）

Windows 10 ＋ WSL2 ＋ Ubuntu 22.04　※最新版のインストール手順はコチラ
Elixir 1.14.2　　　　　　　　　　　　　※最新版のインストール手順はコチラ
Livebook 0.8.0

機械学習（ML：Machine Learning）とは？

ズバリ、

「入力と出力から自動的に振る舞いを学習するアルゴリズム」

のことを指します

以下のような特徴を持っています

人間がプログラミングせずとも、入力データのパターンから、出力データを「学習」します
「学習」に基づいた「予測」を可能とします
「学習」は、入力データと出力データの「関係性」に対して行われます
「機械学習」≒「Machine Learning」の頭文字を取って、「ML」とも呼ばれます

機械学習ってなぜ流行しているの？

これもズバリ、

「人間が頑張らなくても、予測精度の高いプログラムが自動生成できた」

という点がウケた理由です

そうなるまでに至る経緯は、以下の通りです

「機械学習」という言葉自体は、1960年から使われていました … が …
- コンピュータ性能があまり高く無い時代だったため、機械学習がマトモに使えませんでした
- その状況は、グラフィック向けの「GPU」がそれなりの性能となる2000年代まで続いていました
予測精度向上のための入力データ自動選定ができず、人間が苦労しなければプログラム化不可でした
こうした状況から、システム利用が困難で、期待に応えられない失望期が2000年代まで続きました
2012年に生まれた「ディープラーニング」で、高い予測精度のプログラムの自動生成に成功しました
- 入力データの自動選定が可能となりました
- 人の感性にも合う予測精度を、人間の苦労無に実現できるようになりました
- こうして、ディープラーニングがブレイクしました
このディープラーニングが流行する余波で、機械学習にも注目が戻ってきました

このような流れから、現在の機械学習の流行へと繋がっています

機械学習はどういった場面で活躍するの？

これまたズバリ、

条件や行動履歴などから、予測や識別を行う

という場面で活躍します

以下のような代表例があります

問題検知／不正検知：正規の行動で無いものを見つける
- 例）クレジットカード作成の審査でNGの人を検出する
レコメンド：人の行動傾向を他の多人数と比較し、次の行動を推奨する
- 例）商品購入傾向から推奨商品をオススメしたり、広告を出す
価格予測：対象の価格を左右する条件／データを元に価格予測を行う
- 例）物件の周辺情報や物件の写真から不動産購入価格を予測する
画像／音声／自然言語識別：特徴から対象を特定したり、その状態を特定する
- 例）画像／音声／自然言語から対象が何者であるかを識別したり、感情特定をする
画像／音声／自然言語生成：特定の入力傾向から期待する出力を得る
- 例）相手が人であるかの如く、投げかけた言葉から画像／音声／自然言語を生成する

参考：AIやニューラルネットワークとの関係性は？

ここが、やや分かりにくいところかも知れませんが、

機械学習 ≒ AIの1バリエーション
ニューラルネットワーク ≒ 機械学習の1バリエーション
ディープラーニング ≒ ニューラルネットワークの1バリエーション

という関係性になります

図示すると以下のようになります（現時点で、下図の内容は把握しなくてもOK）

AIには、機械学習以外に「エキスパートシステム」などがあります（覚えなくてOK）

機械学習には、ニューラルネットワーク以外に以下のようなものがあります（覚えなくてOK）

k近傍法
線形回帰
リッジ回帰、ラッソ回帰
ロジスティック回帰
決定木
アンサンブル学習
- バギング（ランダムフォレスト）
- ブースティング（勾配ブースティング、AdaBoost、XGBoost、LightGBM）
- スタッキング（メタモデル）
単純ベイズ
サポートベクターマシン
隠れマルコフ
ベイジアンネットワーク
k-means
階層的クラスタリング
DBSCAN
EMアルゴリズム
主成分分析（PCA）
NMF
混合ガウス
LLE
動的計画法
モンテカルロ法
時間的差分学習

ニューラルネットワークには、ディープラーニング以外に「単純パーセプトロン」などがあります（覚えなくてOK）

機械学習でどのようなことが可能になるのか？

機械学習（以降MLと省略）を使うと、どのようなことが可能になるのか、カンタンな例で解説します

①画像識別

たとえば、以下のような特徴の強弱で配置された「犬」と「猫」の画像群があったとき、線を1本引いて、「犬」と「猫」を分割するとしたら、どこに引きますか？

こんな感じでしょうか？

このように、2つの種類を識別するような線を自動特定できるのが、MLの出来ることの代表です

なお、いきなりズバリな線を、人間のように特定することはコンピュータには不可能なため、最初はランダムな線を引き、徐々にイイ感じに識別できる線を求めていきます（これは現時点では、あまりピンと来なくてもOK）

ここでは、「犬」を「0」、「猫」を「1」として、そこに近い画像ほど「0」や「1」という数字が振られ、「犬」とも「猫」とも付きにくい画像ほど「0.5」に近い数字が振られた状態で、イイ感じに識別できる線を「学習」していきます

このような仕組み上、たまにハズレも出します … 下図の緑枠は、「犬」なのに「0.5」以上で識別されてしまい、「猫」と間違えた例です

全14匹中、1匹のハズレは、「正解率92.8%」という評価となり、これを「精度」と呼びます

②手書き文字識別

「犬」「猫」のような2種類の識別だけで無く、複数種類の識別もできます

たとえば、下図のような、人が書いた「0」～「9」の手書き文字を識別するといったものが代表例です

このような、複数種類の識別を「多クラス分類」と呼びます … 「クラス」とは「種類」のことを意味するので、「多クラス」とは「多くの種類」を意味します

一方、先ほど見た「犬」「猫」のような2種類の識別は、「二値分類」もしくは「2クラス分類」と呼びます

「多クラス分類」により、たった10種類の手書き文字だけで無く、1,000種類の動物や無機物を識別する … といった使い方もできます

こうして「人物認識」や「表情からの感情分析」、「自動運転」といった複雑なタスクも実現可能となる訳です

また、ここでの例では、主に画像識別を扱いましたが、画像だけに限らず、音声や自然言語など、様々な領域でMLが利用できます

そして、こうしたことを実現するプログラムを人間がイチから作らなくて良い … コレが機械学習の凄まじい可能性です

機械学習の3つのタイプ

ここまでは、MLによって、どんなことが叶うかを解説しました

次は、学習方法によってMLは以下3種類に大きく分かるという解説です

①教師あり学習
②教師なし学習
③強化学習

ここでは、まず「①教師あり学習」を解説し、その後、教師あり学習のプログラミング演習をしたいと思います

「②教師なし学習」「③強化学習」については、別途、解説します

①教師あり学習

入力データに対して、「ラベル」という正解となる出力データを紐付けることで学習するのが「教師あり学習」です

たとえば、「犬」や「猫」の学習は、下図のⅰ）にあるように、「犬」や「猫」の画像データと、その画像データに紐付く「0」や「1」の「ラベル」を投入することで学習をさせます

学習が終わったら、ⅱ）の検証データである「犬」や「猫」の画像データによってMLに予測（識別）をさせ、それが「ラベル」と合っているかをもって精度の評価を行います

ⅱ）で問題無かったら、ⅲ）の未知データを投入し、「犬」か「猫」を識別させ、それが人の判断と同じであれば、期待通りに識別ができているということになります

事前準備

LivebookをローカルPCで起動

開発には、Livebookを使用するので、下記コマンドでLivebook最新版をインストールし、起動します

echo y | mix escript.install hex livebook
echo 'export PATH=$HOME/.mix/escripts:$PATH' >> ~/.bashrc
source ~/.bashrc
livebook server

もし上手くいかない場合は、下記をお試しください

git clone https://github.com/livebook-dev/livebook.git
cd livebook
mix deps.get --only prod
MIX_ENV=prod mix phx.server

下記のように待ち受けログが出れば、起動成功です

[Livebook] Application running at http://localhost:8080/?token=a55u2laaty53acnvyokw27ucjx7yrjfu

上記ログに書かれたURLをブラウザでアクセスすると、下記のような画面が表示されます

「New notebook」を開くと、下記画面が表示され、ここでElixirコードを実行することが出来ます

NxをLivebookで使えるようにする

まず、Pythonで言うところのNumPyと同様の行列計算ライブラリ「Nx」をLivebookで使ってみます

通常のElixir／Phoenixプロジェクトであれば、mix.exsのdepsにライブラリを追加することで対応しますが、Livebookの場合は、ライブラリ追加もノートブック上で行えます

下記コードをLivebook上の「Notebook dependencies and setup」をクリックすると現れるコードブロック（≒Elixirコードを入力する枠）に入力し、「Evaluate」ボタンをクリックするか、「Ctrl」＋「Enter」キーで実行してください

※最上部「Notebook dependencies and setup」に入力

Mix.install([
  {:nx, "~> 0.4"}
])

実行した画面は、以下のようになります

その後、Livebook上で「+Code」ボタンをクリックしてください

すると、下記のように、コードブロックが追加されます

ここに、下記コードを書いて、実行してみましょう

Livebook上

Nx.tensor([[1, 2], [3, 4]])
|> Nx.divide(3)

このコードは、下記のような行列をNx.tensor()で作り、各値を3で除算するというNxのコードです

\begin{bmatrix}
1 & 2 \\
3 & 4
\end{bmatrix}

下図のように実行できれば成功です

教師あり学習のElixirでの実践

それでは、実際に教師あり学習をElixirで体験してみましょう

ここではカンタンな題材として、ビット演算などで使う「OR」を「教師あり」学習させて、予測させてみます

ORは、下記のビット演算を行います

入力1	入力2	出力
0	0	0
0	1	1
1	0	1
1	1	1

ラベルは、入力1と入力2のOR演算を行えば計算できるため、教師あり学習のためのラベルの準備を手作業で行わなくて済むため、ラクができます

OR学習／予測で行うことの構成と流れ

「教師あり」学習は、以下4つのステップで構成されています

うちOR学習／予測では、「ⅲ）検証データによる評価」を割愛します（ココはORの次の課題で扱います）

以降のコード解説では、各ステップ毎にコードを分けます

最終的なコード

下記のコードでORの予測が実現できるので、Livebookに打ち込んで、動かしてみてください（次回、OR予測で行うことの構成と流れ、およびコードの各パートの解説をします）

※最上部「Notebook dependencies and setup」に入力

Mix.install([
  {:nx, "~> 0.4"}, 
  {:axon, "~> 0.3"},
  {:exla, "~> 0.4"},
  {:table_rex, "~> 3.1"}
])

ⅰ）学習データの準備

train_datas = Stream.repeatedly(fn -> 
    input1 = Nx.tensor(for _ <- 1..32, do: [Enum.random(0..1)])
    input2 = Nx.tensor(for _ <- 1..32, do: [Enum.random(0..1)])
    label = Nx.logical_or(input1, input2)
    {%{"input1" => input1, "input2" => input2}, label}
  end)
  |> Enum.take(1000)

ⅱ）モデルの学習

require Axon

input1 = Axon.input("input1", shape: {nil, 1})
input2 = Axon.input("input2", shape: {nil, 1})
model = Axon.concatenate(input1, input2)
  |> Axon.dense(8, activation: :relu)
  |> Axon.dense(1, activation: :sigmoid)

trained_state = model
  |> Axon.Loop.trainer(:binary_cross_entropy, :sgd)
  |> Axon.Loop.metric(:accuracy, "Accuracy")
  |> Axon.Loop.run(train_datas, %{}, epochs: 5, iterations: 1000, compiler: EXLA)

ⅲ）検証データによる評価

（検証不要で今回は割愛）

ⅳ）未知データによる予測

Axon.predict(model, trained_state, %{"input1" => Nx.tensor([[0]]), "input2" => Nx.tensor([[0]])})
Axon.predict(model, trained_state, %{"input1" => Nx.tensor([[0]]), "input2" => Nx.tensor([[1]])})
Axon.predict(model, trained_state, %{"input1" => Nx.tensor([[1]]), "input2" => Nx.tensor([[0]])})
Axon.predict(model, trained_state, %{"input1" => Nx.tensor([[1]]), "input2" => Nx.tensor([[1]])})