はじめに
この記事は全7章に分かれた「本当にわかりやすいAI入門」の第2章です。以前の記事を読まれていない方は、先にこちらをご参照ください。
章 | 内容 |
---|---|
第1章 | AIはなぜ人間みたいなことができるのか? |
第2章 | 脳はすごい(この記事) |
第3章 | 伝わりやすさと境界の決め方 |
第4章 | 細胞増やすだけではダメだった |
第5章 | 時間も手間もお金もかかる |
第6章 | 文章生成の大規模化による進化 |
第7章 | AIのこれから |
この記事は個人で作成したものであり、内容や意見は所属企業・部門見解を代表するものではありません。
第2章 脳はすごい
突然ですが、今回は脳の仕組みのお話です。
脳はすごい
脳はすごいです。
- 計算できる
- 読める・書ける
- しゃべれる
- 絵だって描ける
- 知識や経験で判断できる
- 将来の予想もできる
- 経験や訓練で効率が上がる
- できることが勉強で増やせる
当たり前のように思われるかもしれませんが、コンピューターではこうはいきません。できることを増やすにはプログラムの追加や修正が必要です。
脳は産まれた時にできた1つの仕組みで、経験や訓練をすれば性能が上がり、勉強すればできることが増やせます。これはすごいことなのです。
脳の仕組み
脳は、神経細胞と呼ばれる特殊な細胞がつながりあってできています。下の図の黄色い部分が1つの細胞です。
細胞は他の複数の細胞から信号を受け取ります。この図では、他の5つの細胞から緑の矢印の方向で信号を受け取っています。信号を受け取った細胞は、その強さの合計がある境界を越えると、次の細胞へ信号を伝えます。青い矢印がそれを示しています。
細胞間の信号の伝わりやすさや、次の細胞へ信号を伝えるかどうかの判断の境界は、細胞によってまちまちです。
細胞をコンピューターでマネしたら?
1943年に神経生理学者・外科医のマカロックさんと論理学者・数学者のピッツさんがタッグを組み、脳の神経細胞をコンピューターでマネした仕組みを考えました。脳の仕組みを調べてコンピューターでマネすれば、ヒトと同じように思考できるAIが完成するはず!そんな奇想天外なアプローチです1。
考案された仕組み
ここで考案された仕組みは、細胞をマネた非常にシンプルなものです。
- 前の細胞の出力(
0
か1
)を入力として受け取ります。 - それぞれの伝わりやすさを掛け算します。
- その合計が境界以上なら
1
を出力します。
下の図の中央の青の丸が1つの細胞です。左側の2つの細胞から入力を受けますが、途中の緑の線で伝わりやすさの影響を受けて、伝わる信号の強さが変化します。それらを受け取った青の細胞は、受け取った値の合計が境界を越えたら次の細胞に出力し、越えない場合は何もしません。
たとえば前の細胞Aから1
の入力が伝えられ、細胞Bからは0
の入力(つまり入力は伝えられなかった)とします。この時、上の図では細胞Aからの伝わりやすさは0.6
なので、実際に伝わる入力は1×0.6
で0.6
です。細胞Bからは入力がないので計算不要ですが、もし計算するのであれば0×0.2
で0
の入力が伝わった形です。
青い細胞は細胞Aから0.6
、細胞Bから0
の入力を受け取るので、合計は0.6
です。これは青い細胞の境界である0.4
以上なので、次の細胞に1
を出力します。もし境界より小さい場合は次の細胞へは信号を伝えません2。
細胞1つでAND・OR・NANDができた!
この脳をマネしたこの細胞は、かなりいろいろなことができます。
たとえば、伝わりやすさと境界をうまく調整すると、「論理演算」と呼ばれる計算のうちのANDとORとNANDが細胞1つで実現できてしまいます。
専門用語を使わないと言いつつ「論理演算」という言葉を使ってしまいましたが、これはある事柄がOKなのかNGなのかを判断するルールのことで、次のような種類があります。
論理演算の種類 | 読み方 | 判断のルール |
---|---|---|
AND | アンド | 両方OKならOK! それ以外はNGです。 |
OR | オア | どちらかOKならOK! 両方OKでもOKです。 |
NAND | ナンド | 両方OKの場合だけはNG! それ以外はすべてOK! ANDの反対(not AND)です。 |
XOR | エクスオア エックスオア |
どちらか片方「だけ」がOKならOK! 両方OKの場合や両方NGの場合はNGです。 |
たとえばANDの場合は伝わりやすさをどちらも0.5
に、境界の値は0.7
にして、OKを1
、NGを0
として計算します。
たとえば入力AとBがどちらも「OK」の場合、青い細胞は1 × 0.5 + 1 × 0.5
で合計1
の入力を受け取り、境界の0.7
以上なので1
を出力し「OK!」と判定するわけです。もし細胞Bが0
の場合は1 × 0.5 + 0 × 0.5
で合計が0.5
となり境界に届かないので出力は0
で「NG!」 です。ANDのルールが実現できていることがわかるかと思います。
ORの場合は、次のように境界の値を0.2
にすると実現できます。
NANDはちょっと変わっていて、伝わりやすさを-0.5
、境界を-0.7
にします。伝わりやすがマイナスというのはちょっと違和感がありますが、まぁ、細かいことは気にしないで進みましょう。いくつか計算してみると、NANDがのルールが実現できていることがわかります。
ここで重要なのは、伝わりやすさと境界の値を変えるだけで、仕組み自体は変えずに3種類の機能が実現できることです。これまで、コンピューターでできることを増やすにはプログラムの追加や修正が必要だったのですが、プログラムの修正は必要ありません3。
細胞が3つあればXORもできる!
論理演算の表の最後にあったXORは、細胞1つでは計算できないのですが、細胞が3つあると計算できます。
論理演算の種類 | 読み方 | 判断のルール |
---|---|---|
XOR | エクスオア エックスオア |
どちらか片方「だけ」がOKならOK! 両方OKの場合や両方NGの場合はNGです。 |
以下がその図です。入力AやBから2つの緑の矢印が出ていますが、これはその先の細胞両方に値を伝えることを示しています。
実際に入力AとBに値を指定して計算してみると、XORが実現できていることがわかります。
細胞が160個あれば手書き数字も認識できる!!
細胞を160個使って次のように組み合わせると、なんと手書きの数字が認識できます4。
入力は784個のデータで、縦横それぞれ28個の点からなる画像です。これを入力として、50個の細胞(細胞1〜50)の出力を計算します。次にこの50個の出力を入力として、次の100個(細胞51〜150)の出力を計算します。最後にこの100 個の出力を入力として、最後の10個(細胞151〜160)の出力を計算します。
最後の10個の細胞は数字の0から9に対応しており、入力で渡した画像に対応する数字の細胞の出力が強くなる仕組みになっています。これにより、手書き数字の画像がどの数字なのかを認識できるようになっています。
第2章のまとめ
- 脳をマネした仕組みでは、細胞間の伝わりやすさと境界値を変えるだけでできることが変えられます。
- 細胞の数を増やせば、手書き数字の認識のような複雑なこともできます。
ただし、細胞間の伝わりやすさと境界値が正しい値になっていないと正しく処理できません。この値はどうやって決めればいいのでしょうか。AND・OR・NANDくらいなら自分で考えることもできそうですが、手書き数字の認識では細胞や線が大量にあるので、ちょっと考えるのは無理そうです。次回はこの値の決め方について考えていきます。
「第3章 伝わりやすさと境界の決め方」へ続きます。
-
ここでの説明は境界と同値の場合も1を出力するとご説明していますが、厳密にはここでご紹介した形式ニューロンは「ヘヴィサイドの階段関数」を使うので境界と同値の場合の定義がありません。 ↩
-
伝わりやすさや境界の値を変えるためにはプログラムの修正が必要では?と思われる方もいらっしゃるかも知れませんが、伝わりやすさや境界の値はプログラムの中に組み込むのではなく、実際に計算する時に与える形で開発するのが一般的です。このような計算時に与える値を、プログラムの世界では「パラメーター」や「引数」と呼んだりします。 ↩
-
この例は書籍「ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装」で紹介されているもので、このような脳をマネした仕組みを「ニューラルネットワーク」(neural network)と呼びます。なお、この図の仕組みのままでも手書き数字画像セットの「MNISTデータベース」で90%を越える精度で認識できますが、入力784ピクセルのデータを細胞1から50へ「全結合」(affine combination)しているためピクセル間の上下左右の位置関係が失われてしまい、精度を上げにくい構造になっています。そのため実際の画像認識では、ピクセルの近いもの同士だけを次の細胞につなげる「畳み込みニューラルネットワーク」(convolutional neural network)や、最終の出力と入力寄りの細胞との関連を覚えるように細胞のつなぎ方を工夫した「アテンション」(注意機構:attention)などが使われます。ちょっと脱線しますが、アテンションは自然言語処理の流れで学ばれる方が多いでしょう。でも、概要だけなら画像処理から入った方が理解しやすいです。ソニーさんが公開されている動画「Deep Learning入門:Attention(注意)」がものすごくわかりやすいので、(私のように)アテンションでつまずいてしまった方はぜひ! ↩