先日、ディープラーニングでボンガードパズルを解いたという記事が出た。
このパズル見ると、単純なカテゴリ問題のようだ。
それにしては、結構苦労されて学習しているような内容になっているので、いわゆる転移学習を使って解けないかやってみた。
コード等は以下に置きました。
MuAuan/Solving_Bongard_Problems
【参考】
2018年03月09日 09時30分00秒
2つにグループ分けされた模様から分類ルールを推測する「ボンガードパズル」をディープラーニングで解く
Originalは以下のサイトのようだ
Solving Bongard Problems With Deep Learning 25 Feb 2018
前報告の結果
この記事によれば結果は以下のとおり、ある意味不出来。上記参考の記事から引用すると、
「232個の問題を解いてみると、「テスト」画像をきちんと左右に分けられたものが47個あり、そのうち41個が正しく分類できていたとのこと。以下の画像で緑の部分が正解した問題、赤の部分が間違ってしまった問題を示しています。白の部分は、テスト画像を2つとも左側または右側に分類してしまい、解答できなかった問題です。」
つまり、ちゃんと正解できたのは、緑の部分だけという結果です。
というか、何らかの原因があってこの分類はディープラーニングでは難しいのだろう。それが何なのかとても気になる。というかそれが単純な分類問題への限界(人間の知性とは異なる)を示す可能性があるという意味で興味がある。
パズル画像の準備
問題を解くために、パズル画像を一個一個画像として分割して、0と1にカテゴリとしておきます。
この問題の難しいところは、完全に6個/カテゴリですべてのデータがユニークなところです。
つまり、以前論じた1data challengeです。
これが難しさの一つなのかもしれません。ただし、過学習でもいいのでとにかく学習できて他の画像と分類できさえすればOKです。
いずれにしても今回はこの作業に時間がかかるので、10番までの問題に挑戦しました。
※毎日少しずつ増やしていきます
モデルの準備
画像データの読み込みは、以前転移学習で利用したgetDataSet.pyを利用しました。これはディレクトリを指定してそこからデータを読み取って、TrainデータとTestデータにデータを読み込みます。併せて、ディレクトリの番号がそれぞれのデータのカテゴリとして番号付けします。
そして、モデルは入力データサイズが110×110程度なので、128x128として、VGG16の転移学習で実施しました。最初の10層固定です。
for layer in model.layers[1:10]:
layer.trainable = False
結果
問題は、6個中5個をTrainデータとし(つまり二カテゴリで10個で学習)、残り1個(つまり二カテゴリで二個)をTestデータとします。
最初の10個の問題に挑戦です。分類がうまくいったのは〇を記載します。あとはval_accを記載します。0.5は半分分類でき、0は両方とも異なる分類をしたことを意味します。
Problem | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
results | 〇 | 〇 | 0.5 | 0.5 | 〇 | 〇⇒0.5 | 〇 | 〇 | 〇 | 0.5 |
ここで、〇⇒0.5は途中〇だったが、最後0.5になってしまった。 |
Problem | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
---|---|---|---|---|---|---|---|---|---|---|
results | 〇 | 0 | 〇 | 0 | 〇 | 0 | 〇 | 〇 | 〇 | 0.5 |
12,14,16で0、つまり逆に分類してしまう事象が発生したが、後日別途考察する予定です。 |
考察
問題20までの問題に対しては、いくつか両方とも失敗したケースが出ましたが、ここでは片方失敗したケースについて議論し、両方失敗したものは後日別途考察します。これらについては、ある意味だいたい正解を出していると評価できます。といっても失敗したケースにどんなものがあったか見るのは有意義です。
No.3は
黒塗りと白抜きのものなので、正解したいところですが、やはり画像が小さいものが残ると(たぶん最下段右の絵)それが識別できないようです。
No.4は
この問題は人が考えても難しく、回答は左は素直な図形だけど、右は凹があるということらしいです。これは1個だけで実施すると、右の最下段右の勾玉型のを失敗してました。逆のベースボール型のもときどき失敗してます。
No.6は
epoch30x3回だと最後に0.5になってしまったが、epoch50x3だと最後まで1で正解した。この問題は左は三角形、右は四角形だが、右真ん中左は三角形との差がきわどい。
No.10は
この問題は左は三角形、右は四角形で比較的人にはわかりやすい。しかし、VGG16だとこの問題が一番難しいらしく、epoch50x3でやってみるとほぼ0になってしまった。つまり不正解。比較は左の最下段右と右の最下段右の小さなギザギザ三角と小さな四角。やはりほかの画像とは異なるとなってしまうようだ。
右最下段右の画像は小さくて、左の画像の二個と近いし、左最下段右の小さいギザギザ三角はギザギザだけ見れば右のギザギザの三個に近いし、それぞれ言い訳的には間違える要素はありそう。
No.20は
これ2個の●がついている位置で分類しているようであるが、人が見てもなかなか判断が難しい。特に、二個の●が水平か垂直に並んでいると見始めるとわけがわからなくなる。ちなみにこの分類は左最下段右と右最下段右の画像がほかの5つの画像のどちらに近いかで分類している。その結果、右最下段右が間違えたということである。
ここで大切なことはどのようにして分類しているのかということです。
この手法は特にロジックを解こうとか推論するというものではなく、単純にそれぞれ5個ずつの画像から得られた重みを使って、問題画像を入力としたときにどちらに分類されるのかということです。まあ、そういう意味でも画像の特徴が似ていればそのように分類してほしいのですが、No10で見たようにそんなに簡単なことではなさそうです。
課題
この画像による分類は、多くの物体識別の基礎だし、ミカンの選別やキュウリの選別なんかでも使われる基本中の基本。このボンガードパズルは一見ロジックがあるので単純な画像識別ではなさそうだが、それでもどのように分類しているかの理由を考える上では、うってつけな課題なような気がする。
ということで、今後、さらに多くの問題に適用しつつ、中間層などの特徴などを見ながら本当の理由を確かめたいと思います。
おまけ
今回示しませんがやってみると、3個Train、3個Testなんかですべて正解できる問題もあります。さらに、もう少し面白い話として、VGG16的なボンガードパズルを作成できました。
※因みに、これは間違えた問題の間違えた側の集合同士からの当然の帰着から思いつきました。
これらについては、次回以降上記とは別に取り上げようと思います。