DeepLearning
AI
人工知能
人工知能学会
東大

「東ロボくん」 新井紀子を真っ向から批判する

東ロボくんプロジェクト (AIで東大の入学試験に合格するプロジェクト )[1]について、グーグルが最近公開した最新の言語処理モデルBERT [2]を引き合いに出して批判する動き[3]がある。以前にも新井先生を批判する動き[4]があったので、本当に大変だなと思う。しかし、彼女のやったこと、特に、AIは東大に合格できないと決めつけて東ロボを中止したことは、人工知能(AI)の研究の一端を担う私から見て、間違った判断だったと思う。東大に合格できないと言う結論が間違っていると言っているのではない。その点については私も現時点ではわからない。ただ、技術の限界が見えた時点で中止した判断が間違いだったといっているのだ。もし彼女がプロジェクトを正しい方向に導いていれば、AI研究における日本のプレゼンスを大きく上げることができたのではないか、とさえ思う。

まず、日本は、AI研究において、アメリカと中国に比べてかなり遅れている。これはトップ会議[5]に通る論文数から明らかだ。そして、東ロボからトップ会議に出た論文は残念ながら少ない。だが、一通り、最新のAI技術を応用した(つまり、2016年に限界が見えたと中止した)あたりで、課題を整理し、地道に研究続けて、きちんと論文をまとめていれば、もっと増やせたのではないかと思う。つまり、私の思う新井先生の失敗は、適切に研究を続け、科学的な論文を発表する機会を失ったことである。

そもそも、研究というのは壁にぶつかってからが本当の始まりである。そして、大半の場合、壁を突破、つまり、課題を解く方法を創り出すことが研究的な貢献であり、論文になる。ただし、その研究分野の最新手法を駆使しても解けない場合、問題提起をすることで研究分野に貢献し、論文にすることもできる。

これを鑑みるに、新井教授は、2016年に限界が見えた時、後者をするべきだったと思う。ところが、あろうことか、日本の高校生の読解力を養う教育がなってないと主張し、社会に問題を提起するという、極めて政治的な方向に進んでしまった。残念ながら、それはもはやAIの研究開発ではない。

どのような方向が可能だったか。そして失った研究成果とは何か。これについて、BERTが話題になった経緯を説明し、その上で、実際にその後出版された論文を引き合いに出して、もし新井教授が研究を正しく続けていれば同じようなものを出せたのではないか、と主張したい。

まずはBERTの登場の経緯について。最近のNLPの傾向として、言語の深い知識や本当の意味の理解はあまり考えずに、大量のデータを用いてニューラルネットにより表現を獲得する、というのがある。Word2vecなどはその先駆けである。面白いのは、そういったデータドリブンな手法が、知識ベースや従来の言語に根ざした手法をはるかに凌駕するという点である。BERTはそういった手法の最新版と言える。では、今までの手法より優れていることをどうのように示すのか。それは、研究コミュニティで認められたデータセットで、しかるべきタスクで、評価指標が従来よりも上がったことを示すのである。その点において、BERTは、GLUE[6]、SQuAD [7]、SWAG[8]といった様々なデータセットにおいて、最新の性能(state-of-the-art と業界では言う)を達成した。

この事情を鑑みるに、まず東ロボから、研究業界でよく使われるデータセットを出すことができなかったのか。新井先生曰く、たとえば英語の問題で、最新のディープラーニングを駆使しても、常識的な意味理解や推論ができないために限界があると論じる[11]。では、そのような問題ばかりを集めたデータセットを構築し、研究コミュニティに問題提起をする論文を書き、ついでにコンペティションも開催すればよかったのではなかろうか。state-of-the-artな手法を駆使しても解けないデータセットとなれば、かなりいいベンチマークとして定着したのではないだろうか。事実、ワシントン大から図などの視覚情報と自然文の言語処理、そして時には常識を駆使しないと解けないようなデータセット論文が去年のCVPR(視覚に関するAIに特化したトップ会議)に出ている[12]。皮肉なことに、中学生に理科のテキストの理解を試す問題として作られている。東ロボはこの高校生版をやっていたことを考えると、もっと早い段階でこのような論文を出せたのではないか。ところが、現実は、東ロボの試験データが公開されたのはごく最近(2018年後半)のことである。遅すぎる。そして、お粗末にも、論文どころか現時点では英語のページもない。

さらに欲を言うと、データ・ドリブンな、新井先生の言ういまの人工知能を限界まで突き詰めた手法を極めていたら、BERTのような論文も出すことができたのではないか。本当に意味を理解したとは言えなくても、既存のベンチマークで最新の性能を出せば論文は通る。BERTがそうだ。そうすることで、何がデータドリブンに解けて、何が解けないのかがはっきりする。それもAI研究への立派な貢献である。

もちろん、東ロボプロジェクトから全く論文が出なかったわけではない。例えば、早い段階で、人工知能のトップ会議の一つであるAAAIに論文が通っている[9]し、最近もその延長のACL論文が出ている[10]。それが、高校生の読解力がどうこう言い出した後から、なくなってしまった。そして、他の国に先を越されて論文を出されてしまった。もちろん、高校生の読解力向上という社会的な課題に取り組むこと自体が、全く意味の無いものとは思っていない。多額の税金を投入して研究を行った以上、そういった社会貢献の仕方も一理ある。しかし、新井教授が2016年に別の方向に導いていたら、もっと純粋なAI研究の成果が、そして、もっとたくさんのトップ会議論文が、出ていたのではないかと思うと残念でならない。

参考資料
[1] https://21robot.org
[2] https://arxiv.org/abs/1810.04805
[3] https://togetter.com/li/1285134
[4] https://mywarstory.tokyo/corruption-of-academia/
[5] http://www.kamishima.net/archive/MLDMAImap.pdf
[6] https://arxiv.org/abs/1804.07461
[7] https://arxiv.org/abs/1606.05250
[8] https://arxiv.org/abs/1808.05326
[9] https://www.aaai.org/ocs/index.php/AAAI/AAAI14/paper/view/8524
[10] http://www.aclweb.org/anthology/P17-1195
[11] http://college.nikkei.co.jp/article/92863510.html
[12] http://ai2-website.s3.amazonaws.com/publications/CVPR17_TQA.pdf