1. 概要
小学2年生でも解ける問題が、ChatGPTに代表されるような大規模モデルで解けるかを試したところ全く性能が出なかったことから、汎用性があると言われている大規模学習モデルが学習していないデータ(Out-Of-Distribution: OOD)について如何に脆弱かを課題視している論文。
ICCV2023でこのチャレンジに対してWorkshopを開催することが決定している。
2. 新規性
米国の数学オリンピック協会と協力してSMART-101(a Simple Multimodal Algorthmic Reasoning Task)データセットを作成し公開した。データセットには、6-8歳児向けの101個のパズルの課題があり、言語問題・図形問題・言語と図形の融合問題から構成されている。オリジナルの数学オリンピックの問題をベースに自動で類似問題を生成している。
また、数学的な問題の解き方を学ぶアルゴリズムを開発している。
3. 実現方法
テキストと画像の入力に対して数学的解法を学べるようメタラーニングのアーキテクチャが提案されている。ここで、ネットワーク構造はSiamese Networkではなく、それぞれ独立したフローとなっている。画像系のバックボーンには、Vision Transformers(ViTs)、ResNets、Masked Autoencoder(MAE)などを使用し、言語系のバックボーンにはBERT/GPT/GloVeなどのモデルを使用している。
4. 結果
各種バックボーンとの比較に加え、CLIPやFLAVAなどのテキストと画像をペアで学習させた大規模モデルとの比較も実施している。CLIPやMAE+BERTなどよく使われるモデルでも、実際の小学2年生(3000人)の平均スコアと比べて圧倒的に低い正答率しかないことに驚かされる。
last updates: June 21 2023