調査概要
Transformerなどの系列変換モデルを用いて数学の問題を解く研究に関してのサーベイになる.(特に今回は算術演算が多い)
1本目の論文は,四則演算から文章を用いた問題まで大きく8つの分野の数学的問題をLSTMやTransformerを用いてどの程度解くことができるのかのベンチマークを調べたものになっている.
2本目の論文は,Transformerを用いた四則演算では学習時に存在しない入力長の問題に対して汎化しない(OODに弱い)という問題があり,この解決策として入力をgridデータとして入れることで帰納バイアスを獲得したというものである.
3本目の論文は,2本目の論文の内容をUniversal TransformerというRNNのような構造を持つモデルを用いて取り組んだというものである.
参考文献
- Analisying Mathmatical Reasoning Abilities of Neural Models, d.saxton et al. [ICLR 2019]
- Neural Seqeunce to grid Module for Learning Symbolic Rules, s.kim et al. [AAAI 2021]
- Transformers discover an elementary calculation system exploiting local attention and grid-like problem representation, S.Congolato et al. [EEEI IJCNN 2022]