Chainerで語義曖昧性解消
大学の研究で語彙曖昧性解消を行う際、Chainerには苦しめられた。
そのあたりが今後誰かやるときに同じ苦しみを味わわないようにするためにシェア。
そもそもデータセットが小さい
SemEvalのデータセットを使い学習させた際、
もちろん学習はきっちりやったつもりではあるが、
どうしても
IndexError: index 342 is out of bounds for size 209
といったエラーに苦しめられた。
これはどうやらデータセットのサイズが大きいものを使うと解決する問題。
特に辞書のサイズが小さくなってしまう(数百語程度)ようなデータセットを使うのはおすすめしない。