言語処理ことはじめ

Last updated at 2022-12-01Posted at 2022-12-01

はじめに

ついに2022年のAdvent Calendarが始まりましたね！
思えば初日を担当することになったのは11月30日でした．なんだか意味が分からないですね！

この記事では，B3からM1にかけて言語処理を勉強してきた中で読んでよかった本や，勉強の流れを紹介出来たらと思います．
対象としてはB3の方など，言語処理を全く知らない方になります．もし詳しい方がいらっしゃいましたら，コメントにてご意見お待ちしております．

勉強の仕方

始め方

まず，深層学習ってなんぞや，機械学習ってなんなんだよ！人が普通だと思います．
そんな人にはわかりやすいパターン認識（Amazon Link）をお勧めします．
その本を読んで，ざっと機械学習を理解したら，言語処理や画像などの具体的な分野を勉強するとよいと思います．
具体的な分野の本を読むと同時に，主流となっている手法の論文を読んで勉強することが良いかなと思います．最近は日本語の本もたくさん出ているため，そちらでもよいと思いますが，原著は読んでおくことをお勧めします．
まとめますと，

機械学習について勉強する（わかりやすいパターン認識など）
具体的な分野に関する本を読む（おすすめは後ほど）
主流な手法の論文を読む（Transformer, BERT, など）

こんな感じです．それでもわからない所が出てくると思いますが，僕はその都度調べたりしています．おそらくそんなもんかと思います．

論文の見つけ方・読み方

次に，僕流の論文の見つけ方・読み方を紹介します．
といっても独自性のあるものではなく，NISTの品川先生の資料（参考文献に貼ります）などがベースになっています．そちらの方がわかりやすく説得力もあるのでそちらをきちんと読むことをお勧めします．
では，紹介に入ります．

論文の見つけ方

基本的にはキーワード検索を行います．どんなサイトで行うかというと，Google Scholar や各学会を対象としています．言語処理で言えば，ACL, EMNLP, NAACL を筆頭に行い，僕は対話関連を研究しているため，SIGDIAL やSIGIR も対象としています．それぞれの学会のAccepted Paper からキーワードにヒットする論文タイトルを見つけます．その後はその論文の参考文献やその論文を引用している論文を探します．
そのような形で，荒く調べてから自分にマッチしたものに絞っていくイメージで僕は行っています．
まとめると，

学会の投稿論文やGoogle Scholar にてキーワード検索を行いヒットした論文をリストアップ
ざっくりと論文を読み，Introduction やRelated Work から関連していそうな論文をリストアップ
読んだ論文を引用している論文をリストアップ

こんな形で論文を見つけます．見つけた論文はGoogle SpreadSheet などにまとめます．著者の所属を調べてそこ経由で論文を探すのも良いと思います．

論文の読み方

こんな記事を書いていますが，皆さんに教えられるほど論文を読んでいないため，現状の読み方を共有する形となります．
大事なことは読むことだと思います．特に英語が苦手だったりする人も何をしても良いから読むことが大事だと思います．僕はDeepLを使ってしまっています．早く脱却したいとは思っていますが...
読み方ですが，

時間を決める
概要, 序論, 結論, 図表を読む
気になる論文であれば関連研究も読む
めっちゃ気になる論文であれば手法, 実験もしっかり読む

といった感じになります．大事なポイントかなと思うのは，

時間を決めて読むこと
概要の概要を書くこと（先行研究の課題，提案手法，達成したこと）

です．
時間を決めることは，だらだら読むことを避けるために行います．
概要の概要を書くことは，論文の構造を理解しながら読むことがやりやすくなるかなと思っています．また，見返した際にどんな論文だったかがすぐにわかることも理由になります．

その他

論文を読む際にメモを残すことも大事と聞きます．印刷することが一番なのかもしれませんが，僕はPaperpileをお勧めしています．有料ではありますが，iPadを用いて書き込みもできGoogle Driveにpdfを保存しているため容量などを気にする必要もありません．また，PCとiPadなどの媒体間で共有できます．
無料トライアルがあるので，気になった方はぜひ試してみてください（Link）．

おわりに

この記事では，言語処理を勉強するにあたってどんなことをすればよいか，などをまとめました．おすすめ勉強法3選！みたいな感じではなく，僕のやり方を共有しているだけになるのでご了承ください．
はじめににも書きましたが，こんな本が良かったよ，こんな勉強の仕方がよかったよ，といった意見があればぜひ教えていただけると泣いて喜びます．

参考文献

自然言語処理を独習したい人のために
 AHC-Lab M1勉強会論文の読み方・書き方
 高速で論文がバリバリ読める落合先生のフォーマットがいい感じだったのでメモ
 先端技術とメディア表現1 #FTMA15
自然言語処理系の国際会議を雑に説明してみる(修正あり)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up