概要
- input:日本語の文章、output:実数で回帰したい。
- そのためにまず、文章を特徴量ベクトルに変換したい。
- アンサンブル学習で性能を高めるために、異なるモデル、異なるデータセットで学習した、学習済みモデルがたくさん欲しい
- 学習済みモデルを探した。
文章
Universal Sentence Encoder (multilingual)
BERT (multilingual)
nnlm
doc2vec
単語
Word2Vec
Wikipediaで学習
FastText
Wikipedia + Common Crawl (mecab)
Wikipedia (mecab NEologd)
Byte-Pair Encoding
Wikipedia
Wikipedia2Vec
Wikipedia
その他文章特徴量
品詞、ひらがな、カタカナ、英数字の回数または割合
エントロピー
単語長
文章難易度
帯はrubyのファイルがダウンロードできなくなっていた。
ネガポジ
kaggleで見つけたテクニック
kaggle: Toxic Comment Classification Challenge まとめ
やはり、埋め込みベクトルのアンサンブルが重要らしい。
あと、翻訳によるdata augmentation。