概要
Bag of words (BOW) など特徴量を圧縮する技術として
Feature Hashing(フィーチャーハッシング) もしくは Hashing Trick(ハッシュトリック) と呼ばれるものがある.
ハッシュ関数を使って情報圧縮するものだが,
説明を読む限り,圧縮(ハッシュ化)した結果をそのまま特徴量としてトピックモデルなどに当てることができ,
圧縮しているのでメモリ効率は当然良いし,かつ,圧縮しない場合と比べてそんなに分類精度も悪くなく,
むしろハッシュ化したことで表記揺れをある程度吸収できる…っぽい.
なんだか夢のような技術.
でも,いまいち記述を見かけないので,
初心者には高度すぎるか,使いどころに注意が必要そうな技術のはず.
追々調べる.
リンク
https://ja.wikipedia.org/wiki/Feature_Hashing
http://d.hatena.ne.jp/jetbead/20141106/1415208665
http://tkzs.hatenablog.com/entry/2015/07/29/030936
http://www.slideshare.net/pfi/pfi-seminar-20120315