More than 3 years have passed since last update.

公開！週末研究ノート０４　ー　テキストクラス分類結果の可視化

Last updated at 2021-12-11Posted at 2021-11-15

はじめに　ー　週末研究ノートとは？

個人的に研究的な活動をやるにあたり、オープンにしてみたら面白いかもと思い、自分が興味を持っているざっくりテーマについて、これから、ゆるい週末研究を公開していこうと思います。（有識者の方のアドバイスも、ちょっとというかかなり期待してます！笑）

どこかの権威的な学会やジャーナルなどで発表する予定はないため、万が一、私の記事を利用する際には自己責任でお願いします。そんな人はいないと思いますが、念のため。

今回のサマリ（TL; DR）

PR　曲線で可視化
LIME を使った可視化
- デフォルトでは、日本語には対応していないのでちょっと工夫する
- 単語集合をハイライトする方法とオリジナル文書をハイライトする方法で可視化する

環境

Docker Desktop: 4.0.1(68347)
- コンテナのメモリ： 12G
- 自分の環境では、コンテナのメモリを 12GiB まで拡張した
Docker: version 20.10.8
docker-compose: version 1.29.2
Python: 3.8.10
GitHub リポジトリ

今回の週末研究ノート

今回は、前回正答率を評価したパイプラインを使って、可視化を試みます。
PR 曲線を表示し、LIME　による可視化を行い、簡易な解釈をつけました。

ldcc

PR Curves

Recall - Precision グラフ

AP（Average Precision）は、かなりよく、特にコメントはない感じ。

Threshold - Precision/Recall グラフ

livedoor-homme、peachy、dokujo-tsushin あたりは、必要に応じて境界値を調整しても良さそう。一方で、smax は、Precision と Recall　が重なり過ぎている印象を受ける（実際、後の例で見るが、判定をチートしているとわかる。）

LIME による可視化

単語集合のハイライト

正判定のテキスト

movie-enter

まずは、movie-enter について。

movie-enter と判定した単語は、「映画」、「本作」、「劇場」などの単語であるが、どの単語もかなり影響度が小さいことがわかる。塵も積もれば山となるではないが、影響度がわずかなものが積み重なって予測結果に至ったと考えられる。

smax

次は、smax について。

smax は、「エスマックス」、「関連リンク」、「MAX」などのフッター情報をもとに判定していそうだとわかる、これは一般的には欲しい結果ではない（中身の内容で判定したいことが多いはずな）ので、フッターを除く前処理を入れて、再度学習し直す方が良いとわかります。

誤判定のテキスト

　正解: livedoor-homme　／予測: kaden-channel

予測では、誤答ラベル（kaden-channel）の0.77 に対し、正答ラベル（livedoor-homme）が 0.22 と、多少は正答ラベルの可能性も示唆している。「話題」という単語が kaden-channel である強い理由になっていそうであり、逆に livedoor-homme の強い否定の原因になっていそうとわかる。一つの仮説として考えられるのは、学習データの kaden-channel には、「話題」という単語が多く、判定の強い原因になっている、と考えられる点である。この仮説を確認するには、「話題」という単語を除くことであるが、根本的な解決とは言い難いため、「話題」という単語で判断しないように学習を誘導する手法を考えた方がより汎用的で運用上も辞書管理をしなくてよくなりそうである。

　正解:livedoor-homme　／予測:movie-enter

オリジナル文書へのハイライト

前半は概ね似た結果なので、ハイライトのみ確認します。