Help us understand the problem. What is going on with this article?

(書き直し)(準備中)tfidf/cluster vis: tfidf-word2vec-clustering visualization

tfidf/cluster vis: tfidf-word2vec-clustering visualizationのコード公開

これは何

・特許群を互いの類似度を考慮しそれぞれ2次元空間上に配置し,インタラクティブに表示するコードです.
・マウスオーバーでそれぞれの特許の概要を見ることができます.
・工夫次第で,様々な用途に使えるでしょう.

実行例(旧版):

image.png

circleanimationmuvie

コード概要

1 テキストにtfidfを適用し,
2 その上位単語それぞれをword2vecにより分散表現ベクトルに変換した後,
3 「クラスタリングにより分散表現ベクトルのまとまりからテキストの文構造を擬似的に再構成し」,
4 これをまとめて文章ベクトルを作り,
5 クラスタリング・セグメンテーションを行い,インタラクティブに図示する.
(とまとめるとシンプルだが,思いつき即追加し続けているため,可読性が低くかつ5000行以上という書き直したくなるコードとなっている.)(暫定的と言いながら一文字変数とするのはやめよう.昔の私の頭をかち割ってやりたい.変数命名法は最初に確実に決めたほうが良いだろうなぁ.)(自分で書いたコードのテンソルがわからなくなるというのは末期だ.)(要件追加により次第に関数内部が肥大化してしまう.どう対処すりゃ良いのだろうか.)
(BoWにtfidfの重みをかける手法のほうが誠実だと思う.自分は,分散表現から文章ベクトルをどう作るか・作られた文章ベクトルにはどのような特徴があるか,の実験も兼ねてこうしている.変更に柔軟でよいのだが柔軟すぎてコードが荒れる…)

補足

*文献やニュース・判例・他言語にも対応しています.
ただし,適当なストップワードを追加する必要があります.
(複数言語同時表示には対応していません.Aylienに期待するとよろしかろうと放り投げ https://t.co/7LkXI0viQY?amp=1 )
*要約過程を経るため,ある程度長い文章に向いています.
目安としては400単語以上です.
*特許で用いることをまず想定していますので,テキスト内で内容が単一性を示すことを仮定しています.
使用したいテキストがこの仮定に合致しない場合は,あらかじめ単一性を示すセンテンスに切り分けておくなど対応ください.
*様々なソースから集めたテキストを混合した場合,それらテキスト間では文章の解像度がかけ離れていることが多いため,適切に図示され難くなります.
(解像度の違いを吸収する文章ベクトル作成手法が提案されるのを待ちましょう.transfomerから求めた文章ベクトルであれば,すでに解像度の違いを吸収できていると言えるかもしれません.適当に置き換えてください.)
*検討するたびにvalunexのtech radarはよくできているなと感心する.ホワイトスペースを正確に提示することは難しい.(その後,本ツールでもある程度のホワイトスペース提示ができるだろうと結論づけた.いくらかの異なる母集団においてPCA因子分析を行い確実に存在するホワイトスペースを確認し,それらと同じ相対位置にホワイトスペースが現れることが本ツールでも確認できた.母集団が大きく異なれば再調整必要だろうけれど.)

コード(保留中)

'code'
Github
*諸事情によりしばし保留
https://qiita.com/kzuzuo/items/d41327433c9cdc6a5fd3

使い方

*前置き:各種設定はコードそのものを修正し行います.
1 ipynbをjupyter notebookで開きます.
2 ルートフォルダに分析したい特許が記載されたxlsxファイルを置きます.
 ・xlsxファイル内には,出願番号,出願人,発明の名称,要約,請求の範囲,の記載が最低限必要です.1行目は列タイトルとし,2行目から各特許の内容を記載してください
 *特許検索ソフトから検索結果を出力した場合,これらの形式となっている事が多いかと思われます.要事,列名を変更してください.
3 *をxlsxファイル名に変更してください.
4 必要に応じ,*部分を変更し,色やシンボルを変更してください.
5 目的に応じ,パラメータを設定してください.*
6 メニューからすべて実行を選択してください.
7 しばし待ちます.待ち時間は1時間/5000件ほどです.
8 終了後,別ウインドウでインタラクティブHTMLが開きます.
9 結果を見つつ,日付限定・出願人限定・分類限定・キーワード限定などをおこない,分析を進めます.

*より下位の概念を抽出したい場合には,母集団を絞り込み再計算すると良いでしょう.

Why do not you register as a user and use Qiita more conveniently?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away