Qiita Teams that are logged in
You are not logged in to any team

Log in to Qiita Team
Community
OrganizationEventAdvent CalendarQiitadon (β)
Service
Qiita JobsQiita ZineQiita Blog
9
Help us understand the problem. What are the problem?

tfidf/mbart/mt5/CLIP embeddings cluster vis: 特許など長文の、動的な文章間類似可視化・迅速閲覧・解析手段。および第三の特許検索・探索手法

これは何

・複数の特許を「特定の母集団における互いの類似度」を考慮し2次元空間上に配置し、インタラクティブに閲覧するコードです。
・マウスオーバーでそれぞれの特許の概要を見ることができます.
・工夫次第で、様々な用途に使えるでしょう.
基本的にはクラスタリングを行うコードですが、特定の条件に合う特許群の色を任意に変えるなど対応することにより、セグメンテーションにも使えるでしょう.
(既知の知識を活用するにはセグメンテーション、
 未知の発見を求めるならクラスタリングがより適切です。
 セグメンテーションとするかクラスタリングとするかについては、課題ごとに異なります。
 クラスタリングは未知の構造の発見を可能としますが,(母集団にその知識構造が含まれているかにも依存しますが)ある程度の知識の再構成も可能とします.本コードはこの点を重視しています.
*予想以上に使えそうであったため、もともとは特許SDI用AIシステムの一部でしたが独立させました。

更新中) 特許SDI用AI: 複数の自然言語深層学習モデルにおいて見られた個性とその解釈 および認知的観点に基づく知識構造の多様性を評価した価値共創の展望と、創造性
https://qiita.com/kzuzuo/items/d41327433c9cdc6a5fd3

image.png
image.png
Videotogif.gif
Videotogif (1).gif
image.png

使用例1:キーワード検索でも分類検索でもない、第三の検索手法(教師なし)として

ナイキのDX、厚底内部と特許に見る速さの秘密、競合他社の対抗策は?
https://xtrend.nikkei.com/atcl/contents/18/00288/00002/

 ナイキの厚底シューズ.どのような特許があるのだろう?
  ↓
 J-PlatPatで検索.
 出願人:"ナイキ" * キーワード:"シューズ"
 0件
 シューズという用語は使っていないようだ(ツッコミ不要)
  ↓
 tfidf embeddings/cluster visを使ってみる.
 任意の検索ツールで検索.
 出願人(名寄せあり):"ナイキ"
 800件+
 これをダウンロード
  ↓
 ダウンロードしたファイルを指定し,コード実行
  ↓
 5分ほど猫と遊びつつ待つ
  ↓
 表示されたグラフを確認
  image.png
 ・右上に板系のクラスタ
 ・左と下にゴルフ系のクラスタ
 ・右に通信系のクラスタ
 ・中央に機能・材料・構造系のクラスタ
 があると確認された.

 記事からするとナイキの厚底シューズは,機能的でプレート入り構造,であるようだ.
 該当する特許は,中央少々上寄り付近に存在しているかな?
  ↓
 別ウインドウで開いているインタラクティブHTMLをあさる
  image.png
 期待通りの特許が,期待通りの中央上寄り付近で見つかった.
 (本記事のナイキ厚底シューズがこの特許の技術的範囲に含まれているかどうかは置いておく)
 *ここまで,ヒトの作業時間は5分ほど.
  ↓
 tab, enter →Google Patentで目的の公報が開く

*処理対象は特許に限りません.単一性のある適度に長文のテキスト群であれば何でも良いです.
例えば
文献と特許を同時に表示した例:文献と類似した特許を検索できえます(特許と文献では使われている用語の解像度が異なりますので,うまく統合できないこともあります.CLIPを通す,文章生成モデルを介する,トピックモデルを用いる,など検討中です.→ClIP共通語彙を用いる解像度変換が良いようだ。その他語彙統一手法検証中・・・)
image.png
小説の人気度と小説間の類似度の関係の例:検索・・・ではなく分析的に使うことが多いでしょうか.平均的な作品は人気がない,人気がある小説はある程度に類似している,人気のある分野は存在し分野単位で独自性を持っている.ハズレのほぼない分野がある(!?),などの傾向がつかめます.時系で分析するとまた面白そうです.これら確認ののち,予測するにあたりどの手段を採るか(ルールベースか深層学習か,事前知識が必要かどのようなバイアスが必要かまたそうでないかなど)当たりづけをすることもあります.
image.png
シンプルに,読みたい小説の内容をイメージし,そのイメージがどのトピックの組み合わせからなるか考え,トピックがが図上のどのクラスタと適合するか確認し,そのクラスタの周辺にある人気度の高い小説を選び,読む,なども面白いでしょう.キーワード検索で読みたい小説を見つけるのはかなり難しいですからね・・・

使用例2:情報分析のきっかけとして

次の分析内容につき図示し、何がわかるかみてみます。

情報分析に基づくコモディティ市場への新規参入戦略
https://www.jstage.jst.go.jp/article/infopro/2020/0/2020_13/_article/-char/ja
image.png
image.png
ダイソンにおいて、「既存カテゴリへの集中」が、出願のクラスタ形成(赤)として確認できる、といってよいでしょう。
iRobotにおいて、「新規カテゴリへの参入」が、既存クラスタの「境界」への出願(橙)として確認できる、といってよいでしょう。
引用関係を示す線を図示させれば、どの既存技術を利用し新規カテゴリを形成しているかについて確認もできます。

*「クラスタの境界」に出願しているかどうかは、その会社の「イノベーションの質」を表す重要な指標であるように見えています。別に、その業界における最高の1社と永遠の2番手の1社で比較したところ、あからさまでありました。少数の例ではありますが。
*「クラスタの境界」について、説明追記。
 ある課題について、100の解決手段があるとします。
 解決手段には、よく使われる手段、あまり使われない手段、があります。
 解決手段を使用頻度か高い順に並べたとき、ある分布が得られたとします。
 その分布の少数側の端を、私は「技術の縁」と呼びます。
 その分布の多数側の端を、私は「技術の中央」と呼びます。
 ある課題について、ありふれた解決手段を取るときには、技術の中央を取ります。これは得てして、パブリックに近い手段となります。
 ある課題について、あまりない解決手段を取るときには、技術の端を取ります。これは得てして、新規に近い手段となります。
 さて、tfidf/mbart/mt5 embeddings cluster visにおいて見られるクラスタ(や検索し抜き出した集合)は、ある意味、その分布を多数側の端を軸とし周方向に広げたのち、上から捉え直したものとなります。類似する構成技術が多いほどクラスタ中央に集まるからです。
 「技術の縁」と「クラスタの境界」は、ほぼ同じものとなります(課題の集合の作り方次第ではありますが)
 クラスタに対しその技術がどの位置に配置されているかは、重要な情報を提供します。
 このような「クラスタの境界」情報は、既存のランク形式の1次元リストでは、得られない情報です。
 よくクラスタの濃度の高い部分が重視されますが、目的によっては、「縁」がより重要となります。そして縁は得てして多様なので、tfidf/mbart/mt5 embeddings cluster visのように、個々確認できるようにしておいたほうが良いでしょう。
*よくIPランドスケープで行われるセグメンテーションによる手法、既存分野に切り分け集計する手法では、上記「縁」を落とす、またはどちらかに入れてしまい、その重要性を認識できなくしてしまうことがあります。また、切り分ける分野の設定根拠が薄弱であるまたはただ件数が多いからということも多いでしょう(「その分野の件数の少なさと分野としての重要性の低さは(特にブルーオーシャンなどでは)必ずしも一致しません」)。えてして、既存の分類を用いた手法では、ありきたりのものしか見えません。ありきたりを確認したいレッドオーシャンの業界ではそれでも良いですが、ありきたりでない解析が必要な変動の大きい業界では、セグメンテーションによる切り分けによる失敗は増えるでしょう。

*内部引用の強さから、「弱い特許(瑕疵のある特許)によるポートフォリオ形成の可能性」を推定し、特許を潰しまたは独占禁止法上の問題を提起し、空白を作り出す対応をするのも良いでしょう。
M&Aにおいて、同じ手法で対象となる企業の特許の質を推定し、実際の技術力より特許戦略が勝っている状態であるかどうかなど見極め、必要に応じ見かけの特許ポートフォリオを補正し、真の技術力と安定性を評価するのも良いでしょう。(いわゆるIPランドスケープでは特許ポートフォリオ自体の価値ではなく技術の価値に注目することが多いと思うのですが、弱い特許による影響の補正はあまりしていない気がします。個人的には、特許戦略が高度化されてゆく状況下、このような補正をすることは、今後必須となると感じています。)
弱い特許による、社会イノベーションや真のイノベーション(と下記文献に記載がある)の阻害の程度に関する分析など、特許の質を考慮したよりよい知財政策に関する分析にも使えるかもしれません。
SeokbeomKwon (2021) 
The prevalence of weak patents in the United States: A new method to identify weak patents and the implications for patent policy+
Technology in Society Volume 64
https://www.sciencedirect.com/science/article/abs/pii/S0160791X20312720
image.png
赤線が多い範囲:新規の開発が多いと思われる範囲
青線が多い範囲:弱い特許や戦略的な特許が多いと思われる範囲
引用の方向:技術の推移の方向

情報分析のきっかけとしては十分でしょう。

*分析済み資料と比較することで、ツールがどのように役に立つかについて、理解を深めてゆくことができます。
*追加…は正直プライベートでデータを用意するのはしんどいので勘弁。
*データを送ってもらえれば、結果のhtmlを返すことも可能です。

使用例3:教師あり学習と教師なし学習の融合

教師ありは精度を高くできやすいが学習データのラベルに依存しすぎ構造を失いうる、教師なしは精度はそれほど高くないことが多いがラベルに依存しない構造がえられる。この2つは(特に再現率において)相補的です。

教師あり学習の結果を星シンボルにするなどして、教師なしであるtfidf embeddings cluster vis上に表示すれば、教師ありの結果に教師なしの知見を加味した、さらなるインサイトが得られるでしょう。
(もともとはAIシステムだけでは得られないインサイトを得る目的及びAIシステムが見落とすかもしれない特許をカバーする目的で、AIシステムに組み込む形で、tfidf embeddings cluster visを使っていました。
https://qiita.com/kzuzuo/items/d41327433c9cdc6a5fd3

使用例4:検索教育

メンターの検索母集団と新人の検索母集団を混ぜてtfidf embeddings cluster visにかけ、その重複と差を見ることで、互いにどの範囲が足りなかったと言えるか、お互いに直感的に確かめてゆくことができえます。
検索対象が設定されていたならば、それが母集団の重心からどれほど離れているか確認することで、母集団の範囲が適切であったかどうか確認することもできます。また、絞り込み機能を用いることで、母集団をどう限定すればよかったのか理解することもできます。

見つかった見つからなかった、方向性を持たない全体としてのrecallやprecisionがどうだった、数件確認してどうだった、だけでは、分布と方向とを考慮した十分な理解ができません。
このようなツールを一つは持っておいたほうが良いでしょう。
作ることは難しいことでもありません。

使用例5:裁判例争点単位概念検索

試行中。(データ準備終了。試行。できてはいるのだが、テキストを争点単位で確実に区切ることができなかった。改良中。)
image.png
*判例において用いられる用語は規格化されていることが多く分散表現を用いるメリットはあまりなさそうです。また、クラスタリングよりセグメンテーションが有用と思えます。よって、素直にDarts-ip https://www.darts-ip.com/ja/ip-cases-database/ を使ったほうが良いとは思います。

コード概要

1 テキストにtfidfを適用し任意の個数の上位特徴単語を取る
2 tfidf上位特徴単語それぞれをword2vecにより単語分散表現ベクトルに変換する(tfidf vectorは使わない)(ルールベースの知識を分散表現に変換し連続的に扱う)
3 クラスタリングにより特徴単語を畳み込み、テキストの文構造を擬似的に再構成する(鋳型に合わせる。どのような目的が達成されるかは、この鋳型の形で決まる。)(位相の部分集合を分離する、といっても良い。)
(文章ベクトルを作りにあたり、このような過程を経ずに全単語ベクトルを合成したり単語ごとの重みを考慮しない手法を用いた場合には、碌な性能が出ないことは知られています。単語に対し、選択するまたは合成を行うなど、何らかの処理をする必要があります。また、この処理により、可視化時に方向を維持できるかどうかが決まります。単語選択や単語内合成はLSTMやattentionが目指すところと同じですが、これらでは方向が失われないように注意が必要です。)(分布を利用した再構成を行えば、より適切に、また特許、文献、ニュースなどを同一図により適切に示すこともできると思われますが、今のところは検証中です。「attentionと類似度を組み合わせ分布を作り」、それを鋳型とする予定です。)
4 再構成された文構造をまとめ、文章ベクトルを作る
5 文章ベクトルに対しクラスタリング・セグメンテーションを行い,インタラクティブに図示する.

使い方

  • 前置き:各種設定はコードそのものを修正し行います.

1 jupyter notebookでipynbファイルを開きます.
2 分析したい特許が記載されたxlsx・CSVファイルを任意の場所に置きます.
  ・出願番号,出願人,発明の名称,要約,請求の範囲,の記載が最低限必要です.
  ・1行目は列タイトルとし,2行目から各特許の内容を記載してください.
  *特許検索ソフトから検索結果を出力した場合,これらの形式となっている事が多いかと思われます.必要に応じ列名を変更してください.
3 *をxlsx・CSVファイル名に変更してください.
4 必要に応じ,*部分を変更し,色やシンボルを変更してください.
5 目的に応じ,パラメータを設定してください.
6 メニューからすべて実行を選択してください.
7 しばし待ちます.待ち時間は1時間/5000件ほどです.
8 終了後,別ウインドウでインタラクティブHTMLが開きます.
9 結果を見つつ,期間限定・出願人限定・分類限定・キーワード限定、正規検索、概念検索(new)、attention概念検索(検証中)、要約図示に変換(transformer組み込み。高速化検討中)、関連製品情報検索(句の単語への置き換えまたはその逆含む。検証中)、関連文献検索(検討中)、LaBERTベクトル類似検索(検証中・検証結果によってはこちらで図示することも検討*BERTベクトルはmean-poolingでも事前学習の偏見が強すぎインサイトが得られにくかったため保留中)、などをおこない,分析を進めます.

*特殊な検索・限定絞り込み機能以外の検索・限定絞り込み機能は、pandasのそれに依存しています。

参考・補足

その他

・文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EMNLP2017)
https://qiita.com/fufufukakaka/items/a7316273908a7c400868
tfidf embeddings/cluster visはSCDVと基本的な考え方が類似(最初から気づいておけと思わなくもないが、思いついたらとりあえず実装したくなり実装の過程で構成がまとまり構成がまとまって初めて過去事例をまともに検索できるようになるので・・・)。
スパースを途中で施すのか最後に施すのかについての考え方の違いや、トピックに注目しクラスタリングするのか文の構造に注目しクラスタリングするのかについての考え方の違いがある。
(tfidf embeddings/cluster visにおいてもトピックを考慮してベクトルを補正しても良いけれど、クラスタ間の分離を良くすることを目的としていないのでそのままとしている。このような補正手法でクラスタの分離を良くして嬉しいのは、図示するときではない、と思っている。軸の意味が薄くなるしホワイトスペースは見にくくなるし…アイディア生成という面でも嬉しくないな。)

・valunex radar
https://www.valuenex.com/jp/valuenex-radar
はよくできているなと感心する.
tfidf embeddings/cluster visではホワイトスペースを正確に提示することは難しいかもしれない.
(その後、tfidf embeddings/cluster visにおいてもホワイトスペースの提示ができるだろうと結論づけた.いくらかの異なる母集団においてPCA因子分析を行い確実に存在するホワイトスペースを確認し、それらと同じ相対位置にホワイトスペースが現れることが確認できた.ただし、母集団が大きく異なる場合には再調整が必要だろう.)
image.png
*今後、コアや隠したい技術を公開しないように権利を取る知財戦略が一般化するかもしれない。そうするとホワイトスペースを見つける技術はより重要となるだろう。特許に存在しないが文献や広告等が存在する空間など怪しいと言えるかもしれない。次回はそのような、今後の知財戦略を想定した知財紛争用ツールを作る予定。
*シナリオ分析はどうなのかな。コンサル中心なので問題ないと思うが、特許のみからシナリオを求めるべきではないとは思う。他社動向やニーズや会社方針を必須としないと…

・Valuenexレポート 
特許の中の「美」-「美」はどこに潜んでいるのか-
https://www.valuenex.com/materials-database/report/200422/beautyinpatent
とtfidf embeddings/cluster visとを比較。
アルゴリズムは異なるが巨視的にはほぼ同じ出力となると確認できた。
ついでざっと分析したところ、美において「光」が新ニーズとして生まれているのだろうな、との示唆が得られた。
例えば、次に関わるニーズの走りが見られた。
三菱電機の「青空照明」実物を見てきた。本物の空と区別不能 「屋内の閉塞感」を解消する新技術

*FRONTEO、旧来の創薬プロセスを変革する論文探索AIシステム「Amanogawa(あまのがわ)」ver.1.0を発表(202007)
https://www.fronteo.com/20200707
インララクティブに文献情報が見られるようだ。
このようなツールが欲しかった。全文からベクトルを作っているならば、またはvaluenexが提示したように特許と文献を同一面に配置できるならば、採用したい。
特許出願中とのこと。公開中の特許に該当しそうな記載は見つからない。これから公開されるのだろう。優先日と内容によってはコード変更必要かもしれない。審査により公知範囲がわかるようになる。ありがたい。
Concept encoderの特許確認。transformerのkey、queryにより文脈を取り出している部分と似た処理により重要単語を取得し精度を増しているということかな?。こんな感じで
image.png
tfidfは文章作成者の癖に依存してしまう弱点もある。文脈を読み取る手法はより良いだろう。しかし文脈を読み取る手法でも、類義語が繰り返された場合の選別と最低表現数の確保、事前知識の検討(上図上下の違いの通り、事前知識により選択は変化する)をしたほうが良いと思うのだがしているのかな?
image.png
202010時点のtfidf embeddings/cluster visの外観。
amanogawaって良い名前だよなぁ

*tfidf embeddings/cluster visは、ちょうどvaluenexとconcept encoderの中間の技術を使っていると表現すると近いかな。違いがあるとすると、ある程度任意にアルゴリズムの調整ができることかな。

*特許と製品を同一面に配置?。検討したい。
Navigating a product landscape for technology opportunity analysis: A word2vec approach using an integrated patent-product database
https://www.sciencedirect.com/science/article/abs/pii/S0166497220300237?via%3Dihub
米国特許および商標データベースから統合された特許製品データベースを構築します。次に、word2vecを使用して、技術的関係を維持しながら、類似した技術基盤を持つ製品が互いに近くに配置されるベクトル空間モデルとして製品ランドスケープを構築します。

*「僕はこのときはっとした。なぜプリンストンの実験室から、どんどん報告が出ているのかに思い当たったからだ。彼らは実際に自分たちの手で造りあげた装置で研究しているのだ。だからこそどこに何があり、何がどう働いているかが、ちゃんとわかっているのだ。(ファインマン)」

*深層学習を利用した特許請求項ベースの特許技術俯瞰マップ
*坪田 匡史, 宮村 祐一, 神津 友武
主催: 一般社団法人 人工知能学会 会議名: 第34回全国大会(2020)
https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_4Q3GS903/_article/-char/ja/
self-attention LSTM
*特許文書ベクトルを用いた企業価値評価
*藤原 匠平, 松本 祐介, 菅 愛子, 高橋 大志
主催: 一般社団法人 人工知能学会 会議名: 第34回全国大会(2020)
https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_3Rin456/_article/-char/ja/
SCDV+
Constructing a Decision-Making System Using Patent Document Analysis
https://link.springer.com/chapter/10.1007/978-981-16-2994-5_23
*特許文書情報を対象としたコンテンツ分析の手法と出願人タイプ別特性比較
公開日: 2020.06.08
著者: 小柴 等、池内 健太、元橋 一之
雑誌情報: STI Horizon, Vol.6, No.2
https://www.nistep.go.jp/activities/sti-horizon%E8%AA%8C/vol-06no-02/stih00210
分散表現→k-means→umap(特徴語抽出工程は存在していない?)

共通する課題と解決すべき課題は何かな・・・実装し比較してみるか・・・

*Topic Modeling with BERT
https://towardsdatascience.com/topic-modeling-with-bert-779f7db187e6

*シマノとカンパニョーロ
特定企業の戦略的特許出願網の事例分析 S社の自転車部品市場における知的財産戦略
https://www.jstage.jst.go.jp/article/infopro/2020/0/2020_1/_pdf/-char/ja
image.png
参考:いま欲しい電動コンポはシマノそれともスラム? それぞれの長所と短所に迫る!
https://blog.cbnanashi.net/2020/10/15316
私はシマノ&SRAM派ですがいやリアの歯数がね

*ホンダ、知財分析ソフト発売 異業種連携を後押し
https://r.nikkei.com/article/DGXMZO66223610T11C20A1910M00
「知的財産のデータベースの情報などを解析し、特定の分野で協業できそうな企業を効率的に探す」
興味深い。セグメンテーション中心の手法なのかクラスタリング中心の手法なのかハイブリッドか。
「俺たちが必死で稼いだ1円、1秒をITに使わせない」とまで言われた ホンダの挑戦
https://www.atmarkit.co.jp/ait/articles/1908/26/news012.html
これを思い出す。

*医薬の新領域 中分子医薬の開発状況を特許で読み解く
魅了な未了領域ー AI活用 ー
https://www.jpo.go.jp/news/koho/kohoshi/vol46/01_page3.html
40万件。tfidf embeddings/cluster visでは一つ一つの特許を省略しないので重すぎる。

*IPRally
https://www.iprally.com/
知識グラフベースの特許検索
深層学習に対し知識グラフの結果を加えて?精度を上げているようだ。
1 起草時考慮知識をもとにした知識グラフ
2 審査履歴
3 1、2を加えた深層学習
知識の組み込みというトレンド通り?。
知識グラフから外れた部分がどうなるか気になるが精度は高いだろう。
既存の構造から抽出した?要素を考慮するので、先行技術調査、権利化可能性調査、特に無効資料調査に強そう。また、構成要素部分を任意に切り出す手法より漏れも少なさそう。判例の争点をどう切り出すか未だに悩んでいたが参考とできるか?

*STNext - 新機能 「Chemscape」 リリース
20210125
https://www.jaici.or.jp/news/news.php?selectedId=2324
「化学物質の類似性を解析する Chemscape (ケムスケープ) が搭載されました.マップ内には関連特許の件数が 3D で表示されるため,物質の類似性と化学関連特許を視覚的に解析することができます.」
充実してきたなぁ

*統合情報量の情報幾何的定義
https://tripdancer0916.hatenablog.com/entry/2018/08/04/%E7%B5%B1%E5%90%88%E6%83%85%E5%A0%B1%E9%87%8F%E3%81%AE%E6%83%85%E5%A0%B1%E5%B9%BE%E4%BD%95%E7%9A%84%E5%AE%9A%E7%BE%A9
各種の情報量は,要素間の相互作用を全て考慮に入れた"full model"とそこから一部の相互作用を取り除いた"disconnected model"との距離として定義できる。

*Legalscape
https://www.legalscape.co.jp/
判例解析?を行っている?Legalscapeという会社。
特許6469919
「【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1に開示された訓練用文章の分類分けでは、文章毎にトピックまたは「特徴」が付与されているため、文章全体を構文解析した結果として、文章全体にトピックまたは「特徴」が付与される。
【0007】
通常、判決文などは、理由、請求、主張、などの多くの項目からなる。よって、それぞれの項目の特徴は、その事件によって内容(種類)が異なり、これらの複数の特徴を平均して1つの判決文にラベルを付与することはユーザによる判決文の検索精度を低下させている恐れがある。そもそも、複数の項目の特徴を平均して1つのラベルを導き出すこと自体が精度の低いラベリング手法であるともいえる。
【0008】
更に、多くの判決文は、その判決文を詳細に説明した評釈と呼ばれる解説文が作成されており、この評釈を判決文と照らし合わせて読むことによって判決文の理解が深まる。しかし、判決文と評釈の文章中の対応関係については、読者によって見出す他方法はなく、判決文や評釈の読解を困難にしている。
【0009】
また、判決文は、訴状に記載された訴えの内容に対照的に作成されるものであり、判決文を読み慣れていれば、判決文を読む際に、訴状と照らし合わせて読む必要はない。すなわち、訴状と判決文とは、対応関係にあるにも関わらず、訴状の作成には莫大な時間と費用がかかることが通常であり、一般人が訴訟を起こすことの妨げとなっている可能性がある。
【0010】
そこで、本発明は上記事情に鑑みてなされたものであり、判決文を適切に小文章に章立てし、当該小文章の項目分けまたは種類分けを行う技術や、この項目分けまたは種類分けされた小文章から判決文に関連する他の判決文の小文章や評釈などの小文章の検索を行う技術や、この項目分けまたは種類分けされた小文章から訴状などの文を作成する技術を提供することを目的とする。」
「~前記処理部が前記記憶部に前記第1の文、前記第1小文章、および前記第1項目をそれぞれ対応付けて記憶し、前記第2の文、前記第2小文章、および第2項目をそれぞれ対応付けて記憶し、
更に前記第1の文および前記第2の文を対応付けて記憶させる記憶ステップと、
を含むことを特徴とする判決文データベース作成方法。」
広そうだな。基本ルールベース?
その法令に精通した専門家用ではない?
複数の項目の特徴を平均して1つのラベルを導き出すこと自体が精度の低いラベリング手法であるともいえる。というのは確かに。自分は争点を項目単位で区切ろうとしたが。

*ストックマーク Wikipediaを用いた日本語の固有表現抽出データセット
https://github.com/stockmarkteam/ner-wikipedia-dataset

*Language-agnostic BERT Sentence Embedding
https://arxiv.org/abs/2007.01852
多言語BERTベクトル表現LaBERT。BERTベクトルで工夫するならばこちらかな。
"vocab_size": 501153。語彙は足りるだろうか。

場を整えてくれているhuggingfaceには足を向けて眠れないな。

*sentence BERT
https://medium.com/swlh/transformer-based-sentence-embeddings-cd0935b3b1e0
文章ベクトルの妥当な解の一つか。

*The Dynamic Embedded Topic Model
https://deepai.org/publication/the-dynamic-embedded-topic-model

*発明の抽出的要約と生成的要約、文献検索用上位下位概念化要約、実施物検索用表層化要約を同時にできるとかなり使える。
すべてtransformerを用いた試行、課題抽出中だが、どこまでできるかな。
文献検索用要約では興味深い検索結果が自動で得られ楽しかった。
最大の課題は多分処理時間。どうかできないか…
HuggingFace model hubにモデルを置きAPIを用いて結果を得るという方法もあるが。(速くもない)
サーバーが欲しいな…

*GoogleAILanguage Interpretability Tool (LIT
https://pair-code.github.io/lit/
https://colab.research.google.com/github/PAIR-code/lit/blob/main/lit_nlp/examples/notebooks/LIT_sentiment_classifier.ipynb
「言語解釈可能性ツール(LIT)は、NLPモデルを視覚化して理解するためのオープンソースプラットフォームです」

*Ruishi Liang; Yilong Li; Xiaomiao Chen; Junwen Chen
2020 International Symposium on Computer Engineering and Intelligent Communications (ISCEIC)
Patent Trend Analysis through Text Clustering based on K-Means Algorithm
https://ieeexplore.ieee.org/document/9325336
TFIDF k-means

*テーブルデータ向けの自然言語特徴抽出術
https://zenn.dev/koukyo1994/articles/9b1da2482d8ba1
現状基礎整理

*AIで特許・論文の類似度を分析、NISTEPがツール開発
https://newswitch.jp/p/27622
「文部科学省の科学技術・学術政策研究所(NISTEP)の小柴等主任研究官は、人工知能(AI)技術で特許や科学論文の類似度を求める分析ツールを開発した。広範な研究活動を分類したり、似た研究を検索したりできる。検索システムのようなツールとし、NISTEPに加えて文科省の職員が使える。科技政策の立案や学術界の俯瞰(ふかん)的分析を支援する。自然言語処理技術で研究開発の類似度を算出する。特殊なインデックスを用いて、類似しそうなものだけに絞って類似度を計算する。既存技術は全ての内容について類似度を求めていた。先に絞り込むことで計算負荷を抑えた。例えば1件の特許に対して200件の類似特許を求めるのに7ミリ秒と高速で計算が終わる。過去15年分の特許400万件に対し類似度を求めるのに7時間47分で済む。
技術としては、特許の文章を数値ベクトルの分散表現にして、高次元ベクトル近傍探索という技術で近しい特許を探す。特許全体で数値ベクトルを約300次元に抑えたため高速処理できた。特許全体を俯瞰して分析できる。」
具体的な使用事例を公開してもらいたいもの。
どうも、ある期間内の全特許をベクトル化して保存し検索図示しているようだが、その場合は「その母集団における」という視点、例えば共通価値、意味、状態、属性など、が入らなくなる。あえて任意に母集団を規定することによって、何について分析したいのかの情報が与えられる。ある視点ではある2つの特許は遠いべきだし、ある視点では近いべきだ。この情報を失っているこの手法で、目的が達成できるのかな?。
「その母集団における」は非常に重要。valuebexが母集団において動的なtfidfを使い続けていることには意味がある、と思っている。(他のページで書いているように、自分はこの「認知」を非常に重視している。)

*ある視点を作るには幾何が必要。
「集合を、目的に合わせどのような幾何に整えるか」が最重要であるのに、それを気にしていない図示が多いように思える。近けりゃええでしょう、では図示を解析に用いるに明らかに足りない。と思う。(amanogawaは遺伝子視点に固定しているがそれが目的に繋がっており問題ない。汎用目的なのに動的な視点でないものについて、その図示で何をしたいのか理解できない。絶対的な近さならば、1次元のリスト形式での出力がより良いと思うのだが。例えるなら、Patenrfieldの手法が良いと思う。)

*ストックマーク 製品化・事業化が加速する-研究開発部門のニュース活用術
https://webinalist.com/events/buisiness/18089/
*Anewsの裏側で動く、自然言語処理を活用したビジネスニュースの推薦システム
https://tech.stockmark.co.jp/blog/20210601_anews_recommendation/
Anewsの構成技術とtfidf/mbart/mt5 embeddings cluster visの基本技術は考え方がほぼ同じかな。
自分は他の手段では重み付けしていたのでtfidf/mbart/mt5 embeddings cluster visでは切り捨ててしまった。この点が異なる。また、tfidf/mbart/mt5 embeddings cluster visでは比較的ドメインが限定されることもあり、切り捨てた後に更にストップワード処理を行いより精度が高くなるようにしている。

A Simple but Tough-to-Beat Baseline for Sentence Embeddings
https://openreview.net/forum?id=SyK00v5xx
SIF 割り当てられたベクトルを単語の重要度に準じて重み付けし、足し合わせる

*【Techの道も一歩から】第40回「Texthero で日本語を解析する」
https://buildersbox.corp-sansan.com/entry/2021/06/29/110000?utm_campaign=Weekly%20Kaggle%20News&utm_medium=email&utm_source=Revue%20newsletter
「TF-IDF 行列を PCA で可視化しやすいよう 2次元に次元削減し、K-means 結果とともにプロットします。」
Texthero。短くまとまり便利そう。

*旭化成が注力する「知財のDX」、特許分析で競合他社の戦略を読み解く
https://active.nikkeibp.co.jp/atcl/act/19/00313/091400007/

使用例の補足

*例ではインタラクティブHTMLから類似特許を探しましたが、「記事文章を入力しておき」、記事文章ベクトルと各特許文章ベクトルとの類似度の数値から類似特許を探すことも可能です。
(概念検索機能を追加。「記事文章を予め入力しておく機能」は概念の上位下位レベルの選択をアルゴリズムに委ねる場合に使用し、「概念検索機能」は事後的に確定的な概念を用いて絞り込みを行いたい場合に使用すると良い。)(「attention概念検索」検討中・・・)

*類似特許が多すぎ図上で判断し難い、どの特許を確認したか忘れてしまう、次元削減前の類似度で比較したい、などの場合には、「類似度リスト」を使うと良いでしょう。
(絞り込み検索を行った後に類似度リストを作成することにより、より精度の高いリストとすることができます。)(類似度リストとすると特性の方向性など多面的な類似情報が失われてしまうことに注意してください。)

*探したい特性を示すクラスタが無くどの方向を探せばよいのかわからない場合には、「キーワード限定」「分類限定」、「母集団にその特性を示す特許群をダミー(呼び水)として加えてベクトル計算をしたのちダミーを消す」、などの対応を行うと良いでしょう。
(これを利用し例えば、製薬会社全体の情報を調査対象製薬会社の情報に混ぜベクトル計算をし製薬会社全体の情報を除くことにより、調査対象製薬会社が採用していない戦略や急所を抽出する、などの使い方があり得るでしょう。パラメータを変更し類似の抽象度を変えより上位概念で混合することにより見えるものもあるかもしれません。)(ニッチでしょうけれど、特許隠蔽会社の予測にも使えるでしょう。)(クラスタリングにおいては母集団の内容は非常に重要となります。通常の特許分析などのセグメンテーションと同じ感覚で母集団をとらえてはいけません。周辺技術を含んだ母集団とすることは、非常に重要です。)(自由に任意の視点とできるようにすることは重要です。任意の視点のみとしてしまうことは避けたほうが良いと思うところです。)(関連母集団を追加することで、新たな視点のクラスタを作成し、新たなセグメントについての知見を得る、なども面白いとこhiろです。)

*キーワードでも分類でも見つけづらい特許において特に有効でしょう。近年需要の高い新規分野の特許ではキーワードも分類も安定していないでしょうから有効となりやすいでしょう。
(未知キーワードであろうと前後関係を考慮した他単語との類似性から適切に図示されます。分散表現を使っていれば当たり前ですが。ただし、あまりに未知である場合には、未知キーワード同士で類似性があると計算されてしまうことがありますので注意必要です。)

*それぞれの点は、設定したパラメータに依存した類似指標に基づき近接しているため、その類似指標から外れた視点においては、近接している点であっても関連性が低いように見えることがあります(上位概念が共通するが下位概念は異なるなど)。
その場合においても、「関連性が低く見えるがどこに共通性があるのか探索しよう」という視点で見ることにより、連想記憶に基づき「思い込みを防ぎ、新たなインサイトを生み出す」ことができ、「技術の使われ方の革新である「イノベーション」」に寄与する、「共通の目的に向かって同調せずに自立し行動する「共創」」に寄与する、創造性を生み出し創造に寄与する、かもしれません。
(「関連性の低い2つの対象間での共通点の探索は対象の「目立たない」知識の活性化を促進する。」「固定的な見方の解消とは「目立たない」知識を活性化させること。」 山川真由・清河幸子 関連性の低い対象間の共通点探索プロセスーカテゴリ判断課題との関連による検討 日本認知科学会第37回大会 JCSS2020
httpss://www.jstage.jst.go.jp/article/jcss/27/4/27_2020.002/_pdf/-char/ja )(目立たない特徴を活性化させ、さらに自らのバイアスから特徴の隙間を補って(生成して)足すことこそが、検索者や調査者の役割、と。認知視点の検索論に基づき言い切ってもよいと思う。)(ヒトによる生成:「DRMパラダイムとは•相互に意味的関連のある単語リストを呈示し,後に自由再生をさせると,実際には呈示されていない意味的関連の強い単語が誤って再生される(Deese, 1959) )(開発者はイノベーションに向かない(眼の前にある実現可能性の高さに拘束されすぎる)ことは様々なデータにより示されている。そこで企画が利用されることがあるが、企画はフレームに拘束されすぎイノベーションにたどり着かないことがあるし、結局、眼の前にある実現可能性の高いアイディアしか採用されにくい。様々な壁やコスト、生み出され得る価値を考慮すると、開発者自らがイノベーションを生むことが重要となる。(ABCDEFの分担という考え方もあるが、分担するほど価値観合わせなどの壁が高くもなり生み出される価値が小さくまとまり得るので統合できるところは統合したほうが良い。多様性より自己多様性、に似る。)。開発者はイノベーションに向かないと認識したうえでいかにイノベーションを起こすか、その答えの一つは、自律的に多様な情報を収集することである。ここに示すツールは、開発者が自主的に多様な情報を収集しインサイトを得ることができ、開発者によるイノベーション生成に寄与するだろう。)(面白さとはパターンの発見である。面白さを報酬として知的好奇心が形成される。知的好奇心は自立の源泉であり、イノベーションの源泉と考えている。)(バンデットアルゴリズム。探索と活用のトレードオフが、イノベーションからみた開発の不誠実さと開発から見たイノベーションの不誠実さのジレンマと対応しているようで面白い。ジレンマやトレードオフに対応するため、イノベーションにも因果探索推論のアルゴリズムを導入すべきなんかな人任せではなく。さてどう組み込むか。)(私は、分析者の構造化能力に強く依存するテキストマイニングによる多空間発想法のようなアイディア生成手法よりも、閲覧者がそれぞれ自身の視点と能力に基づきアイディアを生成するクラスタリング系のアイディア生成手法を好む。後者のほうがより広い可能性を含むと思うから。閲覧者の能力に依存させないほうが良い、分析者のほうが優秀だと諦めたときのみ、前者を検討するだろう。)(理解不可能と認めた上でそのまま取りだす、セグメンテーションではない、クラスタリング手法が、複雑な隠れ情報を価値のあるママ取り出す有効な手段だ、という視点は、イノベーションに関連すると思われます。本手法は隠れ情報をそのまま使ったわけではないですが。)

*集合がキーワードや分類によりどう変化するのか比較することにより、「精度の高い部分集合を組み合わせ再現率の高い集合を作るにはどうすればよいのかについてトレーニングするツール」、検査能力向上訓練ツールとしても使えるかもしれません。
(母集団の特性が重要との観点において、ダミーを利用しつつ専用化すればシステマティックレビュー、メタ分析にも使えるかもしれません。特許SDI用AIと同じように他技術と組み合わせてみようか…)

使い方の補足

*文献やニュース・判例・他言語にも対応しています.
ただし,適当な前処理を行い、適当なストップワードを追加する必要があるでしょう.
(ストップワードは結果を確認しつつ追加したほうがよろしかろうと存じます。個人的経験から述べると、最初から名詞のみに限定するような限定はやめたほうが良いでしょう。アルゴリズムと母集団に適合した丁寧なストップワード設定によりより多くの価値を残せるでしょう。)

*複数言語同時表示には対応していません.
Aylienに期待するとよろしかろうと放り投げ 
https://t.co/7LkXI0viQY?amp=1
(mbartやmT5のようなend-to-endの多言語モデルが見られるようになってきました。ここから得たベクトルは複数言語同時表示に対応するでしょう。とりあえずmbart触り中。どこからベクトルが取れるかわかりませんが、翻訳言語を固定し全翻訳単語の各語彙出現確率の要素和を取れば元の言語に依存しないベクトルとして取り出すこともできると思っています。少々次元が大きすぎるので次元削減は必要でしょうけれど。)(英語の固有ベクトルと日本語の固有ベクトルなど必要な言語の固有ベクトルを求めておけば、理屈の上では、言語非依存のベクトルが求められ、複数言語同時表示ができるはずです。retrofitting?。どこかで試そう。)

*要約過程を経るため,ある程度長い文章に向いています.目安としては400単語以上です.

*特許で用いることをまず想定していますので,1テキスト内で内容が単一性を示すことを仮定しています.
使用したいテキストがこの仮定に合致しない場合は,あらかじめ単一性を示すセンテンスに切り分けておくなど対応ください.

*様々なソースから集めたテキストを混合した場合,それらテキスト間では文章の解像度がかけ離れていることが多いため,適切に図示され難くなるかもしれません.
対応済みですが,完全とは言い難いでしょう.
(解像度の違いを吸収する文章ベクトル作成手法が提案されるのを待ちましょう.transfomerから求めた文章ベクトルであれば,すでに解像度の違いを吸収できていると言えるかもしれません.適当に置き換えてください.)(LDAを用いトピックを介しまとめることで特許と文献の用語の差は吸収できるとのこと。valuenexが新機能として提示しそうです。待ち採用するのも良いでしょう。)

*複数の抽出手法を組み合わせる手法がより良いでしょうね。

コード概要補足

*抽出的文章要約という分野の手法といえるらしい。
*教師なしデータから学習した単語クラスタリング (Brown clustering)の特徴を追加して教師あり学習する⽅法論を提案
https://www.aclweb.org/anthology/N04-1043/NAACL-2004
Name Tagging with Word Clusters and Discriminative Training
https://www.aclweb.org/anthology/N04-1043/
*word2vecとtf-idfを組み合わせた例
***
*ある答えを求めるにあたり(数百の)複数の解決手段が考えられるとき、そのルートをいくらかに限定することこそが(認知適合と優秀さを両立する)知能の役割だとすれば、3のようなクラスタリングこそが本質に近いと考えている。
(結果としてクラスタリングされる場合と似たルートをクラスタリングしてゆく場合の差は…)(ベイズで限定しても良いし構造を適用して限定しても良し。非常に面白い。)
*減算と縮約の視点からすると縮約に該当すると思うが、本体の特許SDI用AIでは減算を行っている、と思う、ので、気にはしていない。(減算と縮約について、未だに理解しているわけではないが、可逆圧縮と非可逆圧縮と考えるとよいだろうか?。)(縮約はいわば目立たない特徴を消し去っているとも言えるわけだが、あえて消し去ることで、検索者による生成を促す効果を強められている、とも思わなくもない。)
(再構成により、tfidfでは避けられない著者の癖による影響も低減させている。スタイル・文体を消す、異なる解像度を主要単語に限定する、と表現してもよいかもしれない https://qiita.com/kzuzuo/items/b6875441d7103ee515c1
(再構成の考え方は、サンプリング中の最も代表的な単語を採用するというサンプル中の分布を考慮したminimun bayes risk MBRという手法に似ているようだ。self-attention LSTMなどで採用されているとのこと。 https://arxiv.org/abs/1805.04833  後半はreformerと同じ考え方か?。まとめると、MBR&LSHというアルゴリズムだと表現できそう。)
*(一般化できないのでその他へ移動)「教師あり」による文章ベクトル生成は、距離をある方向において積極的に近づけ、それにより他を「離す」。離す際に、内在的な方向性を示す情報を「失う」ことがある。
 「教師なし」による文章ベクトル生成は、距離や方向の違いを「見出す」。内在的な方向性を示す情報は失われておらず、単に見いだせなかったと解釈される。
 本手法のような文章間類似可視化において、予め定めた任意の方向を明示することが必要なのでは無く、仮説を前提としつつも自由なインサイトが必要なのであれば、教師なしが最適であると考えている。ただし、この場合は見出すための鋳型(窓、プロジェクション、なんと呼んでも良いけれど)が問題となる。

コードと改良

*3000行+
*MITライセンスでGithubに上げる、または欲しいと意思表明した人に改良時ライセンスバック契約で送る、予定。(上記コード概要を参考に自作したほうが良いとも思う。真面目に書けば2000行ぐらいで書けるはず。)
*文章ベクトルとしてBERTベクトル(CLSではないsentence-BERT)、クラスタリング手法としてDBSCAN、PHATEを選択できるように改良中。
(Tfidf embeddings/cluster visはそもそもBERTを含む自作AIの補正のために作成したAIシステムの一部。重複し補正の役に立たないだろうBERTベクトルを採用するモチベーションはあまりない。とはいえ選択できると便利だろう。)
*統合概念検索機能を追加。入力した単語群と近い概念の特許を抽出可能とした。(類義語と記載の多様性を吸収。)
*知財高裁判決を争点単位で検索するデモを連休中に作ってみよう
→判例争点単位概念検索システム
 判決PDF→テキスト→争点区切り→文章ベクトル化→html
 ・一通り実行完了.
 ・争点をキーワードで限定しかつ概念でも限定できるようにした(例えば、医薬にかかわる進歩性についての争点に限定し類似度を出力できるようにした。下図参照)
 残された課題
 ・区切位置見直し
 ・判決12000件分予想計算時間15日
 ・不要語除去
image.png
*疑似self-attentionをとり、その上位数単語を更に足し合わせるのもありやな。かんたんに実装できるし試してみるか。
*上記の判例争点単位概念検索システムを調整していて思ったのだが、keyword attention形式とすれば、争点区切りをする必要が無くなるため区切り位置ミスの影響を受けずに類似計算をできるようになり、さらにself-attentionより軽くでき、より良いのではないか。
構成要素区切り位置が問題となる構成要素単位類似検索でも同じ課題があるな…実装してみるか
→「attention概念検索」
(なお、構成要素単位類似検索で得られるのはあくまであるアルゴリズムに従った構成要素単位間の類似のみ。構成要素が類似しているからと言ってそれが直ちに進歩性などに関連する先行文献となり得るわけではない。もし、進歩性などに関連する先行文献を見つけようとするならば、類似とは別のさらなるアプローチが必須となる。このアプローチがない場合は、進歩性などに関連する先行文献の発見は検索者の役割となる。)
個別attention概念検索に付き、概念を知識グラフから持ってこれば、ある意味zero-shot学習による検索ができるといえるのかな?。呼び方はともかく実現可能だな・・・
*明確な類似とアルゴリズム上の類似との相違点の参考等とするため、引用被引用の関係にある点間に線を追加する予定。
参考 https://stackoverrun.com/ja/q/11636832
→被引用実装。多方向から線が引かれている特許は多分野に影響力がある特許だといえるのだろう。特定方向への線の集中は分野間の関連の深さを表しているのだろう。下記図はある特許に類似する特許母集団を作成しそれを図示したもの。類似する特許群であるため当然に引用関係になることが多く、線の密度が高すぎ判断が難しい。しばらく観察してみる。
image.png

*混合ガウスモデルを採用し抽出可能とする予定。
*mBARTなどの要約技術を利用して、フラットな概念でも図示可能とする予定。ついで、特許文章と文献、商品情報、判例の、より適切な同意時平面図示の検討を試みる。
*非記載固有表現抽出っぽい機能を力技で実装し試行。5000件ほどの処理に100時間ほどかかるどうしたものか。
*概念近傍検索追加。
*追加予定
DSOC、ジョンズホプキンス大学のAngelo Mele准教授と共同研究したネットワーク解析のアルゴリズムをオープンソースで公開
https://prtimes.jp/main/html/rd/amp/p/000000210.000049627.html
lighthergm
https://github.com/sansan-inc/lighthergm

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
9
Help us understand the problem. What are the problem?