Help us understand the problem. What is going on with this article?

(移動・再投稿) 特許SDI用自然言語深層AI学習モデルにおいて見られた個性とその解釈、および認知的観点に基づく知識構造の多様性を評価した価値共創の展望と、創造性 

*移動・再投稿(元 https://qiita.com/kzuzuo/items/9a149e69642ee7b3221e )

2018年4月頃より余暇業務外で,知財関連AI,SDIと連動して教師類似特許抽出・スコア順並び替えを行う点眼分野専用自動化AIの実装・実データでの試行と検証を行ってきた.
            
2018年10月頃完成,2019年4月現在は試行しつつの改良・検証段階.しかし,本業が忙しくなり余暇においても優先として時間配分できなくなっている.
しかし結果は知りたい.
いっそのこと公開してみる.

どなたか協力,またはこれらから課題発見し検討・公開してくれることを願って・・・

*以下,随時更新追記します.区切りを見つけてまとめ直す予定.
*以下,*と()はメモであり読む必要はない.(手を動かせていないため,*と()だらけのネタ帳と化している感あり.)
*思いつき即なぐり書きしており穴だらけ.考えが変わり矛盾している箇所も多々.
*繰り返される追記により話が前後している部分が多くある.
*専門が異なり固有名詞が出てこない.自分の考えはP.インクベルセンの「情報検索研究一認知的アプローチ」にほぼ記載されていたのでこれに使用されている用語に書き直してゆく.
*2019年4月に提唱のあったMachine behaviorが,本件における該当分野となってゆくのだろう.
*実装しながら論文読みついで基礎を学び忘れ学び過去の通説は覆され,適切な知識形成がおっつかないよ!と泣き言を書いてみる.
*私は,手段の完璧さと目的(課題)の混乱が最大の問題である論者です.好きな人物は,と問われれば,ファインマン,ベンジャミン・フランクリン,アインシュタインを挙げます.また,リベラルアーツを評価しています(課題を持てていないものの多くがリベラルアーツ不足に見えるという理由の範囲で).
*「評価の低いモデルをただ捨て去るのは間違いである.シンプルなモデルが役に立つ場合それは必ずしもすべての実験データなどと一貫性がある必要はない」,という理解は,物理生物学など持ち出すまでもなく広い範囲で言えるところ.
必要なモデルとは,「予め得られるドメイン知識と教師・非教師データを用い構成され,今後得られる実データから個別に設定された課題を解決できるモデル」.そのモデルという手段が汎的に使えるかどうか,手段が汎的に評価が高いかどうか,は,あまり重要ではない.
ここを勘違いしている人が多すぎることは,実装普及において最大の問題の一つだと感じている.
(ガイドラインに従えばすべての患者を適切に治療できるか,と問われれば,そうではない,というのが答えだ.それと同じ.実務では個別の患者に,個別の課題に,注目することが重要.)(「モデルの予測精度評価は動作確認程度のもので、これ自体をKPIにするのはマズい。」そのとおりでしょうな.適用範囲が絞り込まれていない(適用範囲が未知と言っても良い)ことが多く、動作確認程度の指標に過ぎないと言えるだろう。なお、モデルの適用範囲が理解できていないことは、PoC倒れの大きな原因となる。)(汎的に評価が高いものを高く評価するに問題はあまりないが,汎的に評価が高くないものをそれだけで低く評価するというのはあからさまな間違い,といったほうが良いか.)
*少々古いが,最初に次を修了しておくことをおすすめする.学び始めて1年経過したが,学会を除き,どの「いわゆる」わかりやすい講習等より役に立った.
Machine Learning
by Stanford University
Andrew Ng
https://www.coursera.org/learn/machine-learning/home/welcome
11週間.毎週テストとプログラム提出必要.修了するとCongratulations!
You've successfully completed Machine Learning!と.
講師のAndrew Ng御大は人を乗せるのがとてもうまく,非常に楽しく学べた.多分わざと入力を間違えて見せリラックスさせたり.いや面白かった.
2018年5月頃受講し,このあと1月ぐらい?だったか?でPythonの勉強を始めつつ自作AIのコードの主要部となるw2v-mpの母体を書き上げたんだったかな.懐かしい.
課題を持っていないものは価値のあるコードを書けない,小手先の知識など課題がなければ意味がない,とも教えてもくれた(のはこの講義だったか)
最初に良い先生に出会うかどうかはクリティカルで,固有名詞の説明のみから入る講義を最初に受けてしまえばその段階で発想できなくなるという重い負債を得てしまう,感覚がある.
Advice on building a machine learning career and reading research papers
by Prof. Andrew Ng
https://www.kdnuggets.com/2019/09/advice-building-machine-learning-career-research-papers-andrew-ng.html
多々入門者向けの人工知能系の講習会や書籍があるが,そんなものに何度も参加したり読むより,論文を読み学会に参加したほうが良いと思うよ.
(自然言語AI分野のように,まさに日進月歩と言える分野においては特に,固有名詞の説明のような基礎講習など,評価しているつもりの偏見持ちを増やす程度にしか,役に立たない.ものを理解するにあたり「最初に」枠を示す教え方・得る覚え方,迅速に柔軟性のない偏見を作るようなやり方,は,発想を阻害するため好むところではない(誤解の無いように一応書きますが,枠自体が本体である法律などは別です.これは外枠から始め外枠を調整してゆかねばならない.始めから無限の要素を備えており枠をいくらでも拡大できる「もの」とは違う.))(同じく,「考える」ときにはできるだけ固有名詞を非除して考え,ある程度考えがまとまってから適切な固有名詞を探すことにしている.これをやらないならそれは演繹的に何かを導いているだけで「考えている」とはならない.まあやりすぎると単なるいいかげんや効率の悪さに帰するしそちらに寄りすぎている自覚はある.だが自分は「知りたい」のだ.「納得したい」ではなく.)(このような考え方を取るのはファインマンの影響.)(固有名詞から始める危険性のことを,知識の呪いやセンメルヴェイス反射,早まった一般化,自然主義の誤謬や合成の誤謬にハマりやすくなる、などと呼んでも良いけれど.)(デザイン思考を標榜しながら大きめの固有名詞のみで考える人もいるが、正直理解できない。)(情報機構なんかの有料の講義より無料のチュートリアルのほうが遥かに役に立つというのはなにか歪んでいるような有料のほうが.)
*特許SDIにAIを用いるにあたり、AIに求められる「最も」重要といえる能力は、再現率もそうであるが、「教師データとして教えていない未知の特許・新しい特許のうち、少なくともヒトが必要と認識できるものをきちんと提供できるか」どうか。これはいわゆる汎化(意味不明なほど広いが)の問題でもあるし、創造性の問題でもある。これができず類似だけ観ている特許SDI用AIは、すべてアウト、というと言い過ぎか...すべてファウルだろう。
・言語処理学会NLP2019,とても面白かった.
・日本認知科学会JCSS2019,とても刺激的であった.
・情報論的学習理論ワークショップ IBIS2019,再認識することが多かった.

*いつか誰かが「皆が欲しがるもの」を作ってくれる。これは達成されるだろう。しかし、いつか誰かが「自分の欲しいと思うもの」を作ってくれる、これは、多分達成されない。
きっと、多様性の時代には、自分の多様性を押し殺し二律背反を抱えて生きるか、無いなら自分で作り自由に生きるか、の2択を選ぶことになる。
後者のほうが、面白いのではないだろうか。

やってきた:

複数の深層学習モデルを組み合わせた自然言語 AI 実装の一例と
モデルの多様性に注目した展望(概報)
2018年12月提出
 http://patentsearch.punyu.jp/asia/2018hayashi.pdf
 https://sapi.kaisei1992.com/wp-content/uploads/2019/03/2018hayashi.pdf

div0.png
div1.png

  • 複数のモデルの個性とその多様性を評価するシンプルな手法.
  • recall,AUCを評価基準として良好な結果が出ている.必要性はあり実現可能であり再現もある.ただし,実効性は不明. (評価データセットが十分でないので数値評価はしていない.→9ヶ月実データ試用結果は下記の通り.実効性があると言ってよいのではないだろうか.→val460検証結果の一部は下記の通り.目的に対し十分だろう.当面.)
  • 今後,認知的観点と解釈学的概念から実用をふまえた理解を深める必要があるだろう. (自然言語に真値は存在しない,正しい答えに見えるためには個別の認知に適合することが重要,と前提.)(p32今後,テンプレートマッチング,特徴・統語分析,および文脈解析の観点を超えた理解を,認知的観点から進める必要があり,そうして初めて「実用」といえる段階になるだろう.)(文脈解析までは情報と意味は等しい.必要なのはその後の,「情報が意味を超える」部分だろう. )(どこかで理解検証のための前向き研究をしないといけない.ただし,必要な評価基準の設定は結局不可能でないかとも思っている.)

 *このAI使用の前提は,ヒトが補完をすること.この種のAIには,今のところ,ヒトの代替をできるほどの能力はない.すでに人手が足りているならその代替にはならない.不可能を可能にしてくれるが可能をより良い可能にはしてくれない.その理解の上で,ヒト代替に近づくAIにできないか,個人用アシスタントAIとできるか,試してみたい.
(ヒトには再現性の限界と,同じ単語を同一価値として調べるしかないという限界があるが,記録とヒアリング技術と近傍検索である程度解決可能.上記は優秀なヒトの代替にはならないと書くべきか.)(p201AIには従来のような概念知識を持たない「情報検索専門家」でなく、概念知識を持つ「専門家」となることを期待している.)
 *AIを用いた実データによるSDI確認試行を9ヶ月続けた.その期間内において重要な特許を見落としたと言える案件は(再確認中だが見つかっているものは)多様性評価で上位15%(BERTモデルで48%)となった1件のみ.この1件もヒトが救済している.人手が足りない会社における実用として,個人用アシスタントAIとして,十分ではないだろうか.
(判別しにくい分野の特許群ではこうはならないと思うけれど.難しいタスクを簡単なタスクに変換することも重要。)(それぞれのモデル(ヒト含める)の不得意分野が明確になれば,さらに精度・再現率をあげられるだろう.不得意分野が明確になるかどうかわからないが.)(AIによる見逃し0がありえないという人は,とりあえずPanasonicのLEDモジュール基板外観検査装置が何をし何を達成したか調べると良い.いやわしも生データ知らんので誰か教えて下さい.)(特許調査に100%はない,というのはその通り.母集団の外の特許は見つけられない.人が調査する際には確認可能な件数に母集団を限定する必要があるが,AIの場合その制限は少ない.この母集団を広く取ることができるという点においては,人よりAIの方が確実に優れていると言える.現在,AIに仮説検証補正ループ(アブダクションモデル?)を追加し,母集団自体を修正する手法も作成中.(適切な母集団かどうか判定するだけなら簡単.)(AIとヒトとで比較したとき,ヒトがすべての範囲で優れているということはない.例えば・・・先日ある調査会社にクリアランス調査を依頼し評価十分と言える方(この方の調査能力が低いと言う人は多分いないし,この方の調査能力が低いなら調査能力が高いと客観的に言えるヒトはほぼいないとなるだろう)に調査していただいたのだが,見事に最重要特許2件落としてだなぁ・・・この最重要特許はAIが拾い上げた.ここで言いたいのは,ヒトも完璧ではないようにAIも完璧ではない,AIが完璧でないようにヒトも完璧でない.ヒトをAIに置き換えることが難しいのと同じように,AIをヒトに置き換えることも難しい.ただ,ヒトとAIはお互いに補えうる,ということだ.AIが100%見分けたかどうかは結果に過ぎず最重要ではない.まず重要な問題は,ヒトとAIにつき,互いが間違える部分を再現性を持って補ってゆくことができるか,である.つまりアシスタントできるか,だ.)(ヒトとAIの協働には可能性を感じている.協働にはAIの個性を理解する必要があると感じている.個人用アシスタントAIがベストと,今も感じている.))(AIの認知とそのヒトの認知を完全に一致させることは,完璧なガイドラインが存在しないのと同じように不可能だろう.それをしようとしてもヤブ医者,エセ専門家ができるだけ.)(「実データで使い物になっており」,研究開発において目的となる「不確実性の低減」を十分達成しているといえる・・・ので,その意味ではこれ以上の検討は必要ない.のだが,まだまだ改善の可能性があると思っているので,そのためにもどのような検証が可能か・必要か,検討を続けてゆきたい.創造を組み入れた未来予測型の個人用AIが可能だと考えているし,まだ不可能を網羅していない(というか,創造性の部分にはまだほぼ手を付けていない.))
 *現在,100カ国語+から日本語への翻訳機能を実装している.これはSDIで重要となる迅速な読解,ひいてはROIの向上に,大きく寄与する.
 
 *個性について.個人的には,個性とは概念の違いのことだと考えている.
(ここで言う概念のことを,認知科学では表象と言うらしい?.この場合,「概念」=「価値観」・「辞書」=表象,(「データ」→表象→「情報」)=「歪め統合」=プロジェクション,と理解してよいのか? 特集「プロジェクション科学」編集にあたって https://www.jstage.jst.go.jp/article/jcss/26/1/26_6/_pdf/-char/ja )
(プロジェクションの考え方は、価値共創、ものと顧客双方のスキル・ナレッジが必要とするサービスとサービスが交換されるという考え方に似ているかな.「価値共創」は認知考慮、個性考慮そのものか.顧客がそのスキル・ナレッジを用いてものから価値を抽出している,という考え方は認知そのものだな.多様性評価も価値共創そのものか.)
 *個人的には,モデルの理解が足りない状態で適切な教師を設定することは難しいと考えている.例えば,単語を主因子とするモデルであればそのような教師を渡すべきであるし,単語と互いの共起性を主因子とするモデルであればそのような教師を渡すべきである.サリバン先生はヘレンに水に触れさせ水に名前があることを学ばせたが,熱い,冷たい状態を水と呼ぶと学んでしまう可能性もあった.教師はヘレンを理解し学ばせる必要があった.
また,概念として保持したいデータは概念として学ばせるべきであり,直接教えたいデータは教師として学ばせるべきであると考えている.「教師データ」とは流れる水,「概念」とはそれを通す河の形,そしてその双方が変化するなか,ある流れを得たいときにどちらの変化が必要なのか見極めなければならない.その水は河の形を作れるのか,その河の形はその水を受け入れるに適切なのか,水を受け入れる際に河の形を変えてよいのか.
必要な理解は,データ1結果7数学2ぐらいのウエイトか.
 *概念とはデータを入れ情報を出力する入れ物.人は,多くのインプットに基づき脳内に概念という入れ物(河の形)を削り,そこにデータ(水)を流してゆく.概念において最も重要なのは,その境界であって,中身ではない.(別の言い方をすれば,概念とは母集団の階層とエッジの適切な把握,データとはその母集団に高さと構造を持って入る多様体.…うまく表現できない.適切に訓練された専門家の脳にはエッジを流動的に見極める概念がある,ぐらいに留めるべきか.)(概念を入れ物とみなすのでなく、データに概念を付加したものが情報であるとする考え方もあるそうです.)
 *データに触るためには概念という入れ物が必要.概念を作るためには多くのデータインプットが必要.これを学習という(学習とは概念を作る行為であり,データを詰め込むことではない).概念がない状態とは,重要なデータがこぼれ落ちる,理解できないことが理解できない状態.非専門家と専門家の違いは,概念のエッジの認識と更新にある.非専門家は,概念が形成できていないか,一度概念を作ったのち更新しない状態にある.概念を更新しない状態とは,硬い入れ物となり変化に対応できない前こうだったと経験のみ持ち出す判断を取りがちな状態である.(本当の)専門家は,概念を流動的に変化させる.現在よく見られるAIは,概念形成を教師データのみに丸投げしており,適切な概念形成のために十分と言える構造をまだ持っていない.それにより,データが多量に必要かつバランスを崩しやすいものとなっており,バランスを取ることができれば概念のあるものや専門家に,取れなければ概念が無いもの(データを受けられない)やエセ専門家(データを適切でない概念に入れる)になるという,コントロールされていない不安定な状態にあるように思える.

gainenn.png

自然言語では概念形成に必要十分なデータを毎回適切に用意することが難しい(似た文章データを用意することはできるが,画像と異なりそれが概念形成に寄与するかどうかわからない(猫という概念に当てはまる画像データを用意することは容易だが,猫という概念に当てはまる文章データを用意するのは困難.これは「認知」にも関わるから.ある場合では猫からフランスを認知してほしいかもしれないが,猫からフランスを認知する情報を付与した文章を「特定の教師データとして」揃えることはまず無理だろう.))(認知を考慮しない大量の類似教師データを用いることにより,意味レベルでは正しい答えを導き得るが,認知レベルではそうならないだろう.自然言語における実用では,認知を無視することはできない.「認知を考慮した少数教師データ」で判定を可能とするモデルが必要である,と考えている.)(欲しい答えを教えたとしても、それが概念形成に役立っていると言えるのか明確ではない.教師データを安易に変える手法は悪手だろう.).概念形成のための構造を備えた(あらかじめ概念を作っておいた)専門家AIがいま必要だと思っている.
(概念形成のための構造でも認知を取り入れた構造でも同じ…か?.)(ついで,その概念構造は1つに収束しないとも考えている.)(自分は概念を,後に述べるように,「辞書」と「価値観」に分けている.)(文章に加え図表や数式を用いるのは誤解の余地を減らすため.文章は「意味(文脈含む)」を表すが,「認知」の問題により「情報」を適切には表さないため,誤解の余地が大きい.この点が画像系と自然言語系の本質的違いだろう.文章のみを用いかつ誤解の余地を小さくするには,「意味」を「情報」に変換する「概念・認知処理の構造」を備えることが必須だろう.)(BERTで自然言語でも転移学習が有効だとわかったことは,予め概念を作っておくという視点においてとても価値のあることだった.個性という面から観るとそれだけでは不十分だが.)(転移学習は元ドメインから目標ドメインに転移させるが,元ドメインが概念すべてを学んでいることを前提とする.これから,「概念の形に絶対的な答えがある(例えば句構造の絶対化など)」と前提しかねない.画像ではそれで良いだろう(縦線斜線耳構造などは絶対としても良い)が、自然言語ではそれはエセ専門家への道となりかねない(文法的に正しい文しか認めないなど)し,創造性は生まれにくくなるだろう.先に述べた,個性という面から観るとそれだけでは不十分だが,とはその意味.だからBERTをモデルの一つ以上に扱うつもりは,今のところ,無い(蒸留に関しても同じ考え方をしている.こちらはやりようがあるだろうけれど.)(とりま,RoBERTの延長技術がどうなるか見守リ、要事入れ替える.))(とはいえ,転移学習の元ドメインにおいてどのような構造が得られるかにも依存する.柔らかい概念(句以下?3-gramぐらい?)で止めておけば,個性の源として機能するだろう.→BERTの項参照)(この項,全体的に書き直した方は良いな.概念について2通りのイメージをしているのにそのまま混ぜてしまったからわけわからん.)

image.png

上記図は、少数教師を最も単純な方法で達成する考え方を示したもの。
後述している常識グラフ→ニューラルネットワーク→専門家グラフの流れの前半部分、と言っても良い。
この手法を取らずとも、ドメインの調整手法は様々ある。自分は以下にクラスタリングと表現していることが多い。AIには大量にデータが必要だ、という条件は、絶対的なものではない。
なお上記は、帰納的予測のあとの演繹的仮説づくりにおける理解可能性にも関係する。
 
 *分散表現モデルの学習に用いるコーパスを変化させる手法は従来から行われているが,その視点は多くが「意味」の範囲内・文脈レベルである(分野ごとの語彙や文型の違いなど)(のように見えているが,統計をとったわけでも最適なサーベイを見つけて確認したわけでもない).自分は意味を超えた「情報」・価値観レベルの視点で検討している.
(コーパスで何でもできると考えているわけではない.コーパスに基づく分散表現は必須,構造も必須,それらを如何に統合するかが課題だろう.)

 *自分の勝手な思い込みは十分集まった.そろそろ基礎を進める時期か.課題認識してゆるく柔軟な概念をつくってから学ばないと右から左なのだよね.
(何かを知らないという飢餓感がモチベーションの源なのだが,多くのインプットに基づく課題の知が,何かを知らないという飢餓感の源泉となっている.)(固有名詞のような知識は飢餓感の源泉にはならないし,逆に無知の知を失い間違った安心感により飢餓感を失いうる.人によるだろうけれど.)

*201909現在のシステム構成.
Doc setをメールに添付して送信すると,結果がメールで返される.

20190911system.png

*w2v-mp: word2vec pretrained maxpooling model
 keb-mp: keras embedding maxpooling model
 BERT: BERT
*divercity: 多様性評価手法
*Cyeck system: 仮説の理論化
 tfidf/cluster vis: tfidf-word2vec-clustering visualization 目視確認と自動母集団検証・修正
 Bayesian estimation: Bayesian Designと記載すべきか.自動仮説最適化データ作成・修正.自動概念追加.
 SHAP highlight: 目視確認と事前知識と比較した自動仮説最適化データ作成・修正
*Expert system: 関連を因果に変換.(現状,簡易的なオントロジーと単語重視による.)(この部分で文章検索の利点と単語検索の利点が融合するハイブリッドとしている.)(このexpert systemは過去にあったそれと異なり,支配的影響力を持たず,多様性を持つ個性の一部として不足を補うように働く.)
*名称をどうするかまだ固めていない.類似既存技術はあるのだが発想が同じでも手段が異なる.mpもSWEBそのものではないし.
・認知を重要視するので,システムにSubjectを明記している.

*現在のAIで最高に面白いと思っていることは、帰納的でブラックボックスな予測から、演繹的な仮説を生み出し、データを追加した後それを再度帰納的予測にかけてゆくというループだ。言い換えれば,答えが先理屈があとにおいて如何に適用範囲が明確で応用が効く理屈を見いだせるかの自動検証。
こんな事が計算機上で可能となった時代に生きていることに興奮するし、これができるのと出来ないのとでは明確な差が出るだろうことに危機感も感じている.

 

やっている:

1. 本当にモデルに個性があるのか?
2. モデルに個性を作るには?
3. 多様性を評価しより良い結果を得るには?
4. モデルに創造性をもたせることはできるのか?

現状:

本業優先かつ基礎が成ってないためなかなか進まない.しかし結果は知りたい.

得られている結果:

1. 本当にモデルに個性があるのか?

  • あるようだ.

 A.3つのモデルにおいてn=3の予測結果を比較してゆく過程で、モデルに依存した個性らしき差が見られている.確率的多様性では無いようであった.

 B.SHAP (SHapley Additive exPlanations) https://github.com/slundberg/shap を自然言語に適用し検討したところ,モデル間に個性らしき差が見られている.

 図1.png
 図1)pre-trained word2vecベースのmaxpoolingモデル(左)と,keras embedベースのmaxpoolingモデル(右)でforce_plotを比較.(横軸:バリデーション用特許文章40サンプル.左半分が不正解候補20件.右半分が正解候補20件.縦軸:赤帯青帯の境界は正解評価値.基本的に,赤帯は正解特徴の強さを表し,青帯は不正解特徴の強さを表す.*同じ正解評価値においても,正解特徴と不正解特徴の双方が強いことも,正解特徴と不正解特徴の双方が弱いこともある.)

 ・複数回試行したが,波形のパターンは安定.乱数固定はしていない.左のモデルは学習のたびに予測値が変動しやすいのだが,それでも波形は安定.

 *SHAP実例
 Explainable machine-learning predictions for the prevention of hypoxaemia during surgery
 https://www.nature.com/articles/s41551-018-0304-0
 *SHAPの説明はリンクを見てもらうとして,ざっくりというと,破壊研究である(嘘.ゲーム理論から説明すると逆になるが,破壊研究としたほうが行動視点でイメージしやすいので破壊研究と記載する.).ある部分を破壊し重要度を予測する手法.破壊部分の意味が理解されている場合,強い重要度予測手段となり得る.
(画像では破壊部分の意味は理解されると思われるが,自然言語ではそうでもないかもしれない.破壊が単語レベルでなされその単語が重要だと示されたとして,その単語が重要だと言えるだろうか.少なくとも同じ単語であっても認知と文脈により意味と情報が異なるはず.これが考慮されているか,また考慮されていると理解できるか.自然言語用に粒度を適正化したSHAPができるとよいのだろうが・・・.)(破壊したほうが良いのか停止したほうが良いのか.)
 *次の資料はわかり易い。理解できていませんが。
 How to use in R model-agnostic data explanation with DALEX & iml
 https://www.slideshare.net/kato_kohaku/how-to-use-in-r-modelagnostic-data-explanation-with-dalex-iml
 p116- SHAP

 *モデルにより波形が異なる.差があるということは価値があるということ.=>あるモデルのみが正解できる部分を抽出してゆけば,総合性能は向上するはず.

 *参考:ランダムフォレスト(上)と市販AI(下).
 rfetsm.png

 双方ともに,他のモデルと個性が異なっているとは言える.しかし,正解候補の評価値と不正解候補の評価値の差が小さすぎ使いづらい.(分離を良くすることは容易だと思うのだがどのような設計思想なのだろう.)(市販AIはランダムフォレストではなかったはずだがなぜこれほど似たのか.)(再確認するも,変わらず.)

 C.SHAP値を用い重要語にハイライトをつけたが・・・単語ベースでは明確なモデル間差は見られていない.=>見られた.文字ベースで確認しても個性らしきものが確認できる.

 図2.png
 図2)pre-trained word2vecベースのmaxpoolingモデル(左)とkeras embedベースのmaxpoolingモデル(右)でSHAP値上位となる単語を比較(個性差が見られなかった特許の場合の1)

code
 
 ・ある個性差が見られなかった特許(図2)において,ハイライトされた単語に大差はないように見える.再現性もある.(あえていえば右のモデルのほうがtfidf的か.)
 ・ある個性差が見られた特許において,ハイライトされた単語に明確な差があった.(左のモデルでは期待通りの「価値観に基づく類義・関連語の統合」が起きているようだ.調査方針が丸わかりになるため公開せず.)(とても面白い結果が出たのだが,業務に関わり公開できない.それなら別データで再現をと考えたのだが,解析的に理解されていないので別データで再現する手段が思いつかず.ドメイン特化の専用AIは,結果の公表も難しいな.)
 ・ある個性差が見られなかった特許のうち不正解と正答されない傾向にあった特許において,ハイライトされた単語は明らかなノイズであった.SHAPはノイズ発見の役にも立ちそうか.
 ・同じ単語でもSHAP値が異なることがある.(図のモデルでは前後数単語poolしている.)
 *少なくとも,記号系が得意なモデルと得意でないモデルがある.(これはモデルのアルゴリズムから予測できた.ただし,記号が付されていない特許でも差が現れているので,他にも差の原因があるのは確か.)(ウインドウサイズが個性に影響していないのだが,アルゴリズムからするとそうなる理由がわからない.)

 *LIME https://github.com/marcotcr/lime も試用した.傾向はSHAPと似ていたが,再現性が低めであり機能語に当たりやすい傾向があった.
 *主題と異なるが,ここから特徴語を取り出している.(特許と実製品とのリンクは重要である.特徴語からの実製品抽出を試行中.)

 *BERT,BERT名詞限定におけるハイライト一例.SHAPではない破壊手法.収束確認していない.再現性確認していない.

bert.png

 まだ手法が確立していないが,「pretrained word2vec maxpoolingモデル,keras embed maxpoolingモデル,BERT,BERT名詞限定,すべて,特徴らしい部分にハイライトがついており,モデルごとに異なっている.「どのモデルも正答している.そしてモデルごとに注目点が異なっている」,「正答とすべき根拠が複数あるところ,モデルごとに異なる視点で,ルートで,正答にたどり着いた」」,と,理解したいところだが.
(attentionが多様でも同じ結論に至るなら,)(手法を統一しないと比較できない.SHAPは諦め,SHapley値を計算する関数を作り全てのモデルに適用させたほうが良いか.)(名詞抜きBERTでは頑強性が高くなった気がする.現実的な汎化が向上した,と考えてよいかどうか)(排除できない認知バイアスが・・・)
*なぜこれを正答としたのか擬人化した各モデルに尋ねればこんな回答が返ってくるだろうか.
・・w2v-mp:教えられた意味に基づけば異なるが私が思うに検索者は製剤特許という構造を持つものを情報として得たいのではないかと考えたため(うむ.実際はそうでもないが好ましい意見だ.).
・・keb-mp:与えられた教師とデータを総合したところこれらが特徴と言えたから(真面目だ.).
・・BERT:文脈から分類すると関連する単語はこれだったから.概念?因果?何それ(ファインマンに謝れ.).
・・BERTm:肝と言える関連名詞がこれだったから.概念?因果?何それ(うむう.).
 

疑問点・課題:

A. SHAPを正しく使用できているか

・正しいはずだが,コードを追いきれておらず,またSHAPの自然言語への適用が少なく確証がない.
・結果として,妥当な結果が得られているように見える.

 *参考 Keras LSTM for IMDB Sentiment Classification
https://slundberg.github.io/shap/notebooks/deep_explainer/Keras%20LSTM%20for%20IMDB%20Sentiment%20Classification.html
 *モデルの個性を理解してゆくにあたり,理解に必要な手法が共通しているに越したことはない.SHAPは汎用性がありそうなのでできるだけ使ってゆきたいのだが.(モデル限定となるがattentionからの理解が流行している.しかし疑問もあるそうだ.Attention is not Explanation https://arxiv.org/abs/1902.10186 )
 *p26~モデルの解釈性 
https://speakerdeck.com/mimihub/20190827-aws-mlloft-lt5?slide=29
 

B. モデルの個性をどう作るか.

  • モデルの個性をどう作ればよいのか,定かではない (BERT実装以降,現状以上に個性を増やす必要性を感じていないため,保留中.)(モデルを恣意的に調整するために,wswを追加した.)(恣意的な個性として,Expert system,eswを追加した.)

SHAPを正しく使用できているとして,
 ・ハイパーパラメータを変えてみたが,今のところ,個性の変化は見られていない.
(赤帯青帯の幅が全体的に変化する程度.波形のパターンは変化せず.local minimumが少なくなるようにモデルを作っているがその影響か.)(window sizeが個性に影響しない点が意外であった.averagepoolingでなくmaxpoolingとしたためか.window sizeが大きいとリークが云々という文献を読んだ気がするがメモをするのを忘れてしまった・・・)(すべてのパラメータについて確認しきれているわけではない.)(少なくとも,正則化が個性を明確にするだろう.)
 ・keras embedベースのmaxpoolingモデルと,keras embedベースのCNNモデルで比較した場合でも,個性の変化は見られていない.(転移学習でも個性の変化までは望み薄であろうか.)
 ・ランダムフォレストも試したがacc0.75と低すぎたため検討できなかった.

 ・文字レベルの前処理や,品詞限定の前処理によって,個性が表れるかもしれない.
(特許では,名詞重視で形容詞副詞が少ないという特徴がある?ため機能語を削ることができそれにより個性が際立つのでは.)(結果として,名詞限定により正解がより上位に集中する結果となった経験がある.FNが増えてしまったが.)(契約書コーパスと法律コーパスの品詞比較など https://speakerdeck.com/mimihub/20190827-aws-mlloft-lt5?slide=18 )(既知の知識に従い前処理を過剰にしてゆけばその結果は古典的な統計手法による結果に近づく.それなら最初から古典的な統計手法を用いたほうが良い.深層学習においては,前処理は最低限にするか,慎重に見極めないといけない.)

 ・分散表現のpre-train学習に用いるコーパスが個性に大きく影響を与えるのではないか,と思っている.
(個性をもたせるには,コーパスには偏りが必要でありかつコーパスが大きすぎてもいけない,とすべきだろう.すると未知語が増加しやすいので,未知語処理が重要となる.ベクトル平均は次善の策とわかっていたのでより適切になるよう一応の対応済み.magnitude https://github.com/plasticityai/magnitude に期待している.)(未知語処理も個性に寄与しているようだ.)
 ・ホットリンク日本語大規模SNS+Webコーパス
 https://www.hottolink.co.jp/blog/20190304-2.

 ・BERTは個性がないが高性能,という意味で外せない個性だろう.
(実装すれば多分市販AI不要となるだろう(今でも不要といえば不要だが,個性解析できてないことに加えて今後の改良に期待して残している.)
 →BERT実装
 *標準のmultilingual modelでfine-tuning BERT試行.入力サイズ1/3で epo16 acc0.9 4min.入力サイズ1/2で epo16 acc0.9 6min.=>記事の最後にBERTの結果を追加する.
 ・Juman++&BPE 黒川河原研BERT日本語Pretrainedモデル
 http://nlp.ist.i.kyoto-u.ac.jp/index.php?BERT日本語Pretrainedモデル
 ・SentencePiece hottoSNS-BERT
 https://www.hottolink.co.jp/blog/20190311-2
 ・MeCab StockMark日本語ビジネスニュースコーパスBERT事前学習済モデル 
 https://qiita.com/mkt3/items/3c1278339ff1bcc0187f
 *英語では,
 BioBERT
 https://arxiv.org/abs/1901.08746
 SciBERT
 https://arxiv.org/abs/1903.10676
 などもあるようです.PatBERTは見当たらないな・・・
 ・BERT以降のSoTA:
 MTDNN 
 https://arxiv.org/abs/1901.11504
 Improving Language Understanding by Generative Pre-Training(transformers and unsupervised pre-training)
 https://openai.com/blog/language-unsupervised/
 Unified Language Model Pre-training for Natural Language Understanding and Generation (Microsoft)
 https://arxiv.org/abs/1905.03197
 XLNet: Generalized Autoregressive Pretraining for Language Understanding
 https://arxiv.org/abs/1906.08237
 RoBERTa
 https://arxiv.org/abs/1907.11692
 ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
 https://openreview.net/forum?id=H1eA7AEtvS
https://github.com/google-research/google-research/tree/master/albert
 RACEでみた進歩.
 http://www.qizhexie.com/data/RACE_leaderboard

*Unsupervised Data Augmentation
https://arxiv.org/abs/1904.12848
「教師なしに用いる」データを作る手法.これは使えそうか.
*Making Convolutional Networks Shift-Invariant Again
https://arxiv.org/abs/1904.11486
*Predictive Uncertainty Estimation via Prior Networks.
http://arxiv.org/abs/1802.10501
 
*一般形は特殊形の代わりにはならない.

・個性の調整について.
上記システムのweight specific wordsと記載した箇所では,個性の調整を行っている.例えば,下図(上)から(下)のように,モデルの個性を調整することが可能.
wsws.png

上図(下)では,w2v-mpモデルに単語「rhoキナーゼ」を重視させた.
(このような柔軟な調整が可能とできるのは自作ならではといえようか.)(モデル内部をいじっている.モデルの理解とメタ知識を利用している.)(ちょっとした事で使いやすくなるのだが,自作でなく市販ツールを用いているとそのちょっとした事ができないのだよね.ベンダーに注文つけてもこのような機能つけてくれたりしないか時間がかかる.AIにはこのあたりの専門化が重要と思っているのである程度致命的ではないだろうか.)(教師データは基本的に過去からしか得られないため,このようなプロアクティブな手法も重要.)(この単語重視により,本特許の順位は164位から84位に上昇.上位100位までの変動を確認するも本特許以外は+-12位内で変わらず.個性を大きく変更せずに,特定の単語を重視させることができたと言って良いだろう.様々な条件が考えられ十分に検証できているとは言えないが.(上記単語を含んでいても,すでに順位が高い場合はほぼ順位に変動なし,など.))(言うまでもないが,何らかの教師が本筋.ただ,安易な教師変更は意図しない性能悪化を招くため,教師変更をした場合には,必ず,全体の検証をし直さないといけない.上記手法はその毎回の詳細な検証をほぼ不要とできるだろう.)

無題.png

*上図は教師を追加した場合のkeb-mp.図(右)のように,教師データを追加すれば正解候補に正答することは簡単.しかし,ただ単に教師データを追加したのみの場合,図(左)が示唆するようにFPが増えるなど,全体のバランスが崩れうる.)(そも改善用の良い教師データが得られるのは事後であるのであるから,教師データでの改良は,常に手遅れである,と言える.)(data augumentationには基本的に反対.注意深く行ったときのみ可,と考えている.)(自然言語分野において,大量に教師データを追加した場合でも全体のバランスを崩さないといえる深層学習モデルは,今のところ,BERTなどTransformer系モデルぐらいではないだろうか?.)

*Two models of double descent for weak features
https://arxiv.org/abs/1903.07571
過学習のリスクは特徴より教師が小さい場合には低下する?

*ヒトは対象物がある特定の範囲に入るか否かを決めるとき,次のような類別をしていると言われる.
1カテゴリの「ルール」に適合するか
2カテゴリ内の「ある特定の対象と類似」するか
3カテゴリの「基本形」に類似するか
さて,現状のモデルはどこまでできているだろうか.
「ルール」は古典的な統計,例えばtfidfで担保できているだろう.「類似」は深層学習が担保しているだろう.
「基本形」は明確でないが,十分に担保できていないのではないか.ルールベースの文構造では担保しきれないことは,文章表現の多様性から見て明らかに思える.n-gramも限界があるだろう.transformerに期待はできるが十分でなく,さらに「構造を抽出する蒸留」が必要となるのだろう.下記,Unsupervised Distillation of Syntactic Information from Contextualized Word Representationsのような.

*Hyperparameter Tuning and Implicit Regularization in Minibatch SGD
Anonymous
26 Sep 2019 (modified: 26 Sep 2019)ICLR 2020 Conference
https://openreview.net/forum?id=ryGWhJBtDB
バッチサイズとノイズ支配,精度.ああ,なるほど.

    

C. モデルの個性をどう理解・評価するか.

*魯の哀公が孔子に尋ねた
「諺に『大勢でいれば迷うことはない』とあるが、今群臣と相談して政治をしているのに国が乱れるのはどういうわけだろう」。
孔子曰く,
「大勢に聞くと言うのは臣下の間で様々な答えが出るものです、しかし今は群臣がみな季孫と同じように振舞うので一人に尋ねているのと同様です」

  • どう理解するか,どう評価するか.暫定実施しているが,答えを得ていない.(ヒントとなり得る文献等を収集中.)

・モデルの個性を多く作り,クラスタ分けして,クラスタに特徴的な単語とモデルごとに特徴的な単語を比較し,特徴的な単語を任意に入れ替え比較しつつ,FA,因子分析を行い,「理解」につなげ,その理解をもとにどのように「評価」するべきかの結論を得る予定.
(得られた主因子いくらかをノードとしてベイジアンネットワークに入れることができるかはたまたベイジアンニューラルネットワークで解くか.主因子をSHAP値から読み取るか.どれが最適か,他の手法が良いのか,やってみないとわからない?.とりあえず単語間の相関を無視してナイーブベイズからかな….あるモデルのみが正解する特許を集めナイーブベイズで学習し,ある単語においてあるモデルとなる確率を出し,これをそのままモデル採用の重みにしてみるか?.この有効性を見てから別の手法を考えるか.)

・「理解」について.理解の深さがが正確な評価につながるはずである.しかし見通しが立っていない.理解するに当たり,共通してありうる構造として文法からのアプローチを取ることが良いのか,認知からのアプローチが良いのか,数式からのアプローチが良いのか.まず,図表を作り,理解できうるか,主因子がどれほどあるか,確認してゆく予定.
(人間の脳は巨視的にはベイジアンだそうな.)(因子が少ないと言えるならQCAも使えないか.個性をブール代数で表現できればわかり易い.演繹的には使えないし要約に無理があるだろうけれど.)(kaggle慣れしている人らはこのような状況に強いのだろうか.このあたりは特に専門家に頼りたいところだ.)

・「評価」について.理解がどのレベルでなされるか,例えば単語レベルなのか,文法レベルなのか,数式レベルなのか,はたまた行動レベルなのか,不明であるため,どのように評価できるか,そも評価可能かどうかも不明である.基本的には,現在の簡易的な多様性評価手法で行っているように,「良い部分のみ評価する」と「集合知・集団的知性」に基づく良い結果が得られるだろう.「いわゆる」アンサンブルのような平均評価では,集合知は失われ,集合知に基づくベストな結果は得られないだろう.
(良い部分のみ評価する手法だけでは,見落とされたTP(FN)抽出と同時にFP抽出もなされ,総合評価としては向上しない結果にもなりうる.しかし,結果として,現在使用しているモデルの「組み合わせ」ではそうなっていない.この状態を維持するにはFPの多いモデルを避けるだけでよいのだろうか.十分な評価データセット用いた詳細な検証が必要だろう.)(現状,目視で個性が表れた部分を確認し主観的に評価しているが,数字で表現できるべきだろう.しかし,理解が表現レベルであり,表現が意味を超えるところに帰するならば,属人的評価基準を免れないかもしれない.)(p208設計および評価を行うためには,いくつかの補完的な方法を組み合わせて用いるべきだ.この結論は本質的には,定性的方法と計量的な社会学の手法とを組み合わせて,認知的アプローチと行動主義的アプローチとを相互に補完させるようにすることを示唆している.)(適切な評価とは,脳の自然な作用から得られるものではないどころかそれに逆らうもの,ヒトがヒトと言える所以「脳の自然な作用に逆らってまで作りだす理論化」により得られるものだと考えている.適切な評価が「学習」からそのまま得られるとは思っていない.今のところ.(学習で評価する場合,蒸留を用いることができるが,蒸留は幻想的な真値を仮定しており自然言語では現実と離れすぎるのではないだろうか.)(小から大を予測するのではなく大を構造化し予測する,シミュレーションの解析結果を用いたインサイトベースの理論化,のような作業が必要だろう.この章の最後に示す図の「設計範囲のインサイト」のような.))(良いとは何かは,それが新規な場合,事後的にしか認識できえないので,事前に設定することが難しい.この場合事前設定で得られるのは,良いものの一部となる.良い部分を評価するのは良いが,良いと評価できなかったが良い部分を捨てないような評価手法とする,これが難しい.少なくとも,複数の評価,多様性評価が必須であることはわかるが….ある意味,性能を上げることを目標とするのではなく,許容範囲まで性能を落とすことが重要なのかもしれない.)

*「いわゆる」アンサンブルは,biasとvarianceのバランスを補正,高variancesを低減(バギングなど)または高biasを低減(ブースティングなど)し,より良い結果を得る手法.多様性評価手法は,高バイアスを個性とみなし「積極的に利用」し,現実に存在する幅のある答え(言語は離散的なイメージなので現実的には答えが常に一つに収束するわけではない.文脈を考慮しても価値観で分かれうる.真値が複数あるイメージ.)に対応できるようにし,より良い結果を得る手法(高バリアンスを個性と誤解しているのではという疑いがまだあるが).
*(自分の手法において,「不正解教師データ」と,「不正解候補検証データ」は,「同じではない」.教師データは,何を将来求めるかという視点において,注意深く選定されている.同じ不正解でも,学習に用いたい不正解と,学習に用いたくない不正解が存在する.安易なクロスバリデーションは本件において意味がない.(ある患者に対するある薬の実効性を観るに当たり,他の患者を含めたCVを行ったとしたら,それに意味があるだろうか?.必要なのはその患者にあった処方をすることだ.医薬品を多数の患者に処方するようなCVを繰り返してもそれは達成されない.実務屋は,開発者と同じ役割ではなく(だけでなく),医師と同じ役割を果たさないといけない.(医師がAI実装に関与してきている現状は、かなり良い流れなのだろうな。AIベンダーは安易には医療AIに進出できないとも言える、医療AIに参加できたベンダーこそが実力を示したことになる、などとも言えるか?))(過去一般に,バリデーション不十分により検証データで性能が出ているのに実データで性能が出ない例が多見されてきた.これを解決するためにCVが重視されるようになったわけだが…同じラベルがついていればどれも同じ価値だと黙示的に前提して,汎用されすぎているように思う.いや殆どの課題はバイアスをなくす前提であろうからそれでよいのですが.)(近年見られるCV?を絶対視したような?学習モデルから得られる結果には,個人的にどうにも違和感を覚えることがある.ある仮説の結果ではあるのだろうが顧客の認知を考えていないような違和感,古典的統計手法やルールベースから得られた結果では感じなかった違和感だ.言うなれば,「自然言語版の不気味の壁」のような.基本的に,古典的統計手法等は,広く通じる認知から得られた主要因を考慮しやすいため,どの顧客の認知にも適合しやすく違和感が生じ難いと思われる.一方,学習から得られた結果は,広く通じる主要因からなるとは限らず,バイアスのある主要因からなることがあり,後者では違和感が生じやすいのではないか.後者にCVを行えば分散が減少し数値は良くなるかもしれないが,バイアスに収束するだけで違和感は変わらない.違和感を無くすには,前者となるようにデータを増やしバイアスを薄めるか,主要因を適切なバイアスとなるように誘導する必要があるだろう.特定のバイアスに誘導する立場において(自分の立場だ),学習データを目的に合わせ任意に厳選するならば,CVに意味はなくなる.学習データは検証データと同価値ではなくなるからだ.)(モデルの性能を比較し示したいならCVのランダム化比較試験は重要である。しかし,それを自然言語モデルで行う際には,データセットが統一されているか,目的に対して適当かどうか,サンプルサイズが十分かどうか,サンプルの分布が適切かどうか,など検討する必要があるのだが,それをしていない事が多いように見える.)(自然言語特有なのかもしれないが.何というか,そもそも一貫した考え方が存在せず様々な正しい考え方,言うなれば様々な有用なバイアス,があるだけだというのに,無理やりそのすべてを潰して現実的に意味がない不気味な考え方に収束させており,それが押し付けがましい感覚を生む,というか.同じ単語同じ組み合わせ同じ共起性のとき,そこから単一のルールを導いたとして,それは目的にかなっているのだろうか,という疑問が.まあそも真値が存在しないとし多様性視点でみているので思い込みもあろう.))(そも文章とは,数値のように連続しており差が明確なものではなく,独立しており一つ一つが意味を持って異なる差が未知のものである.それを評価するには,特定の視点を設定し,差を設定する必要がある.その視点によっては他文章を同価値として比較できるが,どちらかと言えば,CVが有効なほど多くの文章を同価値とできる視点は例外的ではないだろうか.同一データセットにおけるモデル性能の比較など.)(CV自体が問題であるわけではない.)

tf.png
図3)特許ごとのtfidf上位5単語を特定のpre-trained word2vecモデルによりベクトルに変換・合計し,疑似的に類義・関連語を偏らせた場合の特許の分散を見たk-meansーFA図の1.それぞれの分散表現モデルによる影響の感覚を掴み理解のきっかけとするために試験的に行ったもの.(素直にモデルの隠れ層からベクトルを取り出すべきだったと思わなくもない.)(ストップワードを削る前の図.)

*Phase transition in PCA with missing data: Reduced signal-to-noise ratio, not sample size! 
https://arxiv.org/abs/1905.00709

code

*言語は人間が作ったのだから人間はその因子を理解可能だ,という仮説に基づくやり方だが実際どうか…モデルによっては重要そうな因子を捨てており,理解不可能に変化しているかもしれない.もし,単語が主因子であり,単語だけで9割程度の説明ができるならば,認識容易性は高そうではある.
*社会的ネットワークの知識が,評価に重要となるのではないかな・・・
*pre-trained word2vecとkeras embedのダブルヘッドをconcatするだけで評価できる可能性もあると思っているのだが,まだ試していない.多様性評価で重要となる「良い部分のみ評価する」構造がないため,足を引っ張り合う気もするが. =>やはり足を引っ張り合っていた.
(互いの独自性のある良い部分は薄くなり,共通する悪い部分はより大きく足を引っ張る.集団化しただけのヒトでもよく見る構造だ.チームとグループは評価手法が異なるとまず理解しておかなければいけない.多様性はチームに該当し,チームでは差を良い点としてピックアップする方法などが必要.浅い理解のまま強権で選択するか(現時点の多様性評価手法はこれ),Googleのようにコストをかけ予め理解しておくか,Google Sprintのように誰でも理解可能な段階まで進めて選択するか(評価関数をAUCの最大化とするのは王道だろう.汎化しないだろうが),3Mのように立証責任を転換し理解責任つまり否定材料がない場合は高評価としておくか….(社会実験している気分になってくるな…))

*例が悪い図であったので削除.必要性実現可能性実効性等のうち実現可能性のみを最優先しろ,という,自分の考えとは真逆の考えを提示したようにも見えた.自分は全て必要であると前提した上で状況においてどれを特に重視するかが重要と考えている.

(文章ベクトルを得るにあたり,文章ベクトルそのものを計算する手法,自分が採用するmaxpoolingモデルのように加工して得る手法,センテンスベクトルを得て合計する手法などがある.このうちセンテンスベクトルを得て合計する手法がより良い有効性を持つ結果が得られる手法となりそうだが,現状あまり良好な結果が出ていない印象.その理由は前記と類似し,「足を引っ張る特徴」が,センテンスベクトルの合計では強い重みを持ち残ってしまうからではないかと.手動重み付けがなされているが,本質的解決ではない.より良い部分のみ評価する改良,文章のトピックと共通するトピックを持つセンテンスの重みを最初から高めておく,など必要ではないかなそれも今ひとつかもしれないが(トピックモデルと組み合わせればよいのか?(センテンスが短すぎまた類義語を吸収しきれないのでそのままではイマイチのようだ).他のベイズ的手法を用いても良いな.分散断表現のクラスタを用いても良い)(減算つまり全体からの一部削除が答えかもしれない)(既存の文章ベクトル作製技術をそのまま用いても,自身の目的に対し十分と言える結果を得ることは難しいだろう.word2vecなど単語分散表現ベクトルからはじめ,自身の目的に応じ自作し独自の文章ベクトルを作ったほうが,手っ取り早いだろう.1つの専用から汎用が得られていると夢を見るのは妄想にすぎるのではないか(お前が言うな?))(様々な文献を見ゆくに,文章ベクトルを直接作ってしまう手法には先がないと感じている.例えば,単語ベクトルの組み合わせ検討動向からすると単語ベクトルの集計手法が確定されてしまうdoc2vecには先がなく,カーネル削減手法の重要性からすると単純に提示するしかないモデルには先がない.自作するなら単語ベクトルから始め,技術の推移に合わせて柔軟に文章ベクトルを作れるようにしておくべきだと思う.でないと採用1からやり直し採用1からやり直しを繰り返すことになるだろう.まあ現状レベルで満足できるなら良いのだろうけれど.)(まあ単語ベクトルでも大きすぎるという意見もあるだろう.形態素の究極は何か.今の自然言語処理分野は、分散表現を分子または原子として、素粒子探索や周期表、高次元折りたたみ構造などを同時に探索しているかのようであり、非常に面白い.実は基本構造など無い、または基本構造はより曖昧な電子雲のようなもの、と結論付けられるかもしれずまた面白い.)
code
*評価につき参考のため,モデルの個性とその評価基準を擬人化して適当に表現してみる.
・・pre-trained word2vec maxpoolingモデルは,1を聞いて10の発想をする天才肌だが思考があさってにもゆくので,少数の自信のある主張を高く評価すべき.
・・keras embed maxpoolingモデルは,漏れなくカバーする手堅い凡人なので,広く普通に評価するべき.
・・BERTは,秀才だが自身を持って間違え間違いを認めない厄介な積極派なので,主張を広く採用するが自信のある主張でも低く評価すべき.
(安定して高い性能を誇るモデルでも低く評価しなければならない,ばらつきが大きいが最も高い性能が得られるモデルを高く評価しなければならない,かもしれない,というのは面白いな.このあたり,教育論か何かに参考となるものがありそうだ.また,目的関数で処理するにしても,目的関数は個性ごとに可変である必要があるのかなと思わなくもない.)

知識人は問題を解決し、天才は問題を未然に防ぐ。(アインシュタイン)
知識人と天才は相補的であるはず.

model 認知的観点 解釈学的概念
keb-mp 2 2
w2v-mp 3 1
BERT 2 3
Thaïs 3 3
概念知識? 情報検索知識?
精度? 再現率?

・ブラックボックスのまま理解する「機械行動:machine behavior」と呼ばれる新しい学問領域をつくるべきだという提案
https://www.nature.com/articles/s41586-019-1138-y
https://www.media.mit.edu/publications/review-article-published-24-april-2019-machine-behaviour/
「無作為化実験、観察推論、および集団ベースの記述統計 - 量的行動科学でよく使用される方法 - は、機械行動の研究の中心となるはずです」
同感だが,やはりデータが必要か.帰無仮説・p値は使いたくないところだが.
『犯罪捜査のためのテキストマイニング』には集団ベースの記述統計の記載が多くあったはず.見直してみる.

・丸山宏(2019)
高次元科学への誘い https://japan.cnet.com/blog/maruyama/2019/05/01/entry_30022958/
同感.過剰な還元主義か.

*認知には2つの考え方がある.認知できる小さな構造の組み合わせから大きな構造が説明できるという考え方(デカルト.モジュール.還元主義?),そして,認知できる複雑な構造から単純な法則を見つけ出そうという考え方(上記の高次元科学?).例えば画像におけるニューラルを理解しようという試みは前者か.自分が行ったハイライトは前者か後者か.この記事や機械行動,自分が悩んでいる部分は後者か.

*目的効果を得る最適手段の予測においては,関連・相関のみ知ることができれば良いのでブラックボックスで良い(高次元科学?.ここでは恣意的な主成分分析は厳禁と理解している).予測した解決手段から実際の効果を予測するシミュレーションにおいては,相関以上の因果が必要・説明できることが必要で,その説明は新たな理解と理論につながる(還元主義?.ここでは主成分を抽出した理論・仮説形成が重要と理解している).と切り分けるべきなのだろう.
各モデルの予測結果を決定木・ベイズ推定・有向ネットワークを用い説明し理論化する手法が本筋か.SHAPは,個性の存在を証明する手段と,個性の特徴の重みを表現する手法として,明確に切り分け用いるべきなのだろう.

cycle.png
図x)左のAIは目的効果を得る最適手段の予測.右のAIは予測した解決手段から実際の効果を予測.左のAIは統計,右のAIは統計を確率に変換,と言っても良い.例えるなら,左は臨床の結果である統計,右は医師による統計と診断とオミックス情報などに基づく患者に適用できる確率への変換.(まったく考えがまとまっていないのだが,逆問題をAI・ベイズp(x仮説|yデータ)などで解かせ,順問題においてベイズp(yデータ|x仮説)からそれぞれのデータの寄与確率をもとめる,といったイメージか?.)(「なぜそれが良いのかわからないが,それが良いと仮定して,データを構造化することによりとある理論が生まれる」、と説明すると一言で言えるか.)

*読んでいないが次が参考になりそう
A practical baysian framework for backpropagation networks. neural computation, 4(3): 448-492, 1992.

・世界の「謎」解くカギ、深層学習は「因果性」を発見できるか?
深層学習の人工知能(AI)は、多くのデータの中から関連性を発見することは得意だが、因果性を見い出すことはできない。5月上旬に米国で開催された「ICLR2019」で、著名なAI研究者が因果関係を分析する新しいフレームワークを提唱した。
by Karen Hao2019.05.17
https://www.google.com/amp/s/www.technologyreview.jp/s/141062/deep-learning-could-reveal-why-the-world-works-the-way-it-does/amp/
*内容確認できていないが,minst色変更誤判断問題につき,改善するには色違いすべてを学習するのではなく,個別に学習すると良い?.ネットワークの利用?.複数のモデルを用いた多様性評価とその発想の根本である社会的ネットワークの考え方に近いだろうか.社会的ネットワークを学び直し答えを探すべきか.単純なネットワークを深堀した研究に答えがあるだろうか.
(ベイジアンネットワークに戻った気もする)(モデルごとの知識マップを立体的に作っておき重ならない部分はそのモデル重視,重なっている部分は高さで重み付けし集計,トピックに一般化させてベイジアンネットワークに入れそのモデルとする確率を評価の重みとする,などで評価できると思っているが,この方法では知識マップ作成に予め枠をつくる必要があるという問題がある.数千程度の特許をPCAなどで図示して,高さを加えた図をモデルごとに作成し…どれだけ時間がかかるか…トピックで近似できると良いのだがバイアスが…適切とするのは空白にも意味を持たせないといけないが…)
*これでよいのかな
Information theory holds surprises for machine learning
https://www.santafe.edu/news-center/news/information-theory-holds-surprises-machine-learning
Caveats for information bottleneck in deterministic scenarios
https://arxiv.org/abs/1808.07593

*多様体を1つのニューラルネットワークの中で作り上げてゆく必要はない。多くのニューラルネットワークで作り上げた多様体を最後につなげたほうが良いかもしれない。多様体を相互依存なく独立に加工できるから。(トポロジーを学びなおしているが多様体について誤解があったので後ほど修正削除予定.)

*AIに常識をもたせるタスクと、個性評価手法のゴールについて。
まず、一つの多クラス分類ニューラルネットワークでは分類しきれない課題であり、複数のニューラルネットワークが必要だったと前提する。
ベイジアンネットワークを上流に配置し、その末端にある目的ノードに、それぞれ独立したニューラルネットワークを接続するとする。ベイジアンネットワークでは「ある国」で「ある四足動物」を見かける確率が出力できるとする。
四足動物であることがわかっている画像があるとして、その四足動物は、「日本」では「犬」か「猫」である確率が高いだろう。これは常識を表す。
求められた確率に従い、猫を見分けるニューラルネットワークと、犬を見分けるニューラルネットワークを稼働させる。
結果として、例えば猫だと、常識を加味して判断されることになる。
さて、日本を前提としたので猫と判断されたが、実は「小さな虎」の画像だったかもしれない。
その場合は間違えてはいるが、認知的には正しいと言える。人も同じように間違えうるだろう。もし「東南アジア」を仮説としていれば、「虎」と判断する確率は向上していただろう。東南アジアの常識として(例えです)。
認知を用いモデルの個性を評価する手法は、例えばこのように、ベイジアンネットワーク・ニューラルネットワークの組み合わせから、形成できるのかもしれない。

独立したニューラルネットワークを多数存在する目的ノード全てに置いていてはあまりにコスト高であるので、一つのニューラルネットワークに統合できる分類と統合できない分類の見極めが重要となるだろう。
ある目的ノードとある目的ノードで共通となるニューラルネットワークを見出すことが重要となるだろう。その為には,ニューラルネットワークの隠れ層からのリーク(隠れ層の共通性やベイズ推定を用いた手法など)や転移学習を用いることが,重要となるのだろう。

最終的には、「複雑なベイジアンネットワークと、50ぐらいのニューラルネットワーク」、つまり脳と同じような構成に圧縮できるのではないだろうか。
個性と多様性評価手法のゴールは、ここかもしれない。

だからまあなんだな、さっさとどの個性を選択すべきかの評価手法を

*ネットワークが複雑になりすぎないようにノードを限定する必要がある。ノードをある概念範囲内でまとめてゆく必要があるのだが、その概念範囲を、恣意的なセグメントから限定すべきなのか、例えばTDAで求めるクラスタで限定すべきなのか、常識は限定的に数えられるとしてそのまま設定すべきなのか。ベイジアンニューラルネットワークが答えなのかもしれない。

*GRAPH TRANSFORMER
https://openreview.net/pdf?id=HJei-2RcK7
なるほど逆もよいな.下流にグラフを配置することにより「わからない」が適切に抽出でき,「本当の専門家AI」により近づけられるかもしれない.
どのように評価するかにおいて適切な評価は学習で得られないと考えている,と書いたが,なるほど.出力部分に知識グラフを接続し評価することもできるか.ベイズの結果をリアルタイムにグラフ化し人はその内容を定期チェック,でよいか.
*基本的には,「上位概念」(動物,非生物などセグメンテーション)や「常識」はニューラルより上流に配置し,「下位概念」(具体的な診断結果など)や「わからない」はニューラルより下流に配置すべきと思うが,上流に配置されたグラフをあまり見ない…ああ明示されていないが,前処理や入力のグラフ化が該当しているのか?
*Utilization of Bio-Ontologies for Enhancing Patent Information Retrieval
https://ieeexplore.ieee.org/document/8754131

*いずれにせよ,まずデータ集め.(「ほぼ」だの「多分」だの「思う」だのばかりでは.)

*201906現在,実データで確認されている性能は次の通り.
・・BERT以外のモデル(市販AIは除く)は,正解を上位10-15%以内に集め,一部を20%付近に見逃す.
・・BERTは,殆どの正解を上位2%以内に集めるが,一部を30%付近に見逃す.
・・多様性評価は,殆どの正解を4%以内に集め,正解を10%以内に集める.
(今のところ,実データでこれを大きく外さない.あっても良いと思うのだが,下位に落ちた正解が見つからない.特許文章は比較的類似を見分けやすい文章だとは思うが,ここまで実データで性能が出続けるとは思わなかった.)
(と書いたあとにBERTがやらかした.実データ内のある正解となってほしい特許を,30%どころでなく48%に配置.残り2モデルは同じ特許を,8%,11%に,3モデル多様性評価は同じ特許を15%に,3モデル平均評価は同じ特許を17%に配置している.3モデル多様性評価の15%は,BERTのみを使用していた場合母集団の半分近くまで確認しなければ見つからないことを思えばだいぶ救済しているといえるが,10%を超えると感覚的なありがたみがない.)
(作成中の検証用データには,教師データと重複する情報を含まない?,後付で欲しかったと言える特許を含めても良さそうだ.概念により教師データ不足をカバーするのも目的の一つだしな.5割正解すれば御の字程度の難しい検証データとしよう.)(しかし,汎的な立証にはならないな.うーむ.数式で示す部分を増やすしか無いか.)(実データで実効性あり.検証データをより良く作っても傍証にはなっても証明にはならない.何らかの理論的説明は必須だろう.この点明らかに自分の能力不足があるので先人に頼るわけだが,理論的説明を十分にする文献が見つからないな.数式の理解不足で説明されているのに気づけない感も多々あるが.)

*ナイーブベイズ(暫定)
nbproba.png

*BERTが不得意とした単語でソート
clswordproba.png

まだ暫定的なテストデータを用いた暫定値だが,例えばP(単語「眼」|モデル)は,高い順にBERT0.89 > keb-mp0.67 > w2v-mp0.11 となる.SHAPや実データの結果から得られる感覚とだいたい一致するか.
*暫定的なテストデータにおいて,使用したBERTは,使用したあるアルファベット文字列に弱いという結果が得られている.この結果をどのような上位概念にまとめ上げることができるか定かではないが,仮説としては,ある条件のアルファベット自体に弱いのではないかと思っている.とりあえず,暫定的にモデルの前処理方法に手を加えてみることとする.(良し悪し.)

とりあえず,このままナイーブベイズでモデル個性の評価を補正する予定.
現状の各モデルは,ウィンドウ処理により位置普遍性を持ち,分散表現は近距離作用しかないから,ナイーブの前提にある程度適合する・・・はず・・・なので,そこそこの性能は出るのではないだろうか.
 
*モンテカルロ法を利用しヒートマップなど確認しつつ相関を拾い理論を作り出す手法も試行中.分布をどうしたものか.
*限られた特徴語からベイジアンMCMC個人差多次元尺度構成法を用いた場合,どのように解釈できるのだろうか.

無題yf.png

*ベイズ深層学習が答えなのかもしれない.重みの分布と確信度が得られるなら,それをもとにモデルの個性を評価すれば良い?.
*動的ベイズ推定
*PACベイズ理論はモデル分布の事前/事後確率間のKLダイバージェンスを一種の複雑度とみなし汎化ギャップを評価する https://arxiv.org/abs/1901.05353

*ジェリー・Z・ミュラー(2019)
測りすぎーなぜパフォーマンス評価は失敗するのか
みすず書房
https://www.msz.co.jp/book/detail/08793.html
1情報の種類
2情報の有益性
3測定を増やすことの有益性
4標準化された測定に依存しないことによるコストは。他の情報源はあるか
5測定の目的。誰が見るのか
6測定のコストは
7なぜ評価を求めているのか
8測定方法は誰がどのように開発したのか
9最も優れた方法でさえ汚職や目標のズレがある
10限界の認識
最終的に重要なのは、どれか一つの測定基準と判断の問題ではなく、判断のもととなる情報源としての測定基準。測定基準にどのように重みをもたせるのか。その特徴的歪みを認識しているか。測定できないものを認識しているか。
評価基準を作ることで、その評価基準から外れたものを評価できなくなる誤り。最低限ここにハマらないよう気をつけなければ。

*言論マップ、議論マイニング
*いまさらだが,「知識ベース knowledge base」を調べると良いのか?.知識ベースの領域に個性と多様性の議論があるのか?
https://speakerdeck.com/cfiken/nlpaper-dot-challenge-wai-bu-zhi-shi-niji-dukuying-da-sheng-cheng-sabei?slide=28
文章の意味と個性
相澤彰子 国立情報学研究所教授
NHK技研R&D 2018.4
https://www.google.com/url?sa=t&source=web&rct=j&url=https://www.nhk.or.jp/strl/publica/rd/rd168/pdf/P02-03.pdf&ved=2ahUKEwjeiY3N0qLkAhWgy4sBHetKAMoQFjACegQIBhAB&usg=AOvVaw3GuRDWW9Jo1MiaEfm7uxW6
表現上の個性と認識上の個性は…

*あるべき文章ベクトルについて.
文章のベクトル表現は、曲げたりひねったりできず、予めある仮説に基づき直線上に配置するしかない。これに不満がある。ベクトルはもっとシンプルに、仮説の変化により柔軟に変化できるべきだ。
シンプルな文章ベクトルを柔軟に曲げる手法を考えよう。
*伸び縮み可能とできれば、解像度の違う文章、上位下位概念で書き分けられた文章にも対応できるか.すれば特許文献と各原著文献やSNS情報を同一平面に図示することも可能か.
*文章ベクトルを伸び縮みさせる手法の候補として再帰型ニューラルネットワークがあるわけだが,可能であれば教師なしとしたい.
*自然言語においてCNN,poolingを用いる際の問題の原因の一つに、画像では全体が一定の解像度であるところ、文章ではその部分ごとに解像度が変化する点があると思う。一定のウインドウでは全解像度に耐えられず、マルチウインドウでもどの部分がその解像度にマッチしているか定かでは無いため適切な重みとなっているか定かではない?(多様体として抽出できているが重みが打ち消される?ノイズだらけになる?ネガポジの打ち消しが強すぎる?)(トポロジーを学びなおしているが多様体について誤解があったので後ほど修正削除予定.).解像度を認識してウインドウサイズを可変とする処理ができれば、上位概念下位概念を吸収したより良い結果が得られるのではないだろうか。
*上位概念と下位概念の解像度の統一を目的とした変換について.
下位概念1単語と,それを説明する10単語があったとする.この次元を統一し,可視化等で同一表面に提示したい.
たとえば,2つの次元が異なるが類似する文章があったとする.
文章Aにはある下位概念1単語が含まれ,文章Bにはそれを説明する10単語が含まれていたとする.
文章Aにつき1単語を分散表現として得る.文章Bにつき10単語それぞれの分散表現を得る.
文章Bの10単語は分散表現上類似しているはずだから?,同一クラスタに配置される?.
同一クラスタとなった10単語の分散表現を合計する.
文章Aの1単語の分散表現と文章Bの合計された分散表現は類似し,解像度変換が達成できる.
・・・とうまくゆけば良いのだが,問題だらけだ.
まず,このままでは,文章Aの1単語も,周辺の単語を巻き込み足されてしまうだろう.重要でない周辺単語を除く処理が必要.
*現在,tfidfで抽出して上記処理を行うプログラムを試作し動かしているが,ある程度の次元統一と同一表面での可視化が可能となっているかもしれない.
同一特許の要約(下位概念で記載されているもの)・請求項(上位概念と下位概念が含まれるもの)・明細(上位概念の記載が多いもの)を別に読み込ませ,どれほど近くに現れるか見てみるか・・・
*教師なしで可能なauto encoderを用いるのが妥当だろうか。
*解像度の変換を行う1手段がattentionであるわけだが??,直接圧縮しているわけではない?.依存しすぎてよいのだろうか.attentionもpoolingも似た作業を行っているが,伝播と圧縮の両立性という点ではpoolingにもまだ目が.
*次の文献を見つけた.
Pay Less Attention with Lightweight and Dynamic Convolutions
https://arxiv.org/abs/1901.10430
CNNーattention.Dynamic Convolutionは局所的なself-attentionともみなせるとのこと.(チャンネルをグループ分けする部分については,「多様体としては抽出できているが重みが打ち消される」問題を解決しようとしているように見える.CNNのチャンネルはネガポジで打ち消す事があるその傾向を考えれば,グループ分けでなくクラスタリングするほうが良さそうに思える.またチャンネル数の動的適正化機能を入れても同じかもしれない.(トポロジーを学びなおしているが多様体について誤解があったので後ほど修正削除予定.)
https://qiita.com/koreyou/items/328fa92a1d3a7e680376
(CNNの打ち消し対策の1.正規化後に、バッチからの共分散とサンプル毎の分散を組み合わせて脱相関
Channel Equilibrium Networks
Sep 25, 2019 ICLR 2020 Conference Blind
https://openreview.net/forum?id=BJlOcR4KwS )
*attenntion部分について,多様性評価手法ならではのやり方としては,BERTからattentionを拾っておいて,他モデルの重み付けに使うというのも良いかもしれぬ.(以上考え方はBERTと同じといえば同じ.)
*QAタスクの性能向上はほとんどの自然言語タスクへ影響を与える.解像度の変換問題も,QAタスクで解決させることもできるだろうか.(ActiveQAなど適当か?)
Talk to books https://books.google.com/talktobooks/
Universal Sentence Encoder https://arxiv.org/pdf/1803.11175.pdf
Both the transformer and DAN based universal encoding models provide sentence level embeddings that demonstrate strong transfer performance on a number of NLP tasks. The sentence level embeddings surpass the performance of transfer learning using word level embeddings alone. Models that make use of sentence and word level transfer achieve the best overall performance.
*複数のモデルを用いるとはある意味多様な解像度に対応しうるともいえるか.ならば,上位概念下位概念変換モデルを追加すると良いか。(Window sizeの拡張版といったイメージか?.しかしwindow sizeがモデルの個性に与える影響が大きいと言えるデータを見つけてはいない。)(解像度対応はBERTモデルが担当しているとして検討を打ち切ってもよいか.工夫の余地がない点が気になるが)
*解像度が同一である場合の置き換え手法には,ルールベースの辞書や分散表現,wikipedia2vecなどがある.ルールベースで解像度を増加させることは可能だが,単に解像度を増加させるだけでは文脈を無視する結果につながる.
*解像度変換のタスクがあった気がしてきたぞ(いまさら)
QQPタスクで,解像度が違う文章の同一性が判断できる.同一言語間の翻訳タスクも同じか.後は教師なしだが・・・これ教師なしでできるなら翻訳も教師なしでできることになるな・・・転移学習でも・・・
SQuADタスクで質問文を一定とすれば,textから1次元のwordが取り出せるけれど.これ教師なしでできるのか?.
教師なしで1次元に圧縮するとは,文章の本質の数値をえること.word2vecは分散を圧縮しているだけであり文章の本質の数値を得ているわけではない.学習無しで文章の本質を得るには・・・文章の特徴語を抽出して特徴語の分散表現を合計するぐらいしか思いつかない.ウインドウサイズを1から30ぐらいまで変化させ文章をソートしウインドウ内の単語分散ベクトルをすべて合計したリストを作り,リスト内部で最も近い数値を抽出し,文章全体をもっとも小さなウインドウとなっていた単語群となるようにおきかえてゆけば,解像度は揃うが・・・助詞まで含めた合計が意味的に等しい単語の数値とほぼ等しくなるようにできうるものか?.BERTベクトルなら?.
 a b c a b
 a b c d e f 同じ意味の文章だが異なる単語が使われている
 a b o p q r
a bとd e fが同じ意味であり,a+b≒x,d+e+f≒xとする.ウインドウサイズ2のウインドウがabをxと計算,ウインドウサイズ3のウインドウがdefをxと計算.文章の最初の単語から順番に全ウインドウ集計結果から最近値をソートし,最もウインドウサイズの小さい単語群に置き換えてゆく.
 a b c a b
 a b c a b  同じ意味の文章→同じ文章
 a b o p q r
または
 x c x (int)
 x c x (int)
 x o p q r (int)
そのままCNNにかける場合,CNNにおいて全マルチウインドウのconcatを行えば,上記変換のための多様体ができいるといえ,そうであるなら解像度変換ができているかもしれないわけだが・・・いや,これを学ぶ過程はないし,そも学習に任せた結果と任意に行う結果は異なるか.とはいえとりあえずaveragepoolingモデルをマルチウインドウ化してみるか(accuracyに大差がなかったためしていなかった)(トポロジーを学びなおしているが多様体について誤解があったので後ほど修正削除予定.).前処理としての文章の解像度変換も試してみよう(数値がほぼ等しく,が達成できずノイズだらけになると思うけれど.最低でもあと一つ何かが必要.
Attentionにwindow概念を適用し広げればどうなるのだろう?attention自体がwindowの代わりをしてはいるのではあるが.
→SpanBERT
https://arxiv.org/abs/1907.10529 範囲と範囲の境界を予測
*「無料でオープンソースの写真管理ソフトが特許を侵害している」と謎の企業によって非営利団体が訴えられる
https://gigazine.net/news/20190926-shotwell-lawsuit-patent/
AIには,このような特許を見つけ出す性能を持つことを期待している.そのため自分は,AIに上位概念下位概念変換や解像度変換能力の高さを求めている.辞書では限界があるため分散表現に期待する.するとノイズが増える.それをカバーするためにも,多様性評価手法が必要となる.他の手法があればそれでも良いのだが,今のところ,教師依存の手法しかないように見えている.
*複数粒度の分割結果に基づく日本語単語分散表現
https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/P8-5.pdf
解像度ではなく粒度のほうが良い?.ここで言う粒度は形態素の区切りの違いにより類義語が類似とならないことを問題視しているが,自分は上位概念と下位概念で類似とならないことを問題視している.少々異なるか.

 *(以下考えがまとまっていない)
私は昔から,単語を「集合」と「分布」(分布だけでも良いけれど)よりなる概念として,少なくとも3次元上の概念として認識しており(特許を読むものは多かれ少なかれ似た認識を持っていると思うが),文章はその和か積だろうと認識していた.今は,単純な和や積ではないと考えている.単語を表す集合・分布は原子の電子雲のようなものと考えており,分子の電子雲が原子の電子雲の単純な和となっていないように,文章の集合・分布は,ある構造的ルールに基づいた(例えば重心位置の違いを考慮した)計算をして求められるべきではないかと考えている.
(ベイズがその答えを与えてくれるのではないかとなんとなく思っている.KLダイバージェンスで分布の距離を測って・・・てそれなら)(GCNや化学物質予測タスクにおけるBERTの利用についても,興味深く思っている.)(機械学習モデルに入力する文章を,単語の集合・分布をノードとしたグラフとすれば,面白いのではないであろうか.前後または同一クラスタとなった単語間の距離をエッジとしつつ分布を重ねるなど、ありうるのではないか.)(構造形成について、基本的にはCNN類似+ウインドウの構造化である程度良い結果が得られるかと思っている.…位置普遍性は重要だが、弱い位置情報を与えてみてもよいのか?試してみるか)
単語の分散表現は単語の集合・分布を内包しているとも言えるかもしれない.集合は文脈として内包しているとできるだろう.分布はどうか.自動的にガウス分布を仮定しており(というのもおかしいが)検討されていない気がする.真値があることを仮定してしまっている気が.この場合,複数の真値を仮定する必要がある認知に対応できないのではないか.(ピーク高さを表す重みと、足切りを表し「集合の広さを確率分布に従い変化させる」重みの2つを利用すれば?)(ある単語のベクトルの周りには、単語が設定されていないが類似するベクトルが存在し、ある単語周りにガウス分布している。という分布の考え方。「空」単語ベクトルの扱いをどうするかが重要になるのか?。空単語ベクトルの生成自体は分布を仮定しランダムサンプリングすれば良い。文章内の単語すべての単語ベクトルを、平均や和を含め、shapley値を高さとした等高線を用い図示し、類似する2文章で比較するなどすれば、分布に関しなにか見えてくるか?)(単語ベクトルのいくらかの次元は認知である,または認知を加えるべきである,としても良いが,concatは何故かいまいち.認知は,多次元と並列平等に扱うのではなく,多次元全体に正規化を施した上で影響を与えるようにする必要があるのだろう.単語ベクトルの次元全てに平等に影響を与えるのではなく,分布を仮定し影響を与える必要があるのだろう.てこれがそも記憶ネットワーク,transformerか.認知分布をどのように設定するかは興味深い.予め概念として認知分布を作っておく,つど教師データから学習し認知分布を作る,リアルタイムに認知分布を指定する,フィードバック制御として認知分布を設定する,すべてが必要に思う.)
文章について.
単語の分散表現の単純な和は短文では意味を残すが長文では意味を残し難いと知られている.何らかの単純な和でない構造が必要と理解されている.自分はこれは(biasでなくvalianceの影響もあろうが)分布の問題ではないかと考えている(というより,そうだったら興味深いな,に近い).文章の分布形成はモデルに依存しているように思う.CNN類似モデルではマルチウインドウが文章の分布形成を受け持っていると言えなくもないかもしれない(複数峰をmaxpoolingで選出することにより個性抽出ができる,できている,かもしれない).最近のモデルにおけるクラスタ利用の流れは一部を削減することで,擬似的に適当な分布を作っていると言えるのかもしれない.「モデルの個性」の正体は,これら文章の分布形成の違いかもしれない.分布が異なるならそれは概念の違いといえ,概念の違いが認知上の個性ならば,「モデルの個性」は正しく「個性」と言えるのかもしれない.)(分布もbiasとvaliance双方含み見分けがたいところがなんとも.ガンマ分布とベイズかな最終的には))(→本文のベクトルの伸び縮みにつながる.)(まあ自分はガウス分布を想定したままモデルごとに真値を1つにまとめ(あとに述べる「類義・関連語」の価値観に基づく「歪め統合」のこと),異なるモデルが持つそれぞれの真値を最終的に評価計算する手段をとったわけだが,より上流で対応できるのではないだろうか.)(BERT,attentionはボトムアップ注意、w2vembmaxpはトップダウン注意、相互補完しているため多様性評価がうまく行っている、などと考えて良いものか)(日本認知科学会2019ヤフーポスター、圏論に基づく分散表現の加減算の定式化に向けて.単語ベクトルの点をオントロジー(トポロジーだったか)で面に変換し?(分布を考えるよりトポロジーを用いたほうがモデルに相対的に最適化しやすく適切だろうな)圏論を用い射の構造抽出して分散表現の説明とし理解につなげる?と理解してよいのか.定式化後、ベクトルの乗算等の性質も検討?.うーむ,わからんが,ベクトル群をクラスタリングした後クラスタ群をノードとした有向グラフとすることとどのように異なるのだろうか?.この定式化ができれば,特許請求項の数式化も見えてくるだろうか.とても楽しみ.興味深く追跡してみる.)(概念を別に作る視点と概念を構造を用い誘導して作る視点が混ざっており何言ってるのかわからないな我ながら.)(化学物質合成タスクでSMILES記法条件下のMolecular transformerがSoTAとなったのを見るとBERTで十分と思わなくもない.)(BERTの手法なら空ベクトルを補いやすいかな.)

無題.png

単語に分布をつけると重心が適切にずれる?.文章ベクトルを作るにあたり,機能語はルールベースで分布と距離を微調整するように使えば良い?.意味語は認知分布に関わるだろうが,機能語は認知分布に関わだろうか?.

wembset.png

*Analysis of Word Embeddings using Fuzzy Clustering
https://arxiv.org/abs/1907.07672
"In contrast to hard clustering techniques, where one point is assigned exactly to only one cluster, fuzzy clustering allows data points to pertain to several clusters with different grades of membership"

f2.png

このあたりどうだろうか.複数クラスタの共通部分に変換すれば解像度変換もできそうでもある.ソフトクラスタリングには他の手法もあるがいずれでも分布を持ち込めるか?

単語を分布で考えるモデルは,1gramのいわゆる言語統計モデルや無限語彙モデルと呼ばれる基礎モデルであるようだ.

伊庭幸人,持橋大地ら(2018)
ベイズモデリングの世界 
岩波書店 p69−
https://sites.google.com/site/iwanamidatascience/BayesModeling

ここから独立生起仮説を外すとその延長として,n-gramモデルや無限n-gramモデルがあると.また言葉の意味の統計モデルとしてトピックモデルの一種であるLDAが.さらにword2vecが紹介されている.これらは上記に言う構造を形成していると言えるのだろう.(これらを分布という視点で見ていなかった.勉強不足やな.)
さて,これらでも十分でないことはわかっている.基本に帰りつつ,他の構造も仮定できないか考えることとしよう.上記のように,内容語としての単語でなく,機能語の役割を考え直すことはできるのだろうか.

Randall K. JamiesonJohnathan E. AveryBrendan T. JohnsMichael N. Jones(2018)
An Instance Theory of Semantic Memory
Computational Brain & Behavior, 1(2), 119–136
https://link.springer.com/article/10.1007/s42113-018-0008-2
プローブ部分が上記分布と類似するか.分布と分散表現,認知についての記載あり.考え方が似ている.著者追跡してゆくか.

*人類の文化的躍進のきっかけは、7万年前に起きた「脳の突然変異」だった:研究結果
「記憶のなかの複数の単語を意味のあるメンタルイメージとして合成するプロセスは、「前頭前野統合(Prefrontal Synthesis)」または「メンタル統合(Mental Synthesis)」と呼ばれている。」
「「単語の柔軟な組み合わせと入れ子構造は、すべてのヒト言語に特徴的な機能です。このため言語学者は現代的な言語を『再帰言語』と呼んでいるのです」と、ヴィシェドスキーは言う。
しかし、複数の単語が複雑に組み合わさった入れ子構造の文章が理解できるかどうかは、受け手の前頭前野外側での「統合」能力にかかっている。そしてこれを可能にするメンタル統合能力の発達には、非常に重要な時期があるという。」
https://wired.jp/2019/09/01/recursive-language-and-imagination/
https://riojournal.com/article/38546/element/8/24430/
メンタル結合能力。立体視と同じく後天的なんやな。概念構造形成時の誘導が重要なのでは。
*The Cognitive Tradeoff Hypothesis
https://www.youtube.com/watch?v=ktkjUjcZid0
短期記憶と言語・予測のトレードオフ。進化における喪失と取得。概念構造形成時の誘導は重要に思える。どのような誘導が必要なのだろうか.忘却だろうか.「特徴を抽出するのでなく非特徴を如何に削減するか」が重要ではないか.AIでも,得られた特徴をあえて削減することが必要なのではないか.
(削減に付き,ランダム性の高いdropout以外の構造には何があるだろうか.クラスタリングが答えである気がする.)(「平均の平均の周りに分布する」モデルとすれば,個性(ここではデータの個性)を取り入れつつ全体の情報も利用でき安定した推定が可能となるとのこと.前述「ベイズモデリングの世界」)(これが近年のクラスタリング利用活発化の理由だろうか.クラスタリングにより,「データの個性」を拾い上げることができる(個性的なデータは単独で1クラスタを形成する).「モデルの個性」とは,「モデルが拾い上げる「データの個性」に差違があること」,と表現するとよいかもしれない.自分のモデルの多くは(下記tfidf可視化含めて),このクラスタリング(と分散表現を組み合わせて)を利用している.).(共有の視点で考えれば,予測型AIに多様性を用いる方向性は正しいように思える.)(クラスタリングによりメモリ削減など性能を落としつつ改善させよう,としたところ,結果として,従来より性能が向上した,という結論となっている文献がそこそこ目立つようになってきている気がする.どこかで集計してみるか.)

*理研ワークショップメモ(理解を間違えているかもしれない)
・ものづくりの時代の流れは,「もの(毎回実験)→理論・式(シミュレーション)→計算(可視化・解析・予測)→データ駆動(計測→ネットワーク→AI)」.
・「測定」自体の先鋭化による「多量のデータ」作成→「ネットワーク」による技術の保管・共有→保管された技術と多量の測定データを処理する「AI」,が重要となってくる.

*可視化は,AIのブラックボックスを解明するためやAIの説明責任のような文脈で語るのではなく,AIとヒトが互いを?理解しつつ協同するため,という文脈で語るべきかと思う.

Diversity in Machine Learning
 https://arxiv.org/abs/1807.01477
 https://arxiv.org/pdf/1807.01477v2.pdf
!そのままのタイトルだが,Computer Vision and Pattern Recognitionに分類されていたため見逃していた.
機械学習における多様性に関するサーベイ.

201905v2において,「モデル(らの)多様性」の項が加えられたようだ.良きかな.しかし,この項に付されている引用は殆ど無い.個性の評価手法に関するヒントはない.v3に期待.
"IV. MODEL DIVERSIFICATION
In addition to the data diversification to improve the performance with more informative and less redundant samples, we can also diversify the model to improve the representational ability of the model directly. As introduction shows, the machine learning methods aim to learn parameters by the machine itself with the training samples. However, due to the limited and imbalanced training samples, highly similar parameters would be learned by general machine learning process. This would lead to the redundancy of the learned model and negatively affect the model’s representational ability.
Therefore, in addition to the data diversification, one can also diversify the learned parameters in the training process and further improve the representational ability of the model (D-model). Under the diversification prior, each parameter factor can model unique information and the whole factors model a larger proportional of information [22]. Another method is to obtain diversified multiple models (D-models) through machine learning. Traditionally, if we train the multiple models separately, the obtained representations from different models would be similar and this would lead to the redundancy between different representations. Through regularizing the multiple base models with the diversification prior, different models would be enforced to repulse from each other and each base model can provide choices reflecting multi-modal belief [27]. In the following subsections, we’ll introduce the diversity methods for D-model and Dmodels in detail separately.
B. D-MODELS
The former subsection introduces the way to diversify the parameters in single model and improve the representational ability of the model directly. Much efforts have been done to obtain the highest probability configuration of the machine learning models in prior works. However, even when the training samples are sufficient, the maximum a posteriori (MAP) solution could also be sub-optimal. In many situations, one could benefit from additional representations with multiple models. As Fig. 4 shows, ensemble learning (the way for training multiple models) has already occurred in many prior works. However, traditional ensemble learning methods to train multiple models may provide representations that tend to be similar while the representations obtained from different models are desired to provide complement information. Recently, many diversifying methods have been proposed to overcome this problem. As Fig. 6 shows, under the model diversification, each base model of the ensemble can produce different outputs reflecting multi-modal belief. Therefore, the whole performance of the machine learning model can be improved. Especially, the D-models play an important role in structured prediction problems with multiple reasonable interpretations, of which only one is the groundtruth [27]."
「図4で示すように、アンサンブル学習(複数のモデルをトレーニングする方法)は、以前の多くの研究ですでに行われています。しかしながら、複数のモデルを訓練するための伝統的なアンサンブル学習方法は、類似する傾向がある表現を提供し得るが、異なるモデルから得られた表現は補完情報を提供することが望まれる。最近、この問題を克服するために多くの多様化方法が提案されている。図6に示すように、モデルの多様化の下で、各基本モデルは異なる出力を生成することができます。したがって、機械学習モデル全体の性能を向上させることができる。」
自分の見解と同じ.Recently, many diversifying methods have been proposed to overcome this problem.に引用なし.Recently,manyなら例示してほしいが.up
"VI. APPLICATIONS
Diversity technology in machine learning can significantly improve the representational ability of the model in many computer vision tasks, including the remote sensing imaging tasks [20], [22], [77], [112], camera relocalization [87], [88], natural image segmentation [29], [31], [95], object detection [32], [109], machine translation [96], [113], information retrieval [99], [114], [158]–[160], social network analysis [99], [155], [157], document summarization [100], [101], [162], web search [11], [98], [156], [164], and others."

*AI Samuraiのシステム構成をみた.
非常に誠実なシステムという印象.類似検索は「キーワード検索」「ベクトル類似度(分散表現)」「グラフ分析」から行い,何らかの方法でスコアを集計している(任意重み付けであると聞いたような聞かなかったような).3つの検索手法は,まとめればCNNと同じようなことをしているわけだが,あえてCNNにしないことで短文に対応しやすくしつつ明確性を高めているように見える.この点,誠実に見える(お前は分散表現任せで不誠実だ?.非常にごもっとも.).
ただ,この3つの検索手法,分布が十分に異なっている(類義語を十分に引き出している)のであろうか?.公開されている特許を読む限り,実際はもっと複雑なのだろう.

*GeoInformatica 2019, Volume 23, Issue 2, pp 221–242
Using word embeddings to generate data-driven human agent decision-making from natural language
https://link.springer.com/article/10.1007/s10707-019-00345-2
「このアプローチでは、フィールドインタビューのトランスクリプトからWebの非構造化データまでのテキストソースを使用して、人間の認知をキャプチャおよび表現できます。ここでは、言語のベクトルベースの表現である単語の埋め込みを使用して、類似性比較を使用して推論するエージェントを作成します。このアプローチは、さまざまな自然言語の意思決定タスクにわたる人間の意思決定バイアスに対する理論的期待を反映するのに効果的であることが証明されています。概念実証エージェントベースのモデルを提供します。」
"prompt = "Linda is 31 years old, single, outspoken and very bright. Sh
e majored in philosophy. As a student, she was deeply concerned with i
ssues of discrimination and social justice, and also participated in a
ntinuclear demonstrations. Which of the following is most probable?"
options = [ "Linda is a bank teller.",
"Linda is a bank teller and active in the feminist movement.",
"Linda is a feminist."
[0.2744873996226564, 0.5923732736455332, 0.35307643353440243]"

def calculate_phrase_vector(word_set, embeddings):
    '''
    Input: list of words
    Output: average vector
    '''
    phrase_vector = np.zeros(embeddings.dimensions)

    for word in word_set:
        # goes through each word, finds the vector in the precomputed vector file, 
        # multiplies it by the frequency of that word, and then adds it to the phrase vector
        try:
            phrase_vector = np.add(phrase_vector, embeddings.get_embedding(word))
        except:
            print("Skipped", word, "in phrase vector")
    try:
        phrase_vector = np.divide(phrase_vector, len(word_set)) # averages the phrase vector by total number of words in phrase
    except:
        print("Phrase Vector 0")
        phrase_vector = np.zeros(embeddings.dimensions)

    return phrase_vector

えええ

*Does Technological Diversity Help or Hurt Small Firms? The Moderating Role of Core Technological Coherence
https://ieeexplore.ieee.org/document/8384275

*Generative Models for Automatic Chemical Design
https://arxiv.org/pdf/1907.01632.pdf
無題.png
https://speakerdeck.com/elix/elix-cbi-2019?slide=20

*我が国の伝統的な組織的意思決定方法をマルチエージェントシミュレーションで実装するためのモデル設計
https://www.jstage.jst.go.jp/article/jasmin/201906/0/201906_181/_pdf/-char/ja
「この組織的意思決定方法による効果について 宮本は『村でとりきめをおこなう場合には,みんなの納得のいくまで何日でもはなしあう』
『みんなが納得のいくまではなしあった。だから結論が出ると,それはキチンと守らねばならなかった』と述べており,十分な合意が形成されることを指摘している。
H.A.サイモンの意思決定は,
「情報活動」「設計活動」「選択活動」「検討活動」の順にプロセスが定義され,問題解決のための代替案を「選択活動」で評価する際にも,各代替案を評価する統一的な観点を定義し,評価スコアを定め,最大の評価スコアとなった代替案を採用するといった。定量的なものである。
・各エージェントがお互いに十分な意見交換を行うこと
・各エージェントの意見が全体の結論に対し程度の差はあっても加味されていること
集約した探索進路ベクトルを数学的なベクトル合成に相当する演算により合成することで求める」
ううむ

*Semantics derived automatically from language corpora contain human-like biases
https://science.sciencemag.org/content/356/6334/183.full
Text Embedding Models Contain Bias. Here's Why That Matters.(Google AI Blog)
https://developers.googleblog.com/2018/04/text-embedding-models-contain-bias.html
「Googleでは、意図しないバイアス分析と緩和戦略を積極的に研究しています。これは、すべてのユーザーに適した製品を作成することにコミットしているためです。」
自分は,「すべてのユーザーに適した製品を作成すること」とは「逆」の,「個人用アシスタントAI」を想定している.方向性は悪くないようだ.
"The Word Embedding Association Test (WEAT) was recently proposed by Caliskan et al. [5] as a way to examine the associations in word embeddings between concepts captured in the Implicit Association Test (IAT). We use the WEAT here as one way to explore some kinds of problematic associations.」
いまさらだが,個性評価にはこのWEATテストまたは類似手法が役に立つのか?
unnamed.jpg
Table 1: Word Embedding Association Test (WEAT) sc7ores for different embedding models. Cell color indicates whether the direction of the measured bias is in line with (blue) or against (yellow) the common human biases recorded by the Implicit Association Tests. Statistically significant (p < 0.01) using Caliskan et al. (2015) permutation test. Rows 3-5 are variations whose word lists come from [6], [7], and [8]. See Caliskan et al. for all word lists. For GloVe, we follow Caliskan et al. and drop uncommon words from the word lists. All other analyses use the full word lists."
"For developers who use these models, it's important to be aware that these associations exist, and that these tests only evaluate a small subset of possible problematic biases. Strategies to reduce unwanted biases are a new and active area of research, and there exists no "silver bullet" that will work best for all applications. When focusing in on associations in an embedding model, the clearest way to determine how they will affect downstream applications is by examining those applications directly."
うむう
"We'll evaluate the quality of the sentiment classifier using the area under the ROC curve (AUC) metric on a held-out test set.
Here are AUC scores for movie sentiment classification using each of the embeddings to extract features:"
unnamed (1).jpg
"At first, Tia's decision seems easy. She should use the embedding that result in the classifier with the highest score, right?
However, let's think about some other aspects that could affect this decision.
Looking at the WEAT scores for various embeddings, Tia notices that some embeddings consider certain names more "pleasant" than others. That doesn't sound like a good property of a movie sentiment analyzer. It doesn't seem right to Tia that names should affect the predicted sentiment of a movie review. She decides to check whether this "pleasantness bias" affects her classification task."
"In this case, she takes the 100 shortest reviews from her test set and appends the words "reviewed by _______", where the blank is filled in with a name. Using the lists of "African American" and "European American" names from Caliskan et al. and common male and female names from the United States Social Security Administration, she looks at the difference in average sentiment scores."
unnamed (2).jpg
"There is no one "right" answer here. Many of these decisions are highly context dependent and depend on Tia's intended use. There is a lot for Tia to think about as she chooses between feature extraction methods for training text classification models."
unnamed (3).jpg
"Conclusions
To better understand the potential issues that an ML model might create, both model creators and practitioners who use these models should examine the undesirable biases that models may contain.
We've shown some tools for uncovering particular forms of stereotype bias in these models, but this certainly doesn't constitute all forms of bias.
Even the WEAT analyses discussed here are quite narrow in scope, and so should not be interpreted as capturing the full story on implicit associations in embedding models.
For example, a model trained explicitly to eliminate negative associations for 50 names in one of the WEAT categories would likely not mitigate negative associations for other names or categories, and the resulting low WEAT score could give a false sense that negative associations as a whole have been well addressed. These evaluations are better used to inform us about the way existing models behave and to serve as one starting point in understanding how unwanted biases can affect the technology that we make and use. We're continuing to work on this problem because we believe it's important and we invite you to join this conversation as well."
単語の分布,文章の分布の問題とするか.

*Talk to book(transformer)において,「モデルの多様性」を検索
https://books.google.com/talktobooks/query?q=importance%20of%20diversity%20for%20model%20on%20machine%20learning&
"This diversity of models gives machine learning systems great problem solving power. However, it can also be a bit daunting for the designer to decide which is the best model, or models, are for a particular problem.(view in book)
from Python: Deeper Insights into Machine Learning
by Sebastian Raschka, David Julian, John Hearty
Packt Publishing, 2016 ⦁ Science
“Python: Deeper Insights into Machine Learning” by Sebastian Raschka, David Julian, John Hearty"
お、おう。これは読まねばなるまいか。まず著者からやな。
" Other approaches to increase diversity rely on the use of a high-level model to combine object-level models derived from different machine-learning techniques, e.g., stacked generalization [41.78]. Alternatively, we can inject structural diversity in the...(view in book)
from Springer Handbook of Computational Intelligence
by Janusz Kacprzyk, Witold Pedrycz
Springer Berlin Heidelberg, 2015 ⦁ Science
“Springer Handbook of Computational Intelligence” by Janusz Kacprzyk, Witold Pedrycz"
"To further demonstrate how diversity can produce complexity, I present a model by Nowak and May (1993). This model considers the evolution of cooperation in a spatial setting.(view in book)
from Diversity and Complexity
by Scott E. Page
Princeton University Press, 2010 ⦁ History and Biographies ⦁ Science"
biasかvalianceか.双方diversityと表現されていてわかりにくい.
(関係ないが,特許の先行技術調査や権利化可能性探索タスクについて.Talk to bookのようなQAで解決するとよいと思うのだ・・・.主引例は文章全体の類似性で探し,副引例はQAで探す,これが能力的にも業務フロー的にもベストではないか.構成要素毎の類似性からでは要素間の組み合わせの引力を計算できないため限界があると思う.ここは変化する部分でもあるし,素直に人にやらせたほうが筋が良いのでは・・・.と考え自分はそうしている.
(非特許文献や書籍の全文検索もできるように,となれば,Googleにしかできない気がする.)(Google patentのΣsimillarは,時期からするとTalk to bookと同じく,Transformaerであろう.明確でないが,すでにできるようになっている,のかもしれない.)
http://www.peterbloem.nl/blog/transformers

*Learning to Discover Novel Visual Categories via Deep Transfer Clustering
https://arxiv.org/abs/1908.09884
改善のため内部でクラスタリング処理.最近良く見る気が.「特徴を抽出するのでなく非特徴を如何に削減するか」という視点で良いのだよねこのクラスタリングは.

*Revealing the Dark Secrets of BERT
https://arxiv.org/abs/1908.09884
Attentionヘッド一部削除で性能向上.どのように削除するattentionを選択したのか興味深い.

*Errudite: Scalable, Reproducible, and Testable Error Analysis
https://medium.com/@uwdata/errudite-55d5fbf3232e
UW Interactive Data Lab
Aug 13 · 11 min read
Error analysis is a compass, and we need it to be accurate.
Error analysis — the attempt to analyze when, how, and why machine-learning models fail — is a crucial part of the development cycle: Researchers use it to suggest directions for future improvement, and practitioners make deployment decisions based on it. Since error analysis profoundly determines the direction of subsequent actions, we cannot afford it to be biased or incomplete.
But how are people doing error analysis today? If you read some quotes from ACL papers (a top conference for NLP, or Natural Language Processing), this is what you see:
“We performed an error analysis on a sample of 100 questions.”
We randomly select 50 incorrect questions and categorize them into 6 classes.
We sample 100 incorrect predictions and try to find common error categories.
クラスタリングでエラー累計.エラー文章が教師データより希少だという問題はあるが.

*Reflection on modern methods: when worlds collide—prediction, machine learning and causal inference
https://academic.oup.com/ije/advance-article/doi/10.1093/ije/dyz132/5531243
因果推論サーベイ?

*A Topological Analysis of Patent Statistics" (with Emerson G. Escolar, Yasuaki Hiraoka, and Yasin Ozcan)
https://arxiv.org/abs/1909.00257

*「減算と縮約」
https://ci.nii.ac.jp/naid/40019565591
全体を圧縮する縮約でなく、全体から削減する減算?。「特徴を抽出するのでなく非特徴を如何に削減するか」と同じ方向性と理解してよいのかな.多くのAIや,アンサンブルの平均,concat,文章の解像度の違い,に感じていた違和感はこのあたりかもしれない.w2v-mpには「減算」を行わせるようにしたいものよ.L1正則化を再検討しても良いかもしれない.
「多様体がない部分を削除することは良いが、多様体があるかどうかわからない部分を削除してはいけない,解る部分のみを抽出することは良くはない,解る部分以外を削除する考えではいけない.わからないものは通せという,3M準拠基準?で評価することが重要」と勝手に理解した.まだ原文を読んでいないが.
(原文入手.哲学そのもの?.
「想起としての記憶力」は上記で述べたような,知覚とともに回路をなし記憶のイメージで文字を埋め合わせ紙面上に投射され文字に取って代わる.「縮約としての記憶力」は知覚「に」混入し,現在そのものを構成する.この2つが認識の主観的な側面を構成する.知覚の主観的覆いからの純化のため縮約否定.縮約抜きの知覚考察の結果としての「減算」.減算に伴う削除とは多様体を局所的に分離し表層的になること(クラスタリングと理解してもよいのか?).生成とは削除(遮断)のこと.遮断自体が変化する必要がある.記憶力の役割は縮約によって量から質を得ることにあり,反対に減算モデルでは潜在的なものを考えるにあたりこの2軸では不十分となる.圧縮と拡散が対応.減算モデルにおいては向かわなければならないものに到達すること以上に悪いことはないのではないか(動的平衡の話か?)〜
まあなんだな,自分の目的においてこのようなことも理解しておく必要があるということはわかる.ルールベースでないところで「学習時に構造を導くモデル」が必要とするならば,その構造が,言語全体を上位概念に行き着くした場合どのようなものになるか,を考えて想定しなければならない.そうでなければ実装しようがない.その構造を想定するにあたり,どうしても多様体の姿を考えないといけないだろう.それには哲学のようなものの理解も必要なのだろう(数学的に多様体を考えたほうが良いのかもしれないが,どうしても認知できる特徴に寄せたくなるのよね・・・).まあ,哲学書を分類できるAIならば合格,という基準を作れば良いのではないだろうか,と投8げやりに考えてしまう程度に頭が痛い.)(トポロジーを学びなおしているが多様体について誤解があったので後ほど修正削除予定.)(現在の広範な知識からのフードバックのような印象も.トートロジー気味に思えてきた.)(w2v-mpの歪め統合は、縮約か?.主観否定の為の減算なのだから、バイアス重視の歪め統合は縮約で良いのか?.全体としては減算だが部分的には縮約?.)

*Gated Convolutional Neural Networks for Domain Adaptation
https://deepai.org/publication/gated-convolutional-neural-networks-for-domain-adaptation
自分より上流で処理しているが参考になる.多くの概念を作って評価基準…いやこれは自分と逆,別概念からの流用か?.gateの工夫次第では…いや,これwindowの多様性のみから概念を作っているので限界があるか.どちらかといえばランダムなクラスタリング手法に近いか。
システム図にpre-train部分をpre-domainと表記したが,domainと表記して正解のようだ.
キーワードdomain流しで検索すればモデルの個性についての関連文献も見つかるか?.前述のサーベイには記載がなかったが.

*辻井潤一(2016)
研究の個人史─言語処理,言語理解,人工知能─
人工知能 31(4)
https://t.co/mNnA6ggFCf?amp=1
「記号や構造による定式化が自然に見える意味処理や推論処理も、その計算過程の多くは無意識下での非明示的な処理で実現されている」

*最適な感覚統合で「主体感」を定量化-心理実験を統一的に再現する理論-
Roberto Legaspi, Taro Toyoizumi,
"A Bayesian psychophysics model of sense of agency",
Nature Communications, 10.1038/s41467-019-12170-0
http://www.riken.jp/pr/press/2019/20190918_1/
「行動と帰結の間に因果関係のある認識の「確からしさ(確率)」が、実験的に報告されている主体感の強弱とよく一致することが分かりました。さらに、この理論を用いて、これまでは統一的に理解することが困難だった主体感に関する心理実験を説明することに成功し、主体感を定量化する新しい数式を提案しました。」
*「能動学習と受動学習とで比較し,能動学習の方が成績がでるが「学習した感」は低いという結果.学習した感を評価基準とすれば」
Measuring actual learning versus feeling of learning in response to being actively engaged in the classroom
https://www.pnas.org/content/116/39/19251
AIを使う観点において重要となりそうか.因果が明確にならないとAIを使っている気にはならない?.AIに課題まで提示されないと満足できない?.
「皆にインサイトを得る能力とモチベーションがある」という前提は,あまり当てはまらないのか?.ならばインサイトの次のステップ,「妥当な因果を示す仮説の提示」,まで,AIにやらせるべきか.
*西田勇樹(2019)
洞察問題解決における無意識的過程に関する研究:プライミング法を用いた検討
cognitive study 26(2) 291
https://www.jstage.jst.go.jp/article/jcss/26/2/26_291/_pdf/-char/ja
「手がかり妨害効果(インサイト?が問題解決の成績をかえって低下させる現象)は抑制機能(無関係な情報を排除する認知機能)が強く働く人で現れることを明らかにした.」
ふむう.

*初期から用いていた40件の検証用データval40では,多様性評価を適用させると正解候補に全問正答してしまう状態となっており,現状以上に理解をすすめることが難しくなっている.さらなる理解を得るため一定の基準に従い前向きに検証用データの収集を始めて(と言っても基準を公開して収集してきたわけではないので今ひとつだが)半年以上,やっとある程度のデータが集まった.
 Val460: 460件の検証用データ.教えていないかつ重要でもないけれど個人的に興味深い,という重要度Cの特許群を加えたハードなもの(教師データと語彙が共通していないことも多く,ある程度の創造性がなければ正答できないであろう.というかいくらなんでも無理だろう…理屈の上では,w2v-mpの歪め統合範囲に複数の単語が入っていれば正答可能だがその同時確率は…)(重要度Cには,後発シェア計算特許や,いらすとやのイラストがあって面白いな,という何をどう考えても高スコアとすることは無理だと思われる特許も含みます.)
→1評価の結果

重要度 正解候補 上位10%以内相当率
A 98.7%
B 91.7%
C 72.4%

*実データにおいて上位10%となる評価値の平均を閾値とし,それを越えたval460サンプルの割合を10%以内相当率とした.
*重要度A:落としたくない重要特許.
*重要度B:重要ではないが,教師内容を拡張して拾い上げて欲しい知っておきたい特許.
*重要度C:重要ではなく教えておらず知っておく必要もないが,個人的に興味がある特許.
*書いておいてなんだが,この絶対値は自分の課題においてそうできた以上の意味がないので,公開する意味は殆どないだろう.ある薬がある個人に対しどれだけ効いたかそれのみは,他の個人にどれだけ効くものなど示すものではなく他の個人にとって重要ではない.ある個人にとっては非常に重要なことだが.(そして当然に,ある個人に対する試行をいくら繰り返しても,そのデータ群はやはり他の個人に適用できるものでもない.)
*Aはこの程度だろう(相当率100%となるのは上位11%のとき.).Bはもう少し改善必要あり.Cは50%もあればと考えていたのだが予想以上.重要度Cはw2v-mpの創造性を観察するために設定したようなものだが,分析の結果はどうなるだろうか.ざっと眺めた限りではもう少し創造的であって欲しい.
*興味深い点として,正解候補では個性が見られていると言える特許が多いのに対し,不正解候ではあまり個性が見られないという点がある.自分の教師の作り方をから考えると,幹と枝葉のうち,枝葉において個性が現れていることを示しているようで興味深い.
*現在は更に改良を進めており,重要度Bもほぼ100%に到達している(expert systemによる効果.AIだけで100%なんて無理に決まってんじゃない(おい)).しかし,本当に欲しいところは重要度C,ヒトが思いつかない部分の創造性だ(expert systemでは正解率が上がリにくい部分).この部分に関する考え方や手段・評価手法に関し,(いい加減本気で忙しいので趣味の範囲で)調査を進めてゆかねば.
*あれだけ時間かけて用意した検証データがそれを考慮した改良により一瞬で意味を失う…なにか虚しい.
*一旦休止するか.あとは改良のための文献メモに徹することにしよう.
*分野限定個人用AIの検証には,同一分野の複数の個人による主観的な検証が必要となる.ぶっちゃけ狭すぎる.さてどうしたものか・・・

*ElasticsearchとBERTを組み合わせて類似文書検索
https://hironsan.hatenablog.com/entry/elasticsearch-meets-bert
BERTベクトルで類似検索.時代の推移は早い.ベンダーだよりかなこの辺りは.

*Googleが自然言語処理の弱点「言い換え」を克服するデータセットを公開
https://gigazine.net/amp/20191004-paws-x-dataset-google?__twitter_impression=true
言い換えを教師ありで解決させようとした場合,どれだけのデータが必要となるのであろうか.

*Anonymous
Unsupervised Distillation of Syntactic Information from Contextualized Word Representations
26 Sep 2019 (modified: 26 Sep 2019)ICLR 2020 Conference Blind
https://openreview.net/forum?id=HJlRFlHFPS
Keywords: dismantlement, contextualized word representations, language models, representation learning
TL;DR: We distill language models representations for syntax by unsupervised metric learning
「文構造と文意を別々に識別できるモデルを教師なしで得ることを目指している.構造が同じで語彙が異なるものをPositive、その逆をNegative.」
"We demonstrate that our transformation clusters vectors in space by structural properties, rather than by lexical semantics. "
構造と単語の意味を切り分ける蒸留?.disentangledはこれから流行しそうだ.切り分けられるなら少数教師により近づく.取り入れたい.創造性を検討するなら,単語の意味を残し構造は無視する,などできると良いだろう.
*Disentangled な表現の教師なし学習手法の検証
https://research.preferred.jp/2019/10/disentangled-represetation/
あまり考えたことがなかったが,分散表現の次元毎の特性を確認するのも面白いか.

*J. Gerard Wolff(2019)
Information Compression as a Unifying Principle in Human Learning, Perception, and Cognition
Complexity Volume 2019, Article ID 1879746, 38 pages
https://doi.org/10.1155/2019/1879746
「人間の学習,知覚,認知における統一原理としての情報圧縮
このホワイトペーパーでは、人間の学習、知覚、認知の多くが情報圧縮、より具体的には「パターンのマッチングと統合による情報圧縮」(ICMUP)として理解されるという考えの証拠を検討します。~
言語(単語と語句)のセグメント構造の発見,文法的推論,および学習における過剰および非一般化の補正は,ICMUPの観点から理解される可能性がある。情報圧縮は知覚的constanにおいて見られる可能性がある。人間が検出することが困難な[数式:原文を参照]の十分拡大のような冗長性の種類を介して,人間の認知におけるICMUPの間接的証拠がある。人間の薄化に対する数学の構造と作業の多くは,ICMUPに関して理解される可能性がある。そして,SPコンピュータモデルにおける知能とその実現のSP理論を通して付加的証拠がある。」

*クラスタリングはスパースモデリングと同じ方向なのか.構造を意識したクラスタリングはスパースモデリングと異なり性能を向上させることもできるので少々異なるか.

*Juan J.Lastra-DíazaJosuGoikoetxeabMohamed AliHadj TaiebcAnaGarcía-SerranoaMohamedBen AouichacEnekoAgirreb(201910)
A reproducible survey on word embeddings and ontology-based methods for word similarity: Linear combinations outperform the state of the art
Engineering Applications of Artificial Intelligence
Vol.85 Page.645-665 (2019)
https://www.sciencedirect.com/science/article/pii/S0952197619301745
「オントロジーベースの類似性測定と単語埋め込みの大規模で再現可能な調査.
分布とオントロジーベースの情報を組み合わせたWordEmbeddingモデルが最良の結果.」
image.png

" Highlights
•A large reproducible survey of ontology-based similarity measures and word embeddings.
•Embeddings using ontologies get the best overall results on word similarity and relatedness.
•Best performing WordNet-based similarity measures use IC models & path-based features.
•Linear combinations of best-performing word embeddings improve the state of the art.
we show for the first time that a simple average of two best performing WE models with other ontology-based measures or WE models is able to improve the state of the art by a large margin.
"Counter-fitting .
Similar to the Symmetric Pattern technique (Schwartz et al., 2015), this method tries to enforce similarity instead of relatedness (Mrkšić et al., 2016), using both antonymy and synonymy constraints from PPDB database and WordNet. Counter-fitting loss function is defined as the weighted sum of the three following terms: (1) a first term which ‘pushes’ away vectors of antonyms; (2) a second term which ‘pulls’ closer synonyms; and (3) a third term which forces the updated space to preserve the relationships between words in the original vector space (pre-trained embedding)."
"Attract–repel.
Mrkšić et al. (2017) introduce the Attract–repel model which can be viewed as the cross-lingual extension of Counter-fitting. It also injects synonymy and antonymy constraints and updates pre-trained embeddings, but unlike Counter-fitting, semantic relations are drawn from BabelNet and mini-batches include negative samples in the attract and repel terms. In addition, Attract–repel uses a more straightforward L2 regularisation term to preserve word relations in the original pre-trained embeddings."
自分がやっていることに近いかもしれない.読み込むべき.
かなり検討されていると言ってよいのかな.得られるものは多いだろう.
〜おいおい,分散表現モデル(オントロジー含む)の組み合わせで高い結果が得られることを初めて示した,って本気か?.初めて示されたとは信じられないが.多様性評価や個性までは踏み込んでいないようだ.
それは良いとして,この文献は,いま自分がやっていることが方向として正しい,とサーベイで示してくれたとも言えるわけだ.有り難い.
自分の興味の本丸は,分散表現モデルの組み合わせで性能を出すことではなく,どのように多様性を評価すればよいかという方法論と未来予測型AIである.こちらのサーベイがないものか.

*Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
https://arxiv.org/abs/1910.10683
Transformer

*Pandu Nayak(2019)
Understanding searches better than ever before
Google Blog 20191025
https://blog.google/products/search/search-language-understanding-bert/amp/
文脈構造を保った検索.入力テキストに対し名詞限定をおこなうかどうかにも関わるかな.名刺限定は基本的に文脈を不明確とする.w2v-mpやkeb-mpでは名詞限定すべきでないとわかっている.検討した他のいくらかのモデルにおいても,名詞限定により精度は上がるがFNが増えるという示唆が得られている.一方,現状の使用方法におけるBERTでは,名詞限定を考えないといけない.入力できる情報量が少ないからだ.入力数制限による性能低下を防ぐための名詞限定と,名詞限定によるFP・FN増加とのトレードオフを考えないといけない.当面名詞限定BERTを採用している.実測としてval40や実データでは明確な差が見られておらず,仮説として名詞など内容語は最重要であり機能語は(特に形容詞が少ない特許文章では)最重要ではないと考えられたからだ.まあ先延ばしにしていたわけだが,val460ならば意味のある差が得られるかもしれない.もう一度検討してみるか.
→val460重要度Aで確認.名詞限定によりFN,FP,ともに減少していた.ああ,名詞限定で性能が出てしまうか.名詞限定不要としたいが,そうするには日本語版PatBERTが必要だろう.仕方ない,作るか…(根本的に,特許文章検索において文脈を考慮する必要があるかどうか,すべきかどうか,という疑問もあるが,まあ1モデルぐらいは文脈考慮できるようになっていてほしい.)(ALBERT実装まで保留.)
書き忘れた.この記事はBERTの検索エンジン組み込みに関する記事.

*文章ベースの検索では文脈を読むがゆえの認知上の間違いが問題となりそうか.
単語ベースの検索では文脈を読まないがゆえにその問題が検索結果確認時の問題として変換吸収されており顕在化していないが,文章ベースの文脈を読んだ検索では顕在化してくるだろう.
自分はAIによる文章検索と単語検索(オントロジー含む)のハイブリッドシステムを採用しているが,認知まで考慮すると,これでべストではないか,と,今のところ,考えている.
 
*これまで,言語学の知識を使った自然言語AIの研究がなされてきたが,今後は,自然言語AIを使った言語学の研究が進められてゆきそうな印象がある.重要な部分のみしか認識できてこなかった言語学は,更に詳細に,たとえば深層構造を確率分布で表すように,なってゆくのではないだろうか.個人的には,機能語と内容語の分布が重なっているであろう点について研究が進んでほしいと思うところ.個人的には,文法概念を壊しうるほどクリティカルに重要な点だと思う.
(私は,文法構造も,ただ一つの真値があるとすべきものではないと考えている.特許分野では特許分野の文法構造があり,口語には口語の文法構造があるように,分野で文法構造分布が異なる,とすべきではないだろうか.分散表現から構造を逆抽出することは文法構造を予測し得る(品詞解析など?構文解析?)ための手段であると捉えある手法から得られた結果が文法構造のルールとどれほど異なるだろうか,という視点で考えるのではなく,そも,「与えられたテキスト群においては,分散表現から逆抽出された構造こそが正しい文法構造である」,という視点で文法構造を捉えるべきではないのかと思う.なおもう少し進めて,「形態素の区切りも,ただ一つの真値があるとしてよいのか」とも思っている.粒度と解像度の可変性には大きな興味を持っている.真値にみえる文法構造や形態素の区切りは,平均的な認知を前提とした主因子であり,それを求める過程で特異な認知は捨てられてきた.だが実務ではその特異な認知こそ拾い上げるべきものであり,特異な認知を拾い上げるためには真値を1つに仮定する手法はそぐわない,という考え方といっても良い.まあこの考え方を取ると,正解ラベルも可変となるのでえらく苦労することに.ヒトは認知を怱々固定などできないのよ…)(w2v-mpとtfidf clustering visはその考え方をもとに作られている. https://qiita.com/kzuzuo/items/dcdf5550bcb024897de0 )(句構造文法などいろいろな考え方があるらしい.)(不自然言語処理?)
 
*植田一博(2019)
認知科学研究の質を高めることに向けて
cognitive studies 26(1) 3-5
https://www.jstage.jst.go.jp/article/jcss/26/1/26_3/_pdf/-char/ja
「認知科学が対象とするデータは個人差などの変量効果(random, effect)を含むものとならざるを得ません~N数が稼げない生物種を研究対象とする場合がある生態学などにおいて,このような方法論が発展してきました.それを認知科学に取り入れない手は~」

*Peter Norvig(2017,Google)
「人間に尋ねることもできる。だが、認知心理学者が見いだしたのは、人間に尋ねても、実は意思決定のプロセスにはたどり着けないということだ。人はまず意思決定を行い、その後で尋ねられたら、その時に説明を編み出す。その説明は、本当の説明ではないかもしれない」
自分に尋ねてもバイアスは同じだろうな.

*海野裕也(2017)
人と機械の言語獲得
cognitive studies 24(1) 16-22
https://www.jstage.jst.go.jp/article/jcss/24/1/24_16/_pdf/-char/ja
知りたい情報が多く含まれていた.Preferred Networkの方の論文は,先の高次元科学もそうだが,とても面白くまた参考となる.
記憶ネットワーク.
image.png
end-to end化.「十分に記憶や,それに基づく思考がモデル化されているとは言い難い.」
単語ベクトルの単純な和から文章ベクトルを作りそれから比較する部分に問題があるように思える.単語の分散表現を適用した上で,単語群と分布で文章ベクトルを表現できれば・・・?.
というかこの記憶ネットワークの基本構造はTransfomerとおなじか?.Transformerでは文章ベクトルを作るにあたりどの単語が重要か選出するシステムが足されていると言えるか.BERT系は思考がモデル化されているとまでたどり着いたのであろうか.
自分の歪め統合と比較すると,記憶ネットワークでは文章全体の記憶と入力を比較しており,Transformerでは文章全体の記憶と入力から特徴単語を強調した上で比較しているところ,歪め統合では短いセンテンスの記憶と短いセンテンスの入力を比較している点で異なるか(w2v-mpとkeb-mpの関係をself attentionと同じとみなし加えた場合)
(ああ,最後のあれはスパースに正則化させているのかやっとわかった.となると,自作AIと記憶ネットワーク・transformerとは,やっていることは方向として本当に同じなのか.自分がやってきたことは,記憶ネットワークと従来のAIの統合と表現できるのか。外部脳や概念を仮定するなら似たところに行き着くのは当然か.自作AIの利点としては,多様な方法で文章ベクトルを作ることができること,個性の入れ替えと理解?が比較的容易なこと,ということになるかな.).歪め統合では文脈を大きく無視できることから組み合わせのみに着目した創造性を発揮しやすくできていると考えているがどうであろうか.(経験上は,BERTには創造性が全く見られないように見え,歪め統合はBERTより創造的に見える.指標が無いので見えaるとしか言えないが….)(創造性を考慮したときの現状の弱点として,機能語を内容語を拘束するように食っていることが挙げられる.しかし現在の構造では機能語は区切りとして必要である.何というか,現在の保ち創造性を発揮させる場合,pre-domainを得るに機能語を正しく食わないことが重要である気がする.SNSを食わせたことはその意味でも正解だったかもしれない.ただこれは理解していないことから生まれる創造性となろうが,それでよいのかどうか.文脈を間違えニーズを考慮することにより生まれる創造性,悪くはないのであろうが.)
Transformerのみを用いた認知の可能性について.上記入力文章を認知文章に変えれば,記憶ネットワークは認知ネットワークにもなるが…認知情報は大概少量しかないので,このままでは上手くゆかないだろうな…

*趙・酒井(2017)
日本語を母語とする幼児及び年少児童の格助詞学習における項省略の影響
cognitive studies 24(3) 344-359
https://www.jstage.jst.go.jp/article/jcss/24/3/24_344/_pdf/-char/ja
「元来は内容語の学習を助けると考えられてきた機能語(~英語の前置詞)についても言語情報の有効性が認められるようになってきている.」
名詞限定でFN(やFP)が増える所以の一つか?.

*150 successful machine learning models: 6 lessons learned at Booking.com
https://blog.acolyer.org/2019/10/07/150-successful-machine-learning-models/

*西田京介(201911)
事前学習モデルの最近の動向
https://speakerdeck.com/kyoun/survey-of-pretrained-language-models?slide=6
 Structure BERT(ALICE)(目的関数の工夫),
 Span BERT(範囲マスク),
 ERNIE(+知識グラフ)
が興味深い.

*岡野原大輔(201711)
ニューラルネットの逆襲から5年後 https://research.preferred.jp/2017/11/deeplearning-5years-later/
(AIには)解けている問題だけを担当させ、残りを人や既存システムが担当することが多くなるでしょう。その場合、認識結果や理由をわかりやすくするだけでなく、制御できるようにチューナーのようなツマミが必要になるかもしれません。また、人が自分の感覚を拡張したと感じられるように、操作可能性や応答性が重要になります。人馬一体という言葉がありますが、そのように人がAIシステムを自由自在に扱うことができるようになることが必要となるでしょう。
非常に同感.
自作AIでは,wsw,eswがチューナーに該当するか.

Preferrd networkの方の記事には毎度とても共感する.
Preferrd network research
https://research.preferred.jp/

*Kaleidoscope: An Efficient, Learnable Representation For All Structured Linear Maps
Anonymous
26 Sep 2019 (modified: 26 Sep 2019)ICLR 2020 Conference
https://openreview.net/forum?id=BkgrBgSYDS

*François Chollet(201911)
The Measure of Intelligence
https://arxiv.org/abs/1911.01547
知性の尺度.
「過去100年にわたり、心理学とAIの両方の分野で、知能を定義および測定する試みが豊富にありました。これらの定義と評価アプローチを要約し、批判的に評価すると同時に、暗黙のうちにそれらを導いた知性の2つの歴史的概念を明らかにします。
現在のAIコミュニティは、ボードゲームやビデオゲームなどの特定のタスクでAIと人間が示すスキルを比較することで、依然としてベンチマークインテリジェンスに引き寄せられています。スキルは事前の知識と経験によって大きく調整されているため、特定のタスクでスキルを測定するだけでは、インテリジェンスを測定できないと主張します。それはシステム自身の一般化力を隠します。」
新しいAI評価データセット「Abstraction and Reasoning Corpus」をリリース
"We then articulate a new formal definition of intelligence based on Algorithmic Information Theory, describing intelligence as skill-acquisition efficiency and highlighting the concepts of scope, generalization difficulty, priors, and experience. "
共感するところ.
スキル獲得効率.概念,一般化の難しさ等に注視.
少数教師可能とできており?価値観という概念を持つ今のモデルは,この知性の尺度からみるとどのように見えるのだろうか.一般化が難しいかと言われるとかなり大きな?がつきそうではある.

*Slides from the tutorial on "Semantic Specialization of Distributional Representations Models"
EMNLP2019-Spec-Tutorial
docs.google.com
https://t.co/Gme7l6sYcH?amp=1
目的特化分散表現チューニング手法網羅.

*Motoki Sato(201908)
ACL 2019 参加レポート
セグメンテーションとの同時学習
https://research.preferred.jp/2019/08/acl2019-report/
BERT名詞限定,w2v-mp未知語処理,解像度変更による文の同質化,文法構造の捉え方,に関わる.
なるほど,文法構造構造に真があるとするなら,分かち書きはセグメンテーションという表現となるか.自分は文法構造は母集団の分野に対し可変と考えたため,クラスタリングとしている.
様々な分かち書き・形態素分析について.これらは答えが収束するものではなく,目的に対し最適な選択があるものと考えている.フレームで類型化できるだろうか.自分は,基本的には,恣意的なものを嫌うためセグメンテーションよりクラスタリングを選択しやすいのだが,ある程度の指標は,独り歩きしない程度に,あったほうが良いだろう.
解像度変換について.自分の目的においては解像度変換が肝となる.ヒントはないか.様々な分かち書きによる汎化はちと違う.これを分布で扱い,センテンスごとに分かち書きを変化させてもよいが,文字単位まで一般化しても上位概念にはたどり着かない.教師ありtransformer,半教師ありのautoencoder,ルールのオントロジー,以外の答えがないものか.Span BERT(範囲マスク)が興味深い.

*Markov LogicのOSS実装であるAlchemy
http://alchemy.cs.washington.edu/

*コンセプトドリフト.個性多様性評価には関係がないな.

*Large-Scale Few-Shot Learning: Knowledge Transfer With Class Hierarchy
https://www.slideshare.net/mobile/DeepLearningJP2016/dllargescale-fewshot-learning-knowledge-transfer-with-class-hierarchy
転移,少数教師.クラスタリングで階層構造を作っておく.転移元と少数教師で共通するスーパークラスタを抽出する.階層数が重要.
考え方は近いか.転移・少数教師学習はもう「創造とは何か」に踏み込んでいるようなものなので手段も似てくるか.
「適切なソースクラスを選ぶ」ことが研究テーマとのこと.大変興味がある.注目しておこう.
大熊拓海 東京大学 情報理工学系研究科 創造情報学専攻 中山研究室 M1  専門はfew-shot learning関連 現在の研究テーマはfew-shot learningにおける適切なトレーニングデータ選択 について

*2019年大学入試センター試験英語筆記科目においてAIが185点を獲得!
https://www.ntt.co.jp/news2019/1911/191118a.html#a1
実装と性能の現状を把握するに良い記事か.
XLnetと転移学習、少数教師への対応手法.
不要文を含まない通常の文章から文の順序を組み換えて擬似的に不自然な流れの文章を作成する手法.
各段落と選択肢の類似度を計算し最適な段落・選択肢の組み合わせを導く手法.
深層学習ではなくあえて発音辞書を地道に調べる方法を適用し表記ゆれを抑える工夫や問題解析器の精度を高めた.
王道を誠実に実施,といった印象.王道で性能が出るというのはそれが実用に使いやすいということ.すごいことだ.

*特集タイトル:圏論は認知科学に貢献できるか
掲載予定巻号:第28巻1号(2021年3月発行)
上記クラスタリングや「与えられたテキスト群においては,分散表現から逆抽出された構造こそが正しい文法構造である」の考え方は,圏論に通じるのであろうか.逆のようなそうでもないような.

*Neural Magic Neural Magic Inference Engine
https://neuralmagic.com/
CNNをGPU無しでも.このような技術なら購入してでも採用したい.

*IBIS2019
カプセルネットワークについて最新。
クラスタの特徴をカプセルに押し込める、位置普遍性を弱め相対位置を保持するCNN改良。
この説明の限りでは不要な相対位置保持があるのでそのままでは使えないか。
2017頃話題に?。最近内部クラスタリングが目立つのはこれの影響なのだろうか。
(2018年に画像分野でDeepClusterという手法の提示があったらしい。CNN畳み込み後隠れ層でクラスタリングを行い疑似ラベルをつける手法?。これは教師なしにおいて、クラスタリングにより性能が上がった例。)

*IBIS2019 RL
フィードバック設計時参照
Data-Efficient Reinforcement Learning of Mechanical Control Systems
Marc Deisenroth(Imperial College London)
最初に?受けた英語の講義はロンドン大学のコモンローの講義だったな懐かしい。アメリカ英語に対するイギリス英語の聞きやすさに衝撃を受けたことを思い出しつつ聴講した。

*シミュレーションでX,Yを求めておいて、統計やルールべースにおいてxとしたときのyとYとの適合を調べ、統計やパラメータの最適値を予測し,シミュレーションの代わりにそれらを用いることで学習時間や根拠推定をする手法?
これは統計やルールベースの連続的な適用範囲を不連続にぶった切っていると考えてよいのかな?.新たに必要となった適用範囲にはどう対応するのだろうその場合は信用するのかするとその範囲は補正されているかどうか見えるようにしておくことが必要かな。

*エキスパートシステムにつき、データ構成を再検討すること。

*IBIS2019 2日目企画講演
原子一つ一つとそのその周辺情報をそれぞれ入力とし,それぞれ独立のNN(一部共有)で処理し,最後にGCNでまとめると.自分も適切と思った構造。概念形成の方向性は正しいようだ。

*モデルの個性とは,複雑性誤差上のモデル部分集合のと表現できる?

*多量の教師データ→不連続含む範囲→不連続面などで切られるようなドメイン群と、それぞれのドメインに対応した関数群。
ドメインの区切りが適切に学習できているのか?→少なくとも、あるヒトの認知に適合した最適なドメインとなるような都合の良さはない。
あるヒトの認知に適合したドメインとなって欲しい場合であり、必要十分な多量のデータがない場合には、ドメインは学習データ以外から求めるべき? →ドメイン群から、あるヒトの認知に適合した特定のドメインを抽出、またはドメインの区切りを変更(教師なしクラスタリング、オントロジーなど)→そのドメインに特化教師データを用いそのドメインに特化した関数を学習=適切な学習結果となりやすい
=タスクが簡単に
あるヒトの認知をもとにしたドメイン限定における、ドメイン抽出・作成、ドメイン特化した教師データの必要性
=ヒトによる教師が重要。ヒトの質が重要。
*ヒトの質を不要とできるのか? →一度形成でき、適切なフィードバック系があり、それにより仮説から演繹をつくりあげられる構造を作り上げているのであれば、簡単としたタスクの範囲内であれば可能。と今のところ考えている。
*このあたりの考え方はニッチにも通じる.マーケティングにも使えるのではないかな.

*汎化レベル
1 教師データと同じ
2 教師データ語彙と同じ(最大適用範囲枠内)
3 教師データ語彙から外れる(最大適用範囲枠外)
1,2は学習により得られる帰納的バイアスの範囲内。3は学習からは得られないメタバイアス. 
 
*研究組織における多様性を考える
https://www.jstage.jst.go.jp/article/molsci/2/1/2_1_A0017/_pdf/-char/ja
「James Surowiecki「The wisdom of crowds(群集の知恵)」
この集団知性を 成功に導くためにはどうすればいいのだろうか。
・人的構成や思考の「多様性(diversity)」,
・意見導出の「独立性(independence)」,
・個別能力や情報の「分散化(decentralization)と統合(aggregation)」
私は,研究組織においても同様の 観点から成功条件を取り扱うことができると思っており,
さらに,これらの三つの条件に,
「正当な評価(evaluation) と報奨(reward)」を,
研究者組織を成功裏に運営するため の四つ目の条件として加えたい。」
「「多様性の画一化」を警戒しなければいけない」
安易なConcatは,これを導いている気がするよ.
 

D. モデルに創造性をもたせることはできるのか.

*創造性の定義を,とりあえず,「教えていない範囲で新規性のあるものを最低限の実現可能性を持って提示すること」、としておく.

(創造性の定義は,標準的には,「新しくて有益な何かを生み出す能力やプロセス」.創造的な人工知能の定義は,「客観的な観察者に創造的だと感じさせる振る舞いをするシステム」,らしい.本件においては,有益となるかどうかは創造的な特許を検索者が理解できるかという,「検索者の認知に依存」してしまうので,なんとも・・・.創造的と感じさせる,もなんとも.創造的となったと言うためには,検索者のインサイトを刺激する+αが更に必要,と考えるべきか,上位に配置したならそれだけで有益性として十分,とすべきか.w2v-mpが重視した,というタグを付けるだけでも良いかもしれない.その場合は,かもしれないとの期待を維持するために,ある程度以上の割合で実際に創造しえる結果が得られる必要がありそうか.となると有益性を実現可能性(実現可能に「見える」場合,やってみようと高く喚起させられうるだろう)に置き換えてもやはり良いかもしれない.)
*創造性を生み出すには?。従来の組み合わせ変更という硬い方法もあるが,自分は忘れること,間違えることだと思う.100を学び80を理解し20を間違える.この20から創造性は生み出されるのではないか.

  • 創造性の発露と呼びたい例はいくらか見つかっているが,その量は少ない.未だ検討中.

・本検討において多様性を評価する目的は,最終スコアを高めるためというよりは(それもあるが),「創造性を持つ個性を切り捨てず救い上げる」ためである.
前者を優先していたが,そろそろ後者も検討してよいだろう.
*創造性のかけらもないAIを,個人用アシスタントAIとして充分だ,と評価したくない(え前と違う→いや欲が出た).個人用アシスタントAIには,この特許にはいらすとやのイラストが記載してありましたこんなの好きでしょう,と指摘してくるぐらいの柔軟性がほしい(いやここまではいらない.この原薬は錠剤で使われていますが点眼に切り替え可能ではないでしょうか点眼系の特許があったら重視しますね,この添加剤は現在話題の添加剤で従来のこれと置き換え可能ですから並行して探しておきますね,程度の柔軟性が欲しい.)

*よい 敵にあわせて下さい
https://www.jstage.jst.go.jp/article/jkg/69/4/69_155/_pdf/-char/ja
「私達は,レファレンスに人間が介在するということの意味を,もっと考えてみなければいけない。教員とのコンタクトも,何も複写依頼に限定する必要はないのである。日常会話においても,キャンパスの中で,あるいはどこかの道端で,先生,最近は何を,とか,どんなことをとか,今,なにか探し物はありませんか,とか尋ねられるといい。実際,喋ったほうは喋ったことを忘れていて,時間をおいて文献を送ったら,何でお前,おれのほしがっているものを知ってるんだ,と言われたこともある。以降常連客となった彼は,大学教員,かつ大学の要職者。先生方というのは,役職につくと,専門外のことを人前でしゃべらなければならなくなる。講演とか,式辞とか。これが狙い目。先生方のニーズには,専門外のこと,周辺領域のことを知りたい,確認したい,というニーズもかなりあるのである。」
ニーズに基づく創造.SDIにおける創造性の必要性.

*創造的AI研究 静岡大学須藤明人研究室
http://sudo.inf.shizuoka.ac.jp/
非常に面白い.研究成果など確認しておかねば.社会人学生募集していたりしないかな.
聞いた限り、未来予測AIとしてのw2v-mpモデルがあるべき理想,持つべき構造,に近い.
創造に関わる構造の一部が提示された.SNS抽出共起テキスト群とwiki抽出分散表現知識グラフから得られる既知組み合わせ構造を学習する創造をもたらすこの研究室の手法は,valuenexの言う?「重要領域間の空の領域が重要」という概念に近いかもしれず?,下記に書いた?空ベクトルに近いかもしれない.w2v-mpモデルが予測的・創造的(特許の未来予測とは創造のことだ)に動いている(ように見え・・・なくもない)理由がおぼろげながら見えてきた気がする.w2v-mpモデルにおける歪め統合やここに記載していないベクトル処理が肝だったと言えるかもしれない.そうなるだろうと予想し作っておきながらなぜそうなったのか解析的に理解することができない状態から,ある程度開放されるか

意味空間上の演算は実世界における計算論的創造性に不可欠か?機械学習によるコンセプト創出手法の検討(2016)
https://www.jcss.gr.jp/meetings/jcss2016/proceedings/pdf/JCSS2016_OS05-6.pdf
「創造的な人工知能」の活用はイノベーションに直結するか? 組織内のアイデア創造プロセスを明らかにする社会シミュレーション・アプローチ(2017-2018)
https://www.taf.or.jp/files/items/1076/File/%E9%A0%88%E8%97%A4%E6%98%8E%E4%BA%BA.pdf

・w2v-mpの創造性について
気になる特許がある.
トラネキサムという単語を含むある特許だ.
1 w2v-mpのみ,この特許に高いスコアをつけた.再現もある.個性らしい.
2 w2v-mpのSHAP value highlightにおいて,「トラネキサム」がハイライトされた.w2v-mpは何らかの理由でトラネキサムに注目した.
3 教師データに,トラネキサムという単語は,含まれていない.
W2v-mpがトラネキサムに注目した理由は,教師データに含まれていたから,ではない.他に理由がある.
4 w2v-mpのpre-domain語彙に,トラネキサムという単語は,含まれている.
(keb-mpのdomain語彙にも含まれている.)
5 w2v-mpのpre-domainにおいて,トラネキサムとのcos類似度が0.84~0.87となるいくらかの単語,マレイン,グルコンは,教師データに含まれている.
6 w2v-mpが作り上げる構造からすると,トラネキサムと上記単語は,計算上同値とな*,「歪め統合」されているといえる.
結果 w2v-mpは教師データにあるマレインまたはグルコンの重要度に基づき,pre-domainから共起されるトラネキサムも重視し*,といえる.
(比較として,domain語彙上同じことをなし得たkeb-mpを示す)
ここまでは良い.

疑問 では,これは創造性の発露と言えるだろうか.
7 w2v-mpのpre-domainは,能動的な教師による学習から形成された知識構造とは異なる自発的な学習から形成された知識構造と例えることができ,ニーズの記載のあるコーパスより成り立っている.実際のコーパスを確認するに,トラネキサムとグルコン,マレインは,〜のような関係性である.
8 よって,「ニーズを考慮した歪め統合」となっていたといえ*,それにより見つかったこの特許は,「w2v-mpモデルがニーズを発掘し新たな課題を見つけるという能力を発揮した結果見つかった特許である」といえ*.ニーズを考慮したことにより,「未来予測型のAI」として働いたといえ*.
9 最後に,創造性の定義に適合するかどうかを確認する.その特許は,新規性,そして有益性,喚起性,実現可能性のいずれかがあるといえるだろうか.この場合の新規性とは,検索者が知らなかったという意味の新規性で十分だろう.これは問題ない.次に有益性,喚起性,実現可能性だが,特許の構成要素を置き換える範囲においては,まず実現可能性はあると言える.本件では構成要素となる単語の置き換えが起きているので,実現可能性があるといえる.新規性と実現可能性の提示で創造性が示されたと言えるとなれば,創造性の発露があったといえるだろう.ただし,検索者がそれを創造性と信用できなければ,創造性の発露は否定されうるだろう.信用には有益性が必要と思われる.そして信用に寄与する有益性は,有益であったと確認できる事後にしか得られない.とするならば**
~(確認中.創造性を示したと言ってよい,となるとよいのだが.

(トラネキサムとグルコン,マレインは,既存の文脈上同じ使われ方がなされるとは言いがたいだろうが,酸が付与されうる単語であるという代替可能性がある(周辺の単語を考慮する構造としていることで,最低限の実現可能性が担保できている,と言っても良いかもしれない)(解像度変換できないままでは代替候補の見落としは多くなりそうだが見落としがあっても創造性が低減するだけで大きな問題ではないか).この非文脈性と代替可能性は,創造性の種となる大きな因子だと考えている.非文脈性が過剰となればただのノイズとなるが,pre-domainがニーズベースの構造体となっているならば,ノイズではなく創造性と言えるようになるだろう.pre-domainの検討か.先が長い…)(valurnexの言うホワイトスペースにあるものを抜き出した,という評価でも良いかもしれない.手段として可能ではあるが,母集団の選び方が難しいな結論ありきでそのようにもできなくもないし.)
(web検索したところ,トラネキサムとグルコンは,化粧水の文脈では同時に現れるようだ.この特許は,ヒアルロン酸とトラネキサム酸の特許なので,見る人が見たなら,インサイトが得られたのかもしれない.AIが創造的でも,扱う側が創造的でないなら….いやまあ点眼分野専用にpre-domainを作ろうとしているので化粧水の提案をされても…いや待てよ.ああ,ロート製薬の特許でロート製薬の化粧水か…点眼と混ざっても仕方ないか…同一技術分野と捉え直すことも可能ではあるな….同一製品を保護する2つの特許,ヒアルロン酸&トラネキサム酸とヒアルロン酸&グルコン酸とを,教師のないまま同価値に調べた,と捉えるなら….いや後付にすぎるな.やはりコーパスを確認しなければ.)(ロート製薬が全株式取得.技術の相補性?はvaluenexのtech radarが示した通りだが,この予測データ,pre-domainのコーパスに入れていたっけか…流石に関係ないよね.)
(機能語の歪め統合も起きるわけだが,これはどう理解すべきだろうか.)(AとBを変換するにそれが創造的変換と言えるには,一般的な共通要素に基づく置き換えでなく,特殊な共通要素に基づく置き換えとなるべきだろう.コーパスのバイアスの強さとその少なさを特殊な共通要素を生み出すための手段としているが、その特殊な共通要素はどうしても少量になる.より多量の特殊な共通要素を利用するための手法として,静岡大学須藤明人研究室に興味がある.創造性の量とノイズの量双方考慮しないといけないが….他に,解像度可変とすれば現状のままでもより多くの特殊な共通要素を使用できるようになるとも思われる.windowの範囲は固定しつつ、window内の形態素をランダムでドロップさせれば解像度可変になるといえばなるが…うーん、)(ルールベースの創造性で補正するか…いや喧嘩しそうだが)

*単語ベクトルの類似性から別単語を取り出すのは語彙限界があり難しいな。単語生成が必要となるだろう。VAEのような手法で「単語を生成」できるだろうか.離散という意味では同じだが,語彙は化合物のように有限でないため,…無理やり漢字のような表意文字を持ってこれば可能か?

*クラスタリングは、正しくないからこそそこに創造性が生まれるという意味でも、基本的に良い手法ではないかな。セグメンテーションは逆。

* 渡辺星(静岡大学),藤原直哉(東北大学),須藤明人(静岡大学)(201911)
「Word Embeddingsを用いた斬新さと手堅さを兼ね備えた経済学における研究テーマの自動生成」
第17回情報学ワークショップ Workshop on Informatics 2019
https://sites.google.com/view/winf2019/awards
ああ参加すりゃよかった.WiNFか覚えとこう.諸事情により今はこちらから動き難いから声かけられないな・・・

*すでに存在するものから何かを生み出す創造性として,知財でよく使われる手法は次の通り.これを組み込むだけで良いかもしれない.(まあいわゆるデザイン手法なわけだが)
1ある用途に用いられる解決手段から検索(もの要素A用途B→もの要素A検索) ☑
2検索された解決手段の課題をマイニングで抽出(もの要素A検索→課題C発見)☑,課題の上位概念化(課題C→課題CC)…
3抽出された課題から検索(課題CC検索),その課題を問題とする用途をテキストマイニングで上位から抽出(用途D)
4用途ごとに手段の適用可能性を検討(用途D―もの要素A相関→実現可能性)…

5用途と手段の組み合わせ検索から実用性を確認(用途D―もの要素A検索→市場性)…

*阿部 慶賀(2019)
創造性はどこからくるか: 潜在処理,外的資源,身体性から考える (越境する認知科学)
共立出版
https://www.kyoritsu-pub.co.jp/bookdetail/9784320094628
「「創造性」というと,優れた人間が発揮する才能と思われがちだ。しかし近年の認知科学研究は,創造性は個人の才能ではなく,他者との協同や外化など,偏在する外部資源との相互作用なくしては成り立たないことを明らかにしてきた。一方,創造的思考を支える心的メカニズムの研究からは,アイデアの「生みの苦しみ」は単なる停滞ではないことや潜在的に洞察の準備が進んでいることも明らかにしつつある。
 こうした知見を背景に,創造性はそれに特化したメカニズムや処理機構を前提としなくとも説明できる,ということが研究者間で合意を得つつある。」

展望:

当初のモチベーションは,市販AIの性能が今ひとつであったためそれを補完できるAIを作ること,ついで「個人用アシスタントAI」を作ること,「未来予測型の提示をするAI」を作ること,だ.
個性把握の先に,それらがある,それらとなっていることが確認できる,と思っている.

VALUENEXデータやいわゆるIPランドスケープから得られる「予測型のコーパスやSNSなどニーズ記載のあるコーパス」を用い,「「類義・関連語」がそれぞれのコーパスが示す価値観に基づき「歪め統合」されるよう」,言い換えればAIが認識するパターンをより適切になるように歪めそして統合されるよう,それぞれの分散表現を作り(述べていないが,作っている.),作られたそれぞれの「価値観(概念・意味記憶・感受性・個人の世界モデル)」に基づく「個性」を適切に評価すれば(できれば),教えていない正答を見出すAI,未来予測型AIは実現可能なはずだ.

無題.png

イメージとしては,
SNSに「X製品のAはZだ」
=> その価値観に基づく分散表現
=> X製品またはAで調査したときより上位に
<= 多様性評価しつつ補正(偏った価値観は正解の元でもあるがノイズの元でもあるから)

*教師データは過去から得られまたそうでないといけない.教師データのみから学習したモデルは未来の特許に食いつくとは限らない.7そこで,「教師データより一般的な情報から概念を学ぶモデル」が必要となる.「教師データより一般的な情報から概念を学ぶモデル」の精度再現率は低下しやすい.このモデルを活かすために,多様性を用いて他のモデルがフォローする体制を作っている.

*「個性・価値観をもつ分散表現・モデル」と,「多様性評価」という2つのポイントが混在しており,ポイントがつかみにくい文章となっている点は認める.しかし,結果を得るためにはその2つは双方必要であり切り離せない.個性がなければ多様性など発生しないし,多様性がなければ評価する意味もない(確率的多様性を評価するなら平均で十分).どこかでまとめ直す予定.
*比較的長距離の記憶をもたせる試みがなされてきているが,自分は入力した文章全体を記憶しても足りないと思っている.自然言語において最も必要な長距離記憶とは,入力した文章全体を超えた記憶,低バイアスの「辞書」または高バイアスの「価値観(概念・意味記憶・感受性)」,へのアノテーションではないかと.このうち「辞書」に注目したものがBERTだと思っている.自分は「価値観」に注目している.(辞書に該当するものは他にベイジアンネットワークやオントロジー,知識グラフなどか.)
言語とはそも意味以上の情報を「失っている表現方法」なのだから,そこに価値観を「加えて」「意味を情報に再変換」する必要がある,と言っても良い.そう考えると,価値観は画像イメージや発意者の脳波,表情,イントネーションや書誌的立場でも良いな.(複数にソースを学習に利用することをマルチモーダル学習と呼ぶらしい.主体の概念はあるのだろうか.)
西田京介(201911)
事前学習言語モデルを用いたVision & Languageの動向 / A Survey of Pre-trained Language Models for Vision & Language
https://speakerdeck.com/kyoun/a-survey-of-pre-trained-language-models-for-vision-and-language/
VisualBERT等々)
(今のところ価値観をニーズ等からのバイアスに求めているが,特許の技術的範囲という価値観が必要なら明細からのバイアスに求めるほうが良いだろうとも思っている.)(テキストは知識表現,フルテキストは概念表現.に近いか.要約請求項は知識表現,明細は請求の範囲理解のための概念表現,価値観・個性に課題を加えたものは認知を元にした検索のための概念表現,に該当と言えばまとまりそうだ。)(概念をルールベースで作ってしまうと個性が固定され多様性が減少する(やるやらないの差はあるが,それは永遠に維持できるものではない).事業で重要な差異化の参考とする概念づくりであれば,)
*動的フィードバックがあると良い.フィードバックにより変化させるべき対象は,自然言語では教師データでなく,概念だろう.どこかでpretrained word2vecモデルの動的変更システムを組み込むこととしたい.()

*画像分野であれば,個性を考慮する必要などなく,TensorFlow Hubなどから汎用の事前学習モデルを流用してきてもほぼ問題はないのだろう.誰が観るかによってゴリラがサルになったりはしない.しかし自然言語分野では,受け手が持つ概念により理解が大きく異なりえる.ゴリラとの記載からゴリラでなく特定の人と認識する人もいる.ハゲとの記載から京都御髪神社の小学生の絵馬,お父さんのようにハゲませんように,を認識する人もいる(おい)(個人的には,画像では価値観でなく常識,錯視,特にヒトなら後天的に学ぶ「平面から立体を予測する機能」の付加,がまだ足りないとは思っている.これをベースとして転移学習すればより性能は高くなるのでがないかな.すでになされているだろうけれど.(2018年にGQNあり.GQNはword2vecなどテキストの分散表現の影響を受けた,立体概念ベクトル,注目を戻すという点でBERTの画像版,といった印象.とりあえず動画と解説 https://youtu.be/RBJFngN33Qo
https://www.slideshare.net/mobile/MasayaKaneko/neural-scene-representation-and-rendering-33d
世界モデルなど認知的観点との関わり?.画像の場合は視点はどれでも平等で連続なので積和で良く視点のパラメータ化が可能なのだろう.自然言語の場合は概念のパラメータ化に相当するだろうがどうだろうか.自然言語では概念が平等でも連続でもないので少なくとも積和では足りないだろうか.)(Google AI Blog: Moving Camera, Moving People: A Deep Learning Approach to Depth Prediction
https://ai.googleblog.com/2019/05/moving-camera-moving-people-deep.html
運動視差の利用.差のみに注目するなら可能性はあるか.枠のあるベクトル内の差というくびきから逃れた差を求めるアルゴリズムであれば自然言語における概念を表現できるか.))(単語を認識する脳の領域と立体視を行う脳の領域は比較的近い。もしかしたら、単語の分散表現ベクトルとその座標表現は、予想以上に本質的なのかもしれない。)

*自然言語系の機械学習において学習データの問題は汎化とまとめられていることが多い気がするが、
個人的には、一般的な構造と個別構造を同時に備える教師データが必要だという点を問題視し、より多くの議論をするべきだと思う。
個人的には、この2つは全く別に学習させる必要があると思う。
この2つを分けないことで,あえてタスクを難しくしている気がする.
難しいタスクを難しいまま処理することは理学的で意味はあるが,簡単なタスクにできるよう考えることがは,実用面に向かうべき現状において最も重要になるのではないだろうか.

*マルチタスク学習と多様性評価
複数のドメインに基づき訓練するところまでは共通するが,マルチタスク学習は全タスクでの平均的な性能を最適化する転移学習を用いた「汎化手法」であるのに対し,多様性評価手法はタスク間の平均でないデータの個性をモデルの個性に基づき抽出する「専門化手法」である点が異なる.

*意味論でなく語用論に焦点を当てている,といえばよいのか?

コード:

求めに応じ,コードを整理した後公開予定.(記載しない2,3の工夫がさらにあるだけだが.)
code
個人的には,オープンベースとなっているAI技術の利用に費用がかかリすぎる現状が気に入らない.費用がかかる根本的な理由はクラウドの使用だと考えているが,ベンダーはクラウド前提から離れようとしない.
mail2mailの非クラウド形式(エッジAIとは違うか?)に整え,知り合いの個人や中小企業からノウハウ含め提供しようかと考えている.
安価なハード,Raspberry Pi,coral,Jetson Nanoなどで動く範囲にしたい.Docker imageを利用した配布が最も容易だろうか.
=> docker image作成.x86用とarm64用.git準備.
=> raspberry piでBERTを動かせないか試行中…メモリが少なすぎ無理そうだが.あと9GBほど.zramでも限界が.
*Raspberry Pi4 4GB & ALBERTならば,なんとかなるであろうか?.

以上.
 

追記

*BERT:

図BERT1.png

●multilingual model fine-tuning BERT試行.
・正解候補に全問正答.しかし不正解候補については明確に間違えている部分も.(過学習しているだけかも.しかしここに用いた条件がval acc0.9を充足し始める条件であり,明確な過学習によりval accが低下する条件はより厳しい条件なので,当面そのままとする.)
・様々な制限により他モデルと同一の入力としていないが,標準のmultilingual modelからのfine tuningでは,recallが高いという個性が得られそうか.他のモデルを補いそうだ.
・結果はほぼ1,0.
code

*BERTの個性はSHAPではわからない.attentionから予想した次の記事を参考にしよう.
・Deconstructing BERT: Distilling 6 Patterns from 100 Million Parameters
https://towardsdatascience.com/deconstructing-bert-distilling-6-patterns-from-100-million-parameters-b49113672f77
https://towardsdatascience.com/deconstructing-bert-part-2-visualizing-the-inner-workings-of-attention-60a16d86b5c1
・BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model 
https://arxiv.org/abs/1902.04094
マルコフ確率場言語モデル.フルコネクトかつattentionでwindow抽出した独立単語群と理解して良い?.ならattentionの精度が性能に直結か?.attentionには改良の余地がありそうだからまだ性能向上する?.近傍単語を重要視しているのは純粋に学習によるものであって,CNNのような強制的な構造化によるものではない?.てことは相補的になり得る?
・汎用言語表現モデルBERTの内部動作を解明してみる 
https://qiita.com/Kosuke-Szk/items/d49e2127bf95a1a8e19f

f.png

●multilingual model fine-tuning BERTを市販AIの代替とし,多様性評価手法総合判定試行.
・評価データにおいて(正解に配置すべきであった3,4(図の4,5)を除く条件で),市販AIより明確に,「上位すべてが正解候補となる理想状態」となった.(市販AIとの比較を出すべきだろうが,評価データ不足の現状では差が適切に示されず強調され過ぎと思われたため当面示さず.).
・各モデルは40問中3問は正答しない.multilingual model fine-tuning BERTでも2問正答していない.その条件下,多様性評価手法を用い総合判定させることにより,正答しない問は0となった.つまり,多様性評価手法は,現状の簡易方法でも,(使用した条件の)BERTより優れた結果を出すことができている.市販AIに多様性評価手法を適用したときと同じように.

・この評価データセットではこれ以上の評価はできない.そろそろデータも蓄積されてきた.教師データの再検討と,評価データセットの作り直しをするべきか.(モデルの個性という偏った課題であるため,標準データセットが用意しがたいのが悩みどころ.)(AIの補完をヒトで行っているわけだが,現状,実データで見落とし等の問題が見られていない.)

*予想よりは,処理速度は速くメモリ負荷も軽かった.BERT実装しておこう.何でも食って性能向上できうるってのはこの個性,多様性評価手q法の良いとこだ.

●実データで,multilingual model fine-tuning BERT試行.
・eval_accuracy = 0.9.しかし評価ほぼ1のFPが目立つ.意外と単語レベルでは簡単な問題でFNも.

・文字ベース512制限では情報量が少なすぎるのか,標準モデルは特許情報を全く食っていないこともあり学習済みの文脈情報とずれすぎているのか,判定器のコード修正が必要なのか・・・.改良必要だ・・・(個人的には,文法構造自体にはある程度の理論的必然性があり,それを壊しすぎると限界があるのでは,と思っている.サブワードはOOVを無くすという当面の課題の解決には良いのだが,やりすぎてもいけないのでは.)(日本語は主体も語順も助詞も多様なので,文法構造を壊してもそれほど大きな問題とはならないとも思うが.)(どの言語でも文法とは結果として見られる傾向であって従うべき理論に昇華されてはいないという意見もある.)

●評価データで,黒川河原研BERT日本語Pretrainedモデルfine-tuning BERT試行.
・予想以上に[UNK]が多い,eval_accuracy = 0.675.

・文字ベースではFP多量かつ意味希薄化,単語ベースでは[UNK]多量かつ語彙限界.sentencepieceモデルは中間だろうか.BERTでは巨大なコーパスを食い文脈を徹底的に見分ける方向が本筋だと思うのだが,上記ほか様々な制限(たとえば入力の制限.入力自体が文脈を分けるほどの情報量を持つことができない?)があるため,hotlinkのように,分野別に学習したモデルを使うのが適切と言えるのかもしれない.しかし,BERTの学習は負荷が大きすぎる.実現可能性においては文字レベルに分があるが,有効性においては単語レベルに分があるだろう.どうするか・・・.結果に差がなかったため,直和直積concatの有効性は低いだろう.内容語に限定してみるか.(特許の名称要約請求項までであり辞書的なモデルに食わせることを条件とするならば,前述の理由に加え,体言止めが多いこと,日本語らしからず述語の重要性が低い?ことから,やはり機能語を除いても良いように思える.)

●実データで,multilingual model fine-tuning BERT(名詞限定)試行.
・eval_accuracy = 0.9.個別確認しかできていないが,市販AIが見逃す正解を掴んでいる.名詞限定により非限定よりもFPが減少した.

●評価データ,実データで,黒川河原研BERT日本語Pretrainedモデルfine-tuning BERT(名詞限定・tokenization.pyコメントアウトなし)試行.
・eval_accuracy = 0.9.1サンプルに1箇所ほど[UNK]あり.評価データから得られた波形はmultilingual modelと変わらず.個別確認しかできていないが,市販AIが見逃す正解を掴んでいる.黒川河原研モデルはmultilingual modelより多少,良いかもしれない.(数字を出してもよいのだが,評価データ不足のため正しい数字とならないだろう.過学習の再検討をした後数字を出す予定.とはいえ,過学習していても本手法ではあまり問題ではないのだがBERTを不当に貶める点以外は.)

*BERT Rediscovers the Classical NLP Pipeline
Ian Tenney, Dipanjan Das, Ellie Pavlick
(Submitted on 15 May 2019)
Pre-trained text encoders have rapidly advanced the state of the art on many NLP tasks. We focus on one such model, BERT, and aim to quantify where linguistic information is captured within the network. We find that the model represents the steps of the traditional NLP pipeline in an interpretable and localizable way, and that the regions responsible for each step appear in the expected sequence: POS tagging, parsing, NER, semantic roles, then coreference. Qualitative analysis reveals that the model can and often does adjust this pipeline dynamically, revising lower-level decisions on the basis of disambiguating information from higher-level representations.
https://arxiv.org/abs/1905.05950

*The Bottom-up Evolution of Representations in the Transformer: A Study with Machine Translation and Language Modeling Objectives
https://arxiv.org/abs/1909.01380
https://lena-voita.github.io/posts/emnlp19_evolution.html

 ・・・

*BERTは優秀な(有向性がないという意味で)辞書ではあるが,「それだけでは」現実的な発展性があると感じないな・・・(p26「情報検索の本質的目標は、単に意味を検索することではなく、それを超えた何か、すなわち情報を検索することだ」という視点において.)
*BERTは,意味論において邪魔な統制語彙を社会的認知観点に基づき避けるが,個人的認知的観点からの歪め統合をできていないはず.当面そのような個性と認識しておこう.
*試行した条件下のBERTでは,特徴抽出を自動に任せる手法よりも,特徴を任意に限定する手法のほうが適しているかもしれない.入力からのストップワード除去がクリティカルになる感覚がある.
(不要要素や同時出現要素の削減,入力値の次元圧縮,語順変更など興味深い.マルコフ確率場生成モデルという点が気になる.(語順をtfidf順に変更した場合,attentionは理解不能であった.とはいえ理解可能と言えうる箇所もあった.試す価値はあるか.BERTはその辞書的性質と入力制限から,トピックとの組み合わせにおいてより良い結果が得られそうに思える.該当トピックの文章で学習したBERTを用いるならトピックも不要かもしれないが,その場合でもトピックが動的な場合はなお課題が残っているだろう))
*厚生労働省第7回保健医療分野AI開発加速コンソーシアム資料 人工知能を用いた患者安全性向上のための事故報告からの知識抽出 https://www.mhlw.go.jp/content/10601000/000502269.pdf
文字レベルと単語レベルの直和.recallはこれで課題に対し十分なのだろうか.BERTの結果記載有り.ベースはこれ?.2016年のSoTA.
Neural Architectures for Named Entity Recognition https://arxiv.org/abs/1603.01360

*課題と教師とモデルを適切に調整すれば,少数教師は可能と思う.このまま少数教師で精度が出るようであれば,現在の教師群を雛形とした,1教師簡易無効資料調査機能を実装してみる予定.(文章レベルやセンテンスレベルにおけるベクトルの類似から無効資料調査や権利化可能性を探る手法が流行だが,今のところ,充分と言える成果を見ない.その理由は,文体や文法の多様さの影響をネガティブにも強く受け,距離が離れすぎてしまうことがあるからかもしれない.文法から離れ単語を重視しそうなBERTからセンテンスベクトルをとる手法は現在の手法より見込みがありそうに思える.諦め,雛形を用いると現実的な成果が出る感覚がある.)(とりあえず、文章上の解像度が異なる上位概念・下位概念を同一次元で表現する手法が最低限必要だと思う.word2vecとaveragepoolingを用いたマルチウインドウCNNで擬似的に解像度統一はできるかもしれない。いや、マルチウインドウより文章の解像度を判定しウインドウサイズを決定する手法のほうが良いか。ベクトルなら、分散表現を作成する際のコーパスで調整できるか?.特許ならコーパスに明細を含めるだけである程度の成果が得られそうな感もある.)

*Facebook FAIR's WMT19 News Translation Task Submission
https://arxiv.org/abs/1907.06616
Transformer,データクリーニング,アンサンブル,全結合層拡大など.人の翻訳を超える評価.BERT対応,方向性はあっているのかな

追記:
・概念を明確化するために多様性評価手法に名前つけとけば,とのこと.「タイス Thaïs」にしておく.

類似研究:

見つけ次第追記.
個人的には当たり前すぎるやり方だと思うのだが,意外と目につかない.(無効資料調査で1890年の文献まで遡ったことがある.異なる視点と用語が使われているだけで車輪の再発明だったってのはよくある話だ.)

*以下引用は当面のメモ.

Xiaochuang Han, Jacob Eisenstein.
Unsupervised Domain Adaptation of Contextualized Embeddings: A Case Study in Early Modern English.
arXiv: 1904.02817

Gözde Gül Şahin, Clara Vania, Ilia Kuznetsov, Iryna Gurevych
LINSPECTOR: Multilingual Probing Tasks for Word Representations
arXiv: 1903.09442

L. Elisa Celis, Vijay Keswani
Implicit Diversity in Image Summarization
arXiv: 1901.10265

Abdulaziz M. Alayba, Vasile Palade, Matthew England, Rahat Iqbal
A Combined CNN and LSTM Model for Arabic Sentiment Analysis
arXiv: 1807.02911

Alex Wang, Kyunghyu8n Cho
BERT has a Mouth, and It Must Speak:BERT as a Markov Random Field Language Model
arXiv: 1902.04094

佐藤 進也 (2018)
検索対象の多面的理解支援のためのWikipedia記事中の列挙を利用した関連情報発見
知能と情報, 30(6), 788-795
https://www.jstage.jst.go.jp/article/jsoft/30/6/30_788/_article/-char/ja/
「既知の主題内容の外枠にある新しい概念,概念関係の外枠を欲する」「検索対象の多面的理解を支援することを目的として,ユーザーが与えたクエリから関連情報を発見する方法」

P.インクベルセン (1995)
"情報検索研究一認知的アプローチ"
トッパン
「複数の異なった複雑なモデルを実際に組合せて,知識べ一スに基づいたコンピュータ仲介機構をも含む相互作用的情報検索システムを設計するための理論および枠組みを,打ち立てる」ことを目指した理論書」
https://www.jstage.jst.go.jp/article/jcul/47/0/47_387/_pdf/-char/ja
見つけた!?

Tatsunori B. Hashimoto, Hugh Zhang, Percy Liang (2019)
Unifying Human and Statistical Evaluation for Natural Language Generation
arXiv:1904.02792

Iyad Rahwan,et al. (2019)
Machine behaviour
Nature, 568, 477–486
「人工知能を搭載した機械は、社会的、文化的、経済的および政治的相互作用をますます仲介しています。人工知能システムの動作を理解することは、それらの行動を制御し、それらの利益を享受し、それらの害を最小限に抑えるための私たちの能力にとって不可欠です。ここで我々はこれがコンピュータサイエンスの規律を組み込んで拡張し、科学全体からの洞察を含む機械の挙動を研究するための幅広い科学的研究アジェンダを必要とすると主張する。最初にこの新興分野に欠かせない一連の質問を概説し、次に機械の挙動の研究に対する技術的、法的および制度的制約を探ります。」
「人々は何百年もブラックボックスを研究する科学的方法を発展させてきましたが、これらの方法はこれまで主に『生き物』に適用されてきました」と、マサチューセッツ工科大学(MIT)メディアラボの研究者であるニック・オブラドヴィッチ博士は述べる。オブラドヴィッチ博士は、4月24日付でネイチャー誌に発表された新しい論文の共同執筆者だ。「新たなブラックボックスであるAIシステムを研究するために、同様の多くのツールを活用できます」。
産業界と学術界の多様な研究者で構成する同論文の著者グループは、「マシン・ビヘイビア(機械行動:machine behavior)」と呼ばれる新しい学問領域をつくるべきだと提案している。動物や人間をこれまで研究してきたのと同じ方法、つまり、経験的観察と実験によってAIシステムを研究しようするアプローチだ。
https://www.media.mit.edu/publications/review-article-published-24-april-2019-machine-behaviour/
(参照 20190428)

Hiroshi Maruyama's Blog/ 丸山宏
高次元科学への誘い
https://japan.cnet.com/blog/maruyama/2019/05/01/entry_30022958/
(参照 20190502)
「複雑だけど構造を持つ、すなわち「非常に多くのパラメタがあるが、それぞれがお互いを束縛しながら動くことで出来るモデル(数学的には超多次元空間に埋め込まれた多様体で表現されるようなもの)」という考え方もあると思います。このような考え方が、生物学や社会学や、科学におけるその他の多くの「面白い問題」のモデル化に必要になってきている、という認識が私が「高次元科学」と呼ぶものの正体です。」

財津亘 (2019)
"犯罪捜査のためのテキストマイニング"
共立出版

世界の「謎」解くカギ、深層学習は「因果性」を発見できるか?
深層学習の人工知能(AI)は、多くのデータの中から関連性を発見することは得意だが、因果性を見い出すことはできない。5月上旬に米国で開催された「ICLR2019」で、著名なAI研究者が因果関係を分析する新しいフレームワークを提唱した。
by Karen Hao2019.05.17
https://www.google.com/amp/s/www.technologyreview.jp/s/141062/deep-learning-could-reveal-why-the-world-works-the-way-it-does/amp/
(参照20190521)

https://www.j-platpat.inpit.go.jp/c1800/PU/JP-2005-149346/CE289A6DE77122D5D62FE8DEDA91443D3EA60A470E7AB089A9BD7FC631FD6A01/11/ja

https://www.j-platpat.inpit.go.jp/c1800/PU/JP-3335602/3F3D3CFCD9F45334E7DCA49EECA99BF24EF82AB0F8AD0D32FE08562B3BF8D44D/15/ja

https://www.j-platpat.inpit.go.jp/c1800/PU/JP-5733166/4C554B33F2EF09A7DA8EE60587B6FB7EA215148319FA69C7DB30BB483AAEE17E/15/ja

https://www.j-platpat.inpit.go.jp/c1800/PU/JP-5816771/5BEC79FE295212AD15F9105907EFA8402491833A740103238E6751AE1F8F82A4/15/ja

石垣 司,他 (2011)
日常購買行動に関する大規模データの融合による顧客行動予測システム
人工知能学会, 26(6), 670-681
https://staff.aist.go.jp/takenaka-t/5075626C69636174696F6E_reD-B61takenaka.pdf
ベイジアンネットワーク

足立 康二,他 (2010)
ベイジアンネットワークによる複合機故障診断技術
富士ゼロックステクニカルレポート, 19, 78-87
https://www.fujixerox.co.jp/company/technical/tr/2010/t_01.html

Zhunchen LuoEmail authorJun ChenXiao Liu (2018)
Real-Time Scientific Impact Prediction in Twitter
CCF Conference on Big Data Big Data 2018: Big Data, 108-123

Lizhong Xiao ; Guangzhong Wang ; Yuan Liu (2018)
Patent Text Classification Based on Naive Bayesian Method
2018 11th International Symposium on Computational Intelligence and Design
(ISCID)
TF-IDFとナイーブベイズでacc93.9%.TF-IDFベースでそこまで?
ナイーブベイズでのモデル適用確率算定にも期待が持てる?

ワタシから始めるオープンイノベーション
価値共創タスクフォース報告書 (201906)
(知的財産戦略本部会合2019年6月21日 参考1書類)
https://www.kantei.go.jp/jp/singi/titeki2/190621/sankou.pdf
「脱平均」「融合」「尖った人材」.考え方は同じだが、尖った人材をどう活かすかについての記載はない。そこが要点だと思うのだが扱いきれるのかね。

Diversity in Machine Learning
https://arxiv.org/abs/1807.01477
https://arxiv.org/pdf/1807.01477v2.pdf

伊庭幸人,持橋大地ら(2018)
ベイズモデリングの世界 
岩波書店 p69−
https://sites.google.com/site/iwanamidatascience/BayesModeling

Aylin Caliskan1,, Joanna J. Bryson1,2,, Arvind Narayanan1,e al (2017)
Semantics derived automatically from language corpora contain human-like biases
Science Vol356, Issue6334, pp. 183-186
https://science.sciencemag.org/content/356/6334/183.full

*付録:

pythonで可能とできることが多く感動している.

特にpandasとjupyter notebookの便利さと言ったら.
ごく簡易に迅速に母集団を確認する際には,pythonで基礎集計部分を作っておいたnotebookに読み込ませpandasベースで確認したほうが,下手に使わない機能ばかり豊富な市販ツールやexcelより便利.

私は自動車ではロードスターを好むが,linuxやpythonはロードスターと,いらない機能は余裕なんかではないただの贅肉で思考や行動を限定させる足枷だ,という部分で共通している気がする.イノベーション「となっている」発明にも関わるこの考え方,とても好きだ.

Google「怠惰であることは美徳.シンプルに大事なとこを」

無題.png
code
簡易迅速確認ならワードクラウドを加えるのも良いか.
crow.png
code
5分でできるわけで.(ワードクラウドは,数式に色がついて見えたベーテの逸話や不思議の国のアリス症候群を想起させてくれるお気に入り.)
ついで,頻出語だけでは理解し難いのでtfidf上位語に限定したワードクラウドを・・・
会社名でもIPCでも審判情報でもなんでもソートできるが,例えば単語&ベクトルでソートしたところ,2015年に出願の山がみられた.2015年前後の特徴語はなんだろう.2015年以前が複数抽出装置,以後が単語文章学習方法装置.ルールベースから深層学習への切り替わりかな.Yoon Kimの自然言語CNNの文献が2014年の公開だが,このあたりの影響が大きいのであろうか(適当).当時のSNSのトレンドは・・・

独立した単語のみを見ていてもわからないから単語共起ネットワークも見るか・・・
IPCネットワークを図示させ分類上の共起性の変化からより詳しい動向を(分類共起についてはよりやりようがあるだろう.個人的には分類の正確性に疑問を持っている,というと怒られるが,分類の主観性が分野によっては邪魔をすると言うか・・・ので,後回しにしている.)・・・

net.png

ついで,tfidf上位語を前述のようにベクトル化し,plotlyを用い各特許の類否をインタラクティブに可視化し,トレンドやトピックをみるのも良いか

image.png

(tfidf上位語を用いる手法ではモデルの相違ならともかく特許間の類似を見ることは難しいが.)(と思っていたのだが,固有名詞が適度に削れ,絞り込みを前提とするなら悪くないかもしれぬ.母集団を変更すると特徴語が変わりその点がとても使いやすい(TFIDFは動的に,上位語母集団では上位語を特徴とし下位語母集団では下位語を特徴とする.インサイトを得つつ絞り込みをすると適切なものを得やすい.静的に目的物を抽出する教師ありとは異なる使いやすさがある.valuenexは本当に良い視点を持っていたのだのう).請求項とtfidfの相性も良い.)(とはいえ,少し固有名詞を救済するとより良いだろう.トピックごとの抽出や名称重視の抽出を行っても良いかもしれぬ.クラスタリング実装(こちらのクラスリングは,非特徴を削減すると言うよりも,余分な類似を統合し文章の意味を特定数に磨き上げていると言うと,イメージに近い.概算上,クラスタリング前は0.62単位,クラスタリング後は0.80単位,30%ほどの性能向上となる.)(あらたに検証データ460件を前向きに集めた.不正解候補なし,2分類.この検証データを本手法にかけロジスティック回帰をおこなったところ,accuracy0.9875となった.本手法は,不正解候補なしの2値分類ならば,この程度の性能も出る.そして不正解候補が混ざってもこの可視化の目的において問題とならない.十分だろう.しかしきれいに分かれるものだ・・・自分の主観的なラベルと文章ベクトルの傾向が見事に一致している(この手法については標準データセットを用い評価すべきだろう.適当なものを探す予定.).なお,下図左,ノイズ教師データあり,2分類,のように,ノイズ教師データ(この場合は不正解候補と言い換えても良い.以下まとめてノイズと表記する)(青点)の分類はできない.本手法においては,他と類似し難く一定の集団をとれないノイズは,このように全体に分散されてしまうのだろう(これは理論的な説明が可能だろう)(このノイズが全体に分散される点は,キーワードベースに重みで対応しているvaluenexでは起きないはず.自分はこうすることで例えば創造的なインサイトが増える(分構造の類似性のみの共通性からのインサイトも得られる)と思っているが,母集団のとり方によっては意味不明にも思えるだろう.).このノイズは教師ありでないと見分けることは難しいだろう(下図左は教師データ.つまり教師ありではこのノイズを見分けている・・・いや,教師データを見分けられるのは当たり前として個別に確認したことがなかった.どのように見分けているか確認しておくべきか).))(ベクトルの類似を示すに様々な手法があるが使えないものもある)(本記事内容を入力しG06Nの特許群においてベクトルの類似を見たところ,5798624が最近となり,富士通5733166モデル全体の合成,富士通2018170004患者行動予測,Preferred Networks 5816771学習装置ユニット内部状態共有接続システム(重要そうな特許だな)が近くに現れた.興味深い.)・・・
→tfidf/cluster vis: tfidf-word2vec-clustering visualization
https://qiita.com/kzuzuo/items/dcdf5550bcb024897de0

Mixout: Effective Regularization to Finetune Large-scale Pretrained Language Models
https://deepai.org/publication/mixout-effective-regularization-to-finetune-large-scale-pretrained-language-models
モデル間リーク.やはり重要だった.自分は中間部分でのリークに手を出す気はないcheck systemの設計が難しいから.

無題.png

最後に,気になった特許を教師とし自作AIにかけ,特許の類似度に基づく並び替えをするのもありだな.
(出願番号など検索用データをplotlyの範囲指定で得ても良いが,前記tfidfの手法では精度が不十分で教師として適切な特許のみを選択することが難しい.)(教師なしで作成されたベクトルから適切な並び替えができるほどの類似情報を得ることは,前述の通りまだ限界があると思っている(9割が限界か?).最後はやはりニューラルが適当かな.)・・・

など,自己の課題の求めるまま,最低限に便利にできる.

類似特許を近くに表示するだけなら難しくはない.表現をすべて吸収し漏れなくかつ特定の傾向を持たせようとすると難しいか.(後者2つは教師ありに任せれば良いことなので多様性評価の立場からするとどうでも良い.補えばよいだけ.)

circleanimationmuvie

自作AIにより得られた重要特許を教師なしの文章ベクトルとして可視化し,特定の母集団から得られた文章ベクトルと重ねて表示し,見落としのチェックをする,母集団変更の必要性をチェックする,などもありえる.
自作AIの3,ヒトの1,ベクトル可視化の1,計5つの個性を用い多様性評価をしたことになる.

また,類似する特許群が設定した正解特許の近くに図示されており,その内容がインタラクティブに確認できることにより,他分野からの流用・置き換え・別の効果の示唆など,豊富なインサイトも得られるようになっているとも言える.

twcv.png

(多様体仮説.トポロジー.ホモロジー.パーシステント図.)(教師なしベクトルによるインサイト・仮説づくり→教師あり自作AIによる予測→ベイズによる仮説に寄与するデータの確率化→・・・のループを作ることができれば,知財や研究における一通りが終了するのだろうか.(ほぼ完成))
最終的には,知識グラフを作っても良い.

Evaluation of a Visual Tool for Early Patent Infringement Detection During Design
https://link.springer.com/chapter/10.1007/978-3-030-24781-2_12

課題を最も理解している実務屋こそ,pythonを使った自作をすべきと感じる.自由度の高さは質にも影響するだろう.

幸い,自作のハードルは高くない.
 

*もちろん自作ではできない範囲はある.しかし,それができないとわかってからその機能を持つ製品を採用してもよいだろう.自作の過程で,何がどのような理由でできないのか,課題を理解したわけだから,より良い選択と採用が可能となっただろう.
*実務で使うとなると権利関係のクリアランスにそれはそれは苦労をするわけだが.
*深層学習の場合でも教師の質をより重く問わなければいけないと思う.
教師データの質ではなく,教える主体としての「教師」,つまりAIを現場で扱うヒト側の質だ.実務の上では,AIの優れている点を引き出せない教師とならないこと,ヒトがAIの足を引っ張らないこと,が重要となるのではないだろうか.
(何を教えるか,ではなく,不用意に削らないことのほうが重要に思う.)(ここで言う教師とは,自学できる年齢の生徒に対する教師ではなく,自学するにおぼつかない年齢の生徒に対する教師に相当する.生徒が本当に自学できるようになったのなら,教師の重要視は薄れる.自作AIはできるだけ早くそちらに持ってゆきたい.)
image003.jpg
http://publications.jrc.ec.europa.eu/repository/bitstream/JRC113826/ai-flagship-report-online.pdf

*失敗から学ぶ機械学習応用
https://www.slideshare.net/mobile/HiroyukiMasuda1/ss-181844477

Why do not you register as a user and use Qiita more conveniently?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away