More than 5 years have passed since last update.

非機械的データ分析入門

Last updated at 2018-07-15Posted at 2016-11-26

因果関係の哲学史

プラトン

要約：
現実世界の因果関係はネットワーク構造になっている。その中で、何が”原因となるノード"かは、ノードを認識したり、定義するヒトの主観に依る。そして、それはヒトが問題を解くために「何が最善か？」という価値観で決まる。

プラトンとは

プラトン（プラトーン、古代ギリシャ語: Πλάτων、Plátōn、羅: Plato、紀元前427年 - 紀元前347年）は、古代ギリシアの哲学者である。ソクラテスの弟子にして、アリストテレスの師に当たる。ディオゲネス・ラエルティオスによると、プラトンの本名はアリストクレスである。プラトンの思想は西洋哲学の主要な源流であり、哲学者ホワイトヘッドは「西洋哲学の歴史とはプラトンへの膨大な注釈である」という趣旨のことを述べた。『ソクラテスの弁明』や『国家』等の著作で知られる。現存する著作の大半は対話篇という形式を取っており、一部の例外を除けば、プラトンの師であるソクラテスを主要な語り手とする。(Wikipediaより引用)

プラトンへの批判

「超越的な実体」が存在するという理念、例えば「神の存在」への期待などは、ヨーロッパ思想における創始者がプラトンであり、またその完成者がヘーゲルだと見なされた。彼らに対する批判者たちによれば、プラトンとヘーゲルは、「真理」、「普遍的認識」、「絶対者」といった言葉で象徴される、ヨーロッパ的「知性」の最大の代表者であり、大勢としては、プラトンに対する積極的評価は高いとは言えない。
プラトンが批判される点。世界の「原因」や「原理」の探究を行っていたそれまでのギリシャ哲学の思考に、プラトンは、「魂」の原理をはじめて導き入れ、従来の自然認識の問題を、精神、魂、徳、真、善、美といった人間の生や価値の問題につなぎ、そのことではじめて人間の探究の学としての哲学（フィロソフィー）の基礎を敷いた哲学者とされている。このことから、プラトン的世界像は、近代の自然主義的、合理主義的な世界像とは真逆の世界像だといえる。
ハイデガーによれば、プラロンのイデア論こそ悪しき近代合理主義の元凶、とされている。
一方で、プラトンはヨーロッパにおける哲学という方法の本質的な意味での創始者だった。

考えるだけ無駄な問題

円を描くとその内部は「有限」な領域になるが、有限な内部の領域の中に、任意の「点」は無限に存在することができる。「有限＞無限」を矛盾だと認識する頭の中の「論理の秩序」は間違いである。
デカルトによる「神の存在証明」も、まさしくこの「概念のイメージ的実体化の錯誤」によって成り立っている詭弁である。
こうした「概念の実体化」の錯誤は、物語をやめて抽象概念の使用を原則とした哲学の思考にとって、本質的な陥穽となった。しかし、ホッブス、ヒューム、カント、ヘーゲル、ニーチェ、などはこの罠にほとんど落ち込んでおらず、現代哲学では、とくにフッサールとヴィトゲンシュタインが、この問題についての明瞭な自覚者である。哲学の思考は、ただ「原理」を探究するという努力だけではなく、同時に、つねに概念の実体化による論理の空洞化に抗いつつこの作業を行う、という課題を負うものとなった。しかし、ソクラテスは、哲学におけるこの課題についてのはじめの自覚者として登場している。
「神」のような存在がいるのか？この問いに「答えがない」ことがカントによって証明されている（後述）。
**「原因―結果」という系列で答えが出るのは、経験の領域と純粋論理の領域においてである。**純粋な論理的推論の世界は、経験の世界とは〝原理的に〟必然的な関係をもっておらず、前者はもともとは後者から生まれ出たのだが、両者はただ似ているだけである。
「私のこの存在自身が何か」といった見せかけの「形而上学的問い」は、前述の「パラドクス」の難問と並んで、つねに哲学の本質を見失わせる大きな要素であり、考えるだけ時間の無駄である。こうした「形而上学」の見せかけの問いは、純粋論理の領域でしか成立しない推論を、人間の経験世界にそのまま適用しようとする錯誤に由来する。

「原因」の本質

参考文献：
プラトン入門 (ちくま新書) 竹田青嗣

カント

要約：
「神のような存在がいるのか？」という問いに対して、カントは「答えはない」ことを"証明"した。だとすれば、人間が無駄なことを考える時間を大幅に削減したことになる。その意味で"スゴい"。でも、どうやって？

カントとは

イマヌエル・カント（Immanuel Kant、1724年4月22日 - 1804年2月12日）は、プロイセン王国（ドイツ）の哲学者であり、ケーニヒスベルク大学の哲学教授である。『純粋理性批判』、『実践理性批判』、『判断力批判』の三批判書を発表し、批判哲学を提唱して、認識論における、いわゆる「コペルニクス的転回」をもたらした。フィヒテ、シェリング、そしてヘーゲルへと続くドイツ古典主義哲学（ドイツ観念論哲学）の祖とされる。彼が定めた超越論哲学の枠組みは、以後の西洋哲学全体に強い影響を及ぼしている。(Wikipediaより引用)

理性固有仮象

理性が「仮象」の温床になっているとすれば、これこそ科学が不問に付してきた哲学固有の課題と言える。カントが発見したのは「理性固有の仮象」である。
「理性固有の仮象」をカントは「超越論的仮象」と呼んだ。
「超越論的」とは、「経験的」の反対語で、対応するいかなる感覚データをももたないものを称する概念。
カントは理性批判の方法として、**「ひとつの命題を証明し、同時にその反対の命題をも証明」**してみせた。

二律背反

カントは、相反する命題のペアーを「二律背反」すなわち「アンチノミー」と名づけ、二律背反を形成する一組の命題ペアーのうち、肯定命題を「テーゼ」といい、否定命題を「アンチテーゼ」と呼んだ。
二律背反の例「テーゼ：世界原因の系列の中には絶対的必然的存在者がいる。アンチテーゼ：この系列の中には絶対的必然的存在者はいない。そこにおいてはすべてが偶然的である」。
ちなみに、「パラドックス」は十九世紀後半以来、論理学の最大関心事のひとつであるが、近世における問題の発端はカントの「二律背反」にある。
神などの理念は経験的に観察できず、間接的に「推理」によって想像されるだけである。そこに理性が自己矛盾におちいる落とし穴がある。
同一の理性が二律背反を同時に証明するならば、両方の命題の真理性は失われる。
真理の最高決定機関であるはずの理性が二律背反を同時に証明可能ならば、理性の能力そのものに疑いがかけられる。
大きさがあるとすれば、それは有限量か無限量かいずれかのはずである。しかし、世界全体に関しては、それが有限量をもつという主張（テーゼ）も、無限量をもつという主張（アンチテーゼ）も、ともに偽と判定されえた。同一の理性が二律背反を同時に証明することによって、結果的に、世界はじつは存在しないと主張しているのことになる。

ヒュームの影響

ヒュームがカントに与えたショックとは、その因果律批判であった。
因果律とは、原因と結果とを結ぶ法則である。
ヒュームによれば、因果律は客観的法則ではなく、単なる連想の産物、すなわち観念の主観的な結合にすぎない。
カントは因果律がわれわれの経験的認識を可能にする根本法則のひとつであることを淡々と証明している。

根本真理の原理的証明不可能性

因果律は第一原因にまで溯るや、たちまちそれまで誇っていた効力と意味を失う。
あるいは、第一原因の問題に直面して因果律は破綻するといってもよい。
因果律を単なる連想による法則と見なしたとき、それが主観的なものを客観的なものとすり替えることによって法則を自称した仮象にすぎない。
哲学においては定義は出発点ではなく、むしろ目標とすべき終着点なのである。
また哲学は多くの証明不可能な命題を有しており、とくに根本真理はすべて証明不可能である。
カント哲学は、定義不可能な根本概念と証明不可能な根本真理を相手どる営みであった。
証明とは、なんらかの物事に根拠を与える手続きである。
根拠を与えられるその物事は、それ自身根拠ではありえない。したがって物事の根本ではない。
物事の根本は物事を根拠づけうるが、それ以上の根拠によって根拠づけられることはない。それ以上さかのぼる根拠がありえないからこそ根本真理だからである。
ゆえに、根本真理は原理的に証明不可能である。

因果関係と相関関係

データ分析をする際には、因果関係と相関関係の混同に注意しましょう。

相関関係があるだけでは因果関係があるとは断定できず、因果関係の前提に過ぎない。「相関関係は因果関係を含意しない (Correlation does not imply causation)」は、科学や統計学で使われる語句で、2つの変数の相関が自動的に一方がもう一方の原因を意味するというわけではないことを強調したものである（もちろん、そのような関係がある場合を完全に否定するものではない）。全く逆の言葉である「相関関係は因果関係を証明する (correlation proves causation)」は誤謬であり、同時に発生した2つの事象に因果関係を主張するものである。このような誤謬は虚偽の原因の誤謬（英: false cause）と呼ばれる（ラテン語では "cum hoc ergo propter hoc"、直訳すると「それとともに、そしてそれ故に」）。前後即因果の誤謬は、2つの事象に順序関係があることが前提であり、「虚偽の原因の誤謬」の一種である。(Wikipediaより引用)

科学的方法

**要約：

データの入手

スクレイピングやAPIではなく、諜報活動等における古典的な情報収集のノウハウについてまとめていきます。

ヒューミントの事例

旧東ドイツの情報機関シュタージは、そのエージェントであったギュンター・ギョームを当時西ドイツ首相であったヴィリー・ブラントの個人秘書とすることに成功し、それ以降ブラントの東方政策の方針は、東側に筒抜けとなっていた。

日本の諜報活動の現状

多くの国で対外情報機関が設立され、世界中でヒューミントなどの情報活動を行なっている。日本は、先進八カ国の中で唯一、対外情報機関を持っていない。
日本で最大規模のインテリジェンス組織は、シギント部門を擁する防衛省情報本部である。
シギントの運用において決定的に重要なのは、こちらが通信を傍受、解読していることを相手に悟らせないことなのである。
日本国内で行政傍受（インテリジェンス組織による通信傍受。犯罪捜査を目的とした司法傍受は可能）を行うことは、法的な制度が未整備のため認められていない。

オシント

オシントとは

オシント（オープン・ソース・インテリジェンス）は、新聞、雑誌記事など公開情報を収集・分析して機密情報を探る情報活動のこと。軍事情報を除く機密情報の九割以上はオシントで得られるといわれる。

ＣＩＡで分析官を務めたリチャード・フリードマンによると、最も一般的な情報源は議会図書館、そしてLexisNexisや「ロイター」、「ニューヨーク・タイムズ」などの有料データベースであったという。
国家インテリジェンスであればオシントに占めるネット情報は三─五％程度であり、公開といっても、つてを使って得られるような冊子や一般に出版されていない資料集のような「灰色の文書」と呼ばれるようなものもオシントに分類される。
オシントの課題は、ネット上の膨大な「ノイズ」から「情報」を取捨選択することにより、いかに効率的にオシントを収集できるかどうかである。
基本的にオシントはヒュミントやシギントを補完するというよりは、すべてのインテリジェンスの基礎となるものである。
様々な方法で収集された個々の情報（シングルソース）は、それぞれをつき合わせることで分析・評価される。
情報収集で重要なのは、どれ程決定的に見えるデータでも、それのみで決断することは短慮であり、情報は他の情報と付き合わせることでより質の高い情報が生み出されることを自覚しておくことである。
情報の相乗効果を活かすためには、各関係機関や個人が収集した情報を共有するための組織・コミュニティが必要になる。

情報と意思決定

インテリジェンス組織は、まずどうすれば上手く情報を収集、分析、共有できるのか、といった情報運用の観点から考えなくてはならない。
重要な情報を提示したとしても政策決定者がそれに基づいて判断をするとは限らない。
情報機関の長が多忙を極める大統領や首相に対して「何か欲しい情報はありますか」と伺い立てても、いきなり具体的な返事は得られない。政策側の多忙であるが故のインテリジェンスの軽視は、しばしば生じる。
また情報共有が進むとインテリジェンス・コミュニティのコンセンサス形成も進むが、一旦間違った情勢判断が共有されてしまうと、それがなかなか修正されないという弊害を生み出すことになる。
アメリカにおいては組織間の情報共有の必要性から一九九四年にIntelinkというものが導入されている。これは各インテリジェンス組織の持つ秘密情報を部内のネットワークによって共有しようとした試みである。
同時多発テロの後、アメリカでは国家情報長官事務局が主導し、情報組織間でリアルタイムの情報を共有するための「インテリペディア」が二〇〇五年から整備されている。これはいわば情報組織の職員だけがアクセスできるウィキペディアである。
情報はネットワークを介して水平的に広がっていく。この性質に対して、上意下達や分業を得意とする伝統的官僚組織で対処することは困難である。

オシントの事例

小野寺の下で公刊資料より技術情報の収集を行なった三井物産の和久田弘一が、アメリカが原爆生産を実施しているらしいヒントをつかんだことが特筆される。(中略)和久田は、理化学研究所で原子力研究をしていた仁科芳雄博士の依頼でサイクロトロンの輸入業務を担当した経験があり、アメリカの新聞からアメリカが三〇〇〇トンもの大型サイクロトロンを輸入したとの情報を見つけたからだった。

スパイと外交

生命にとってインテリジェンスとは、自らの身の周りの様々な情報を取捨選択するための能力であると理解できる。国家レベルのインテリジェンスとは「国家の知性」を意味し、情報を選別する能力ということになる。
日本では明治以降、陸海軍が情報部を設置しているが、基本的には脈々と受け継がれてきた孫子の思想がその根幹にあった。明治時代には幕末の動乱を生き残った政治家がインテリジェンスの重要性をよく理解していた。
国際政治や戦争は将棋やチェスとは異なり、相手の出方を把握しにくい非対称情報ゲームの典型的な事例である。
政治家が自分の追求する政策方針と入手した情報が大きく乖離する際にどのような態度を取るべきなのか、という問題は古今東西に見られる。
この分野の活動における陥りがちな穴。それは、相手側もこちらの常識や発想で同じように考え、同じように行動するだろうという思いこみである。この種の弱点を補うためには、まず先方の価値観と目的変数を理解することが重要である。
インテリジェンスにおける分析の基本は「敵自身の目を通して見る」という手法に凝縮されている。
分析官の資質として必要なものは、高度の知性と教養、そして磨かれた感性である。分析官の識見として蓄えてほしいものは、対象とする国・地域・民族・組織などの言語、歴史、風習、思考法、情勢などだ。
分析官は、柔軟な思考法つまり〝やわらかいアタマ〟を持つ人物であるべきだと考える。　国際情報戦において、最終的に頼りとすべきものは、コンピューターのシステムよりも、分析官たちの頭脳システムである。
相手機関の信頼を得るには、まず秘密を保護する法体制を備えることが基本のきであり、国際常識である。他国から示された情報は、その提供元の承諾なしに第三者へ提供しないという決まり、これが「サードパーティ・ルール」である。
ゾルゲは、日本の各界にも大情報網を張り巡らせた。なかには事情を知らずに情報を提供した人物もいたが、組織に加わった者はすべて共産主義思想を軸とする絆で結ばれていた。
他国から情報提供を受ける場合には、ギブ・アンド・テイクの原則が必要となるのだが、そのほかにも防諜体制が築かれているかどうかが重要視される。
あまり知られていないことだが、一九六〇年代にＣＩＡは盗聴器を埋め込んだネコをソ連大使館の敷地に放つという風変わりな作戦を計画していた。この一〇〇〇万ドルを投じて育成されたネコは、不運にも任務の直前に車に轢かれて死んでしまった。
表の外交交渉で行なえない事案をインテリジェンス機関が極秘に裏で調整することが一般的である。表の外交で解決できない場合に備えて主要国はバックチャンネル（裏ルート）を用意している。

盗聴

ハッキング

予測

"予測の正確さを高めていくには、兆候を見逃す、虚報を発するという二種類の予測ミスのどちらも減らす方法を工夫しなければならない。"
"どんな問題でも自らと対立する見解を考えよ"
"優れた予測者は、一般人より先に有力な手がかりを見つけ出す方法を心得ている。対象が北極海の氷の面積であっても朝鮮半島の核戦争であっても、それが起こる必要条件にかかわるちょっとした先行指標に目を光らせる。"
"唯一無二と思われる事象についても、比較対象を探してみる。"
"問題を知りえる要素と知りえない要素に分解しよう。"
"二つの基本的な失敗を頭に入れておこう。一つは予測可能かもしれない事柄を予測しようとしないこと、もう一つは予測不可能な事柄を予測しようとすることだ。"
"超予測者にとって「自らの意見とは死守すべき宝ではなく、検証すべき仮説にすぎない」。超予測力を簡単な標語に矮小化するのは避けるべきだが、敢えて一つ選ぶとすればこれだろう。"
"フェルミ推定"
"重要なのは「専門家の政治予測」プロジェクトによって、わずかながら本当に予測力というものが存在し、その最も重要な構成要素はモノの考え方であると確認されたこと"
"インテリジェンス・コミュニティのプロフェッショナルにとって、これがどれほど衝撃的なことか想像してみてほしい。数百人の素人と単純なアルゴリズムの組み合わせに敗れる、ということの衝撃を。　実際、まさにこれが起きたのである。"
"重要なのは「専門家の政治予測」プロジェクトによって、わずかながら本当に予測力というものが存在し、その最も重要な構成要素はモノの考え方であると確認されたこと"
"重要なのは、有益な情報は通常、大勢の人に分散されているということだ。"
"直観が勘違いと優れた洞察のどちらを導きだすかは、それにまつわる有効な手がかりがたくさんあり、それを将来使うために無意識に記憶させておけるかによって決まる。"
"「人間の専門家がコンピュータと手を組み、人間の認知的制約や偏見を乗り越えることを期待したい（14）」"
"予測においても他の分野と同じように、今後も人間の判断がコンピュータに取って代わられる場面は増えるだろう（ホワイトカラー労働者には困ったことになる）。ただそれと同時に統合も進むだろう"
「思考プロセスを模倣し、思考を理解することと、新たな思考を生み出すことはまったく違う」とフェルッチは指摘する。後者は人間の判断が常に支配する領域だ。"
"「これから指数関数的カーブで伸びていく、その最下点に今のわれわれはいる」"
"パターン認識能力では驚くべき成長が見られる。それに加えて機械学習とその学習プロセスを促す人間と機械の相互作用の進化によって、今後も本質的変化をもたらすような進歩が確実だという"
"われわれの分析でも優れた実績を出す人の予測因子として最も有効なのは「自らを向上させようとする強い意志」であることが繰り返し示されている。"
"超予測力には柔軟で、慎重で、好奇心に富み、そして何より自己批判的な思考が欠かせない。集中力も必要だ。"
"予測力は生まれつき備わった神秘的な才能などではない。特定のモノの考え方、情報の集め方、自らの考えを更新していく方法の産物である。知的で思慮深く意志の強い人なら、だれでもこの思考法を身に着け、伸ばしていくことができる。"
"今日の科学者は一〇〇年前の科学者と比べてはるかに多くの知識を持ち、また圧倒的なデータ処理能力を有しているにもかかわらず、完全な予測可能性の実現についてははるかに弱気になっている。"

制御

可制御の理論

創造性

個人レベルでの創造力の増強

脳と創造力

社会レベルでの創造力の増強

「反脆弱」の概念

解けない問題

データをいくら分析したところで、原理的に解けない問題が存在します。では、どんな時、どんな場所にそうした問題は出現するのでしょうか。

原因

この問題は、過去に観察されたデータの確率分布が将来において変化しないことが保障されない時、そうした場所においてしばしば起きます。

構造変化

解りやすいモノとしては社会に関する問題をデータ分析によって解くような問題です。例えば、過去の社会のありようをデータによって観察し、そこから法則を抽出することに成功したとします。ところが、社会の制度、法律、インフラ、人口、等の社会を構成する各種の要因は日々変化しています。このような場合、過去のデータによって導き出された法則は将来においても機能するとは限りません。

予測が将来の状態に影響を与える

次に予測自体が将来の社会の構造に影響を与えるようなケースです。
例えば、過去のデータから「暑い日に公園でアイスクリームを売ると儲かる」という法則を導き出したとしましょう。この法則は一時的には機能するかも知れませんが、その予測をしたヒトが大量のアイスクリームを公園に共有したら、アイスクリームの価格は暴落し、アイスクリームを売ることで儲けることは難しくなります。

外れ値

対応方法

似ている問題を探す

非合理的な振る舞いを見つけて利用する

観察する時間枠、空間枠を拡大する

理論的に解く

エンジニアがハマりがちな罠

技術は自分たちの利益のために使わないと、先端をいけない。誰かの利益のために開発することになると、その"誰か"の理解に合わせた開発ばかり任せられることになる。
"最先端のアルゴリズム"、"データ量"、"マシンパワー"を過信してはならない。起きている事象の因果関係に対して想像力を持っていないと、適切に問題を解くことは難しい。

意思決定とデータ分析

実証は説得材料になるか

実証に興味がない人への対処法

国内のキーパーソン

データ分析と転職

転職や就職を検討する際には、求人票と決算情報が役立つ。これらを駆使すれば、どんな文字列を含んだ求人票が高い待遇を提示しているかわかるし、どのセクターの平均給与が高いか、成長産業かがわかる。

求人票データ

決済書データの読み方

ぶっ飛んだデータ分析者たち

是川銀蔵

唐津一

Y氏

元・NTTの研究所職員（詳細不明）
証券会社のサーバーをハッキングして株価データを収集。
株の自動取引システムを構築し、20億円以上の利益を上げる。

島田紳助

漫才をテキストに書き起こし、笑いのテキストマイニングをしていた。
お好み屋さんを開業するにあたって、テレビ番組でお好み焼きの味を競う大会を開催。優勝者からレシピを買い取って開業した。

田中雅

東京藝術大学音楽学部チェロ専攻科卒。1971年から1991年まで、ドイツとオランダのオーケストラで主席チェリストを務める。またソリストとして、あるいは室内楽演奏者として各国で演奏活動。オランダ政府文化省の文化使節として東京藝術大学その他において音楽セミナーを開催。その他数々の国際音楽文化交流プロジェクトを主宰する。現在日本作曲家協議会特別会員。1981年以来、独学のトレーダーとしてデリバティブと通貨先物取引運用を手がけ、1985年当時発売されて間もなかったコンピュータを駆使した自動通貨運用システムを趣味で開発。オランダ放送協会オーケストラの第一ソロチェリストであると同時に、在欧州大手商社や銀行等、数社のコンサルタントとして通貨システム運用の顧問業務にも携わった。1993年、米国で一年かけて競われたワールドカップ先物運用競技会（リアルマネー/ リアルタイム）のプロフェッショナル部門で第3位、ロビンズ/オメガ・システム運用競技会（リアルマネー/ リアルタイム）において第2位を受賞。いずれも日本人としては初の受賞。
引用元：https://sec.himawari-group.co.jp/systemtrade/knowledge/tanaka-tadashi/profile.html

Edward・Oakley・Thorp

シカゴ生まれ。1955年カリフォルニア大学ロサンゼルス校 (UCLA) で物理学を専攻し、その後、1959年マサチューセッツ工科大学 (MIT) で数学講師の職に就く。ソープはMITの大型計算機を使いブラック・ジャックの必勝法を数学的に編み出した。その後、彼は、カジノで自らの理論を実践、その正しさを証明していった。
ソープのブラック・ジャック必勝法は、論文にもしたこともあって有名となる。カジノ業界へのインパクトは大きく、カジノの同ゲームのルール変更、管理方法の変更に影響を与えた。その後、ソープはこの理論が他の分野でも応用ができることを発案、株式市場への投資にも理論を転用した。（Wikipediaより引用)

参考文献、引用元等

「諜報の神様」と呼ばれた男岡部伸 https://www.amazon.co.jp/dp/4569820972/ref=cm_sw_r_tw_dp_x_mMroybZ2A5G64

自分用メモ

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up