More than 3 years have passed since last update.

自然言語処理を用いた偏向報道の定量的評価手法の提案

Last updated at 2022-03-01Posted at 2021-06-01

1. 背景―社会科学という社会問題

社会科学には「端的な客観性」がない。そんな社会科学で平等論を唱えるのは欺瞞ではないだろうか。
こうした欺瞞を暴くことができるのは、我々エンジニアである。

1-1. 「強き弱者」「多き少数派」しか救えない社会科学

女性たちは大きな声で「男尊女卑」と叫ぶ。
他方、小さな声で「女尊男卑」と唱える男性も散見される。
マスコミはどちらかというと「男尊女卑」という主張に偏っているように感じられる。
医学部女子減点入試を報道したマスコミが、大阪電気通信大学の女子加点入試をほとんど報じなかった。
森ioc元会長の失言を執拗に非難して辞任に追い込んだマスコミは、次に就任した橋本聖子の男性への強制わいせつ疑惑をほとんど報じなかった。
ウクライナで戦争状態となり、「戦える年代(18〜60歳)の男性は出国禁止」となり、「国外に避難できるのは女性と子供と老人だけ」になったのに、それを「男性差別」と言って男性を心配してくれた報道は皆無だった(2022年2月〜3月頃)

以上のように 「差別の報道」の裏には「報道の差別」が潜んでいる恐れがあるのだ。

女性の声が強く、男性の声が弱いからこそ、
「女性は弱い！男は強い！だから男は女性に配慮しろ！」
という主張ばかりが通るという恐れはないだろうか

図1-1-1. 社会科学、特にジェンダー学への風刺画　

1-2. 開き直る社会学、逆切れする法学―「声すらあげられない弱者」の壮絶な苦悩

社会学、法学は共に「声すらあげられない弱者」にはとても冷淡である。

社会学に関しては客観性論文が「社会分析に端的な客観性など存在しない」と開き直っている。
法学に関しては権利のための闘争が「権利のために闘うことは自身のみならず国家・社会に対する義務である」と鼻息を荒くしている。
権利のために闘えない「声すらあげられない弱者」を「義務違反者」と罵ってさも落ち度があるかのように見せかけ、これを理由として救済の手を差し伸べる必要はないとしているのだ。

以上の通り、社会学だろうと法学だろうと、社会科学には「まだ見ぬ弱者に気が付き、救いの手を伸ばそう」という優しさが端から無いのである。

余談だが、犯罪被害者に寄り添わず、加害者側につく弁護士が多いのも、本質的には同じ理由によるものと筆者は愚考している。
確かにすべての犯罪者には弁護人依頼権が憲法によって保障されているし、この権利を守るために弁護士が受ける研修・試験で犯罪者の権利などを教えるのも大事だろう。
しかし残念なことに死刑賛成弁護士という書籍の第1章「命は大事。だから死刑」によれば、こうした弁護士向けの研修・試験では「犯罪被害者の権利」について学ぶ機会に乏しいそうだ。
研修・試験を受けるだけでは、「加害者の人権」という「ある一視点」だけを重点的に考えてしまい、「視点が一様でない」という不均衡を拭うのには全く不十分ということだろう。
こういった「視点の偏り」を問題視し、「死角にて、人知れず泣いている人(＝この例では犯罪被害者)が隠れていないだろうか」と心配する力を、学問は育ててくれないのである。

1-3. 社会科学に見殺しにされた弱者を技術で救おう―なぜエンジニア向けサイトに社会科学の悪口を書かなければならなかったか

弱者を救うのは、本来社会科学の役目かもしれない。
しかし、1-1節や1-2節でみてきた通り、社会科学は弱者の中でもまだ幸せな、「声をあげる体力の残っている弱者」しか救わない。
彼女らよりもさらに弱き「声すらあげられない弱者」を見殺しにして発展してきたのが社会科学である。
社会科学がこうである以上、社会科学以外の学問が、「端的な客観性」を実現し、社会科学の現状がどのように不均衡であるかを定量的に表し、「社会科学内部に発生している不平等・差別」を自覚させる努力をすべきではないだろうか。
言い換えれば、「社会科学の視点の偏りを定量評価」し、社会科学を社会問題として取り扱う「メタ社会科学」を行うことで、社会科学だけでは見つけられなかった声なき声に気が付こうとする必要があるということである。
そして、テクノロジーが当時と比べて遥かに進んだ21世紀の今こそ、豊富な知識と技術を存分に活かし、「声すらあげられない弱者」に気が付くための新しいテクノロジーを生み出すべきときではないだろうか。
今、「本当の弱者」を救えるのは社会科学者などではなく、自然言語処理・機械学習の研究者なのである。
そしてこのテクノロジーが実現すれば、それは「社会科学なんかよりも遥かにフェア」な平等論を繰り広げるための素晴らしいフィールドとなるに違いない、筆者はそう確信している。

図1-3-1. 社会科学が平等論を唱えるせいで、返って死角内で不平等が深刻化する例。社会科学は常に「死角」に対して無責任である。

2.先行研究

単語ベクトルによる「意味の代数演算」(word2vec)
こちらの先行研究は、単語にベクトルを割り当てていて、「$\vec{王}-\vec{男}+\vec{女}≃\vec{女王}$」のような「単語の意味の計算」ができたりするよ、というもの
文の意味や、文章の意味は表現できない
2，3つの単語が集まって1つの意味を持つような場合を表現できない
これに対して、本稿で提案するアイデアでは、「単語に行列を、意味にベクトルを対応させる」ことで、複数語や文に対する意味を「計算」出来るかもしれない。

3.提案

3-1. 単語は行列、意味はベクトル

今、単語と意味の関係を述べてみよう。

一つの単語が意味を持つことがある
複数の単語が集まって意味を成すことがある

これは、一つ以上の単語から意味への写像$f$が存在することを予感させる。
$$f:単語^n\rightarrow意味$$
一方、ある$m$次元定ベクトルに$m$次正方行列を一つ以上掛け算するとベクトルが得られるという線形演算は、次のような写像$g$で表現できる。
$$g:行列^n\rightarrowベクトル$$

写像$f$と$g$は、どちらも「ある概念(単語／行列)を任意個集めたものを(何らかの処理)すると、別の概念(意味／ベクトル)になる」という構造をしている。このことから、「単語を行列として表現すれば、意味をベクトルとして表現できるのではないか」と考えた。
具体的に言おう。
単語を行列と置き、隣り合う単語同士の行列積を考えれば、
定ベクトルに対して単語をいくつだけ掛け算しようとも、そうして得られるものは常にベクトルであるはずだ。
そういったベクトルを「意味を表現しているベクトル」とみることを考えたいのである。

図3-1-1. 単語行列／意味ベクトルのイメージ図

そしてこの「意味のベクトル表現」が「元の単語群の持つ意味」を表現するように「単語行列」の各成分を調節し続ける
―そんな学習モデルを提案する所存である。

3-2. 学習は意見文で

3-1節で述べたモデルを教師あり学習で学習させる場合は、出力される意味ベクトルに対して「正解」を与える必要がある。
即ち「各単語を表現する最適な行列」を機械に探索させるためには、出力すべき「意味を表現する最適なベクトル」を予め知っている必要がある。このようなベクトルを予め用意するためのアイデアとして、筆者は「学習は意見文で」という方針を考えた。
(但し意見文は一つの文ではなく、寧ろ文が複数集まった文章なので、今後は意見文ではなく意見文章と呼ぶことにする)
結論を先に言うと、この方針は「意見文章中の各文に対応する教師データとしては、『意見に対応するone-hotベクトル』を用いるとよいだろう」というものである。

この方針を、具体例を出して説明しよう。
日本では「『きのこの山』と『たけのこの里』ではどちらが人気か」が全国的な話題・議論・論争となっている。
「きのこの山」派と「たけのこの里」派のどちらか一方の派閥を支える人たちに、
それぞれ「なぜあなたはその派閥を支持するか」について意見文を書いてもらったとする。
例えば次のようなもの。

私はきのこの山派を応援します。･･･①
なぜなら、きのこの山はたけのこの里よりもチョコが多いからです。･･･②
なるほど、たけのこの里にはクッキーが使われていて、きのこの山で使われているクラッカーよりも糖度が高く、チョコとの一体感が楽しめるという反論もあるかもしれません。･･･③
しかし、きのこの山もたけのこの里も、どちらも商品表示は「チョコレート菓子」となっています。･･･④
チョコレート菓子である以上、チョコレートの多さで勝負を決するのが自然ではないでしょうか。･･･⑤
よって私は、きのこの山派の肩を持ちます。･･･⑥

この意見文章全体は、きのこの山派にとって肯定的な(また、たけのこの里派にとって否定的な)意味を有している。
では意見文章を構成している各文はどうだろう。
文①～⑥の特徴を、表3-2-1の通り整理してみた。

表3-2-1. 例示した文章を構成する各文の特徴

番号	「きのこの山」派にとって	事実/意見	文章内での役割
①	肯定的	意見	主張
②	肯定的	事実	根拠
③	否定的	事実	反論
④	2重否定的≒肯定的	事実	再反論
⑤	2重否定的≒肯定的	意見	再反論
⑥	肯定的	意見	結論

いかがだろうか、6つある文のうち5つの文は全体と同じくきのこの山派にとって肯定的な意味を有している。
このことから、「意見文章から文を1つ無作為に取り出してきたとき、『その文が意見文章全体が支えている意見に対して肯定的である確率』は十分高い」という仮説をおけるだろう。

従って、意見文章を構成している各文に対する教師データ(出力すべき意味ベクトル)は、意見に対応させればよいだろう。

そして「意見に対応するベクトル」は次のように定義する。
「対立する意見を意味ベクトルで表現したとき、それらは互いに直交している」

つまり、きのこの山派に肯定的な意味ベクトルを$(1　0)$とする意味ベクトル系では、たけのこの里派に肯定的な意味ベクトルは$(0　1)$と書けるべきであると考えるのだ。
なぜたけのこの里派のベクトルを$(-1　0)$とは考えないか。それには次のような理由がある。

「互いに反対向きのベクトル同士の関係」は2つのベクトルの間にしかしか成立しえない。そのため相容れない意見が3つ以上存在するとき、互いを相手の「反対向き」と考える手法が適用できない。
相容れない2つの意見$A,B$を「よいとこどり」した新しい意見${\rm BOBW}(A,B)$と、「悪いとこどり」した新しい意見${\rm WOBW}(A,B)$が、常に相いれないとは限らない。
相容れない意見同士は互いに線形独立であった方が分かりやすい。

理由1について具体的に考えるため、きのこの山派が$(1,0)$で、たけのこの里派が$(-1,0)$としよう。
今、第3派閥「笹の村派」が参入したとする。これをベクトルで表現しようとしたとき、「味方のマイナス1倍は敵」という考え方では適切なベクトルを見つけることができない。

理由2について具体的に考えるため、たとえ話として「来世は人がいいか馬がいいか」という議論を考えてみる。
「来世も人」派が$(1　0)$で、「来世は馬」派が$(-1　0)$としよう。
今、両派閥の良いとこどりをした「ケンタウルス」派と、「ケンタウルス」に採用されなかった特徴を合成した「逆ケンタウルス」を考えてみよう。

表3-2-2. 人と馬およびそれらの合成

ケンタウルスや逆ケンタウルスは人($1\angle 0^\circ$)と馬($1\angle 180^\circ = 1\angle -180^\circ$)の中間的な概念なので、そのベクトルとしては$1\angle \pm90^\circ = (0　\pm1)$が妥当だろう。
故にケンタウルスの意味ベクトルと逆ケンタウルスの意味ベクトルは互いに反対向きであることになるが、この2つが「対立している」とは言い難い。ケンタウルス派を推す人は多くいたとしても、逆ケンタウルス派を推す人はそう多くいないだろう。
故に、「対立する意見を互いに反対向き」と考えると、合成案を2つ提案したとき「反対向きなのに対立しない意見」が生じてしまい、自己矛盾に陥るのである。

理由1や2は「対立する意見を反対向きのベクトルで表現すべきでない理由」として適切ではあっても、
「対立する意見を直交するベクトルで表現すべき根拠」にはなっていない。
この根拠となるのが理由3である。
対立する意見、すなわち相容れない意見というのは、「片方の意見からどのように論理展開してももう片方の意見と一致することができない」という関係にある。
今、論理展開を線形演算(ベクトルのスカラ倍および加減算の有限回の繰り返し)で表現できるという仮説を置く。
この仮説下では、両者はまさに線形独立な関係にある。
「片方の意見からどのように論理展開してももう片方の意見と一致することができない」という文に対し、

意見→ベクトル
論理展開→線形演算

と置き換えれば
「片方のベクトルからどのように線形演算してももう片方のベクトルと一致することができない」と、線形独立の定義文そのものが得られるからだ。

以上の論理展開を、論理回路で表現すると図3-2-1のようになる。(LED部分が最終的な結論であり、仮説等が妥当であるとき、スイッチが短絡され、LEDが点灯(＝結論が正しい)する)

図3-2-1. 論理回路で表現する論理展開

4.実験

3章で提案したアイデアを検証するため、学習用プログラムを作成した。
クラス図は次の通り。
コードおよび手順はgithubに示した。
どなたかやってみてほしいです。結果についても教えてくれたらとてもうれしいです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up