Edited at

仮説・検証(94) 言語論と確率論

言語を、自然言語と人工言語に分類してみる。

自然言語とは、誰かが意図的に作ったのではない言語を指すことにする。

人工言語は、言語の作者がいるものとする。

エスペラントのように、自然言語の代わりになることを意図した人工言語もある。

ハングルのように、自然言語の表記方法を意図的に作成した言語もある。

自然言語と人工言語が、集合として分離できるとは限らない。

ここでは、論理的な記述ができ、文法間違いが一位に決めることができる言語を、人工論理言語と呼ぶ。

人工論理言語は、文法誤りがあると機能しないものとする。

自然言語は、どれくらいの人が、どれくらい理解できるかの確率が、事後計算できるものとする。

例えば、ここに書いた文章を、100人の人に読んでもらって、主観的な理解度を100分率で評価してもらう。

日本語が全くわからない人が0点をつけるとする。

1と0という数字がわかるから1点をつけるかもしれない。

実際に評価してみなければわからない。

同じ100人で、何度か類似の文章を採点してもらうと、予測可能になるかもしれない。

何度も類似の文章を採点してもらうと、だんだん学習して理解度があがるかもしれない。

あるいは、似た文章にうんざりして、理解度を下げるかもしれない。

100人に100文書を採点したもらったときと、10000人に10000文書を採点したもらったときで、分布が違いかもしれない。

どれくらい評価してもらえば妥当かは、対象の内容による。

Web文書であれば、1年間にWebを閲覧可能な人数の推移はこれまでに推定できているとする。

人口の年齢的な分布から、大戦でもない限り、数年後の ウェブ閲覧可能な人数の推移はだいたい1割以下の誤差で予測できるだろう。

その場合に、全Web人口対して、理解可能な人口の割合が、言語理解率だとする。

その言語の理解率が50%以上の人に、ある文章を読んでもらったときの言語理解の分布を、推定する。

わかりやすい文章であるか、わかりにくい文章であるかより、

興味がある内容であるか、興味のない内容であるかで、理解率が異なることが推測できる。

1000字程度の1つの文章を読んで採点するたびに、例えば10円相当のポイントをつければ、大量の文章を評価してもらえるかもしれない。

この評価では、お金を貰えば文章を評価するという全体集合の偏った一部の人の評価でしかない。

いずれにしても、ちょっとやそっとの方法では、大量のWeb人口の嗜好を把握することは難しい。

しかし、google検索や、amazonでの買い物は、あきらかに、意図的な調査に比べてWeb人口のひょっとしたら過半数の人たちの、遥かに膨大な傾向を知ることができるかもしれない。

どのような言語が通じ、どのような内容が好まれ、どのような文章が理解されるか。

言語と確率の戦いは続く。

ある言葉が、正しいかどうかは、すでに意味がない。

ある言葉が、通じるかどうかが、すべてである。

ちょうど、ISOのOSIで正しい通信規約を確立しようとして、

TCP/ipという通じる通信規約によって上書きされていったように。

正しさを主張したければ、証明系の言語を使えばよい。

一位さを実演したければ、プログラミング言語などを使えばよい。

プログラミング言語であっても、版(version)によって正しいとされたり、駄目とされることがある。

自分が、いつ、どの言語で何を言いたいか。

確率で語れば、いつか、どこかには伝わるかもしれない。