自然言語を話す時に、陥る罠に、自然言語処理でも陥ることがしばしばある。
正しい
正しいか正しくないかは、論理学、論理演算では可能である。
自然言語では不可能だと理解しているとよい。
正しいかどうかの代わりに用いるとよいのは、分布。
空間分布、時間分布、頻度分布、確率分布。
空間分布
例えば、仕様書を自然言語で記述したとする。
その仕様書の空間分布にはいくつかの種類に分類しておくとよい。
地理分布
人間の多くは地球表面上に分布している。
人口の半分以上は標高-10mから500mくらいの範囲に住んでいるような気がする。
1日の移動でも、飛行機、ロケットでの移動、登山を除けば、数十m程度。
それに対して、地表面では、数十キロ移動することはしばしば。
そして、数百キロ離れたら、言葉は通じないこともある。
高度方向は、せいぜい4000mくらいの範囲。
高いところに住む人の言語と、水面下に住む人の言語に違いがあるかもしれない。
日本国内に限っても、言葉の意味が地理で違うことは、方言という視点でも明らか。
『日本言語地図』全6巻,各巻50図計300図
https://www.ninjal.ac.jp/publication/catalogue/laj_map/
日本言語地図 第1集 : 付録A 日本言語地図解説 : 方法
https://repository.ninjal.ac.jp/?action=repository_uri&item_id=1566&file_id=43&file_no=1
方言調査 4 サンフランシスコ州立大学/国立国語研究所 南 雅彦
http://www.gengoj.com/_UPLOAD/post/151.pdf
固有名詞であるMacDonaldでも、「マック」「マクド」などと地理で異なる。
生活の中で、使っているすべての言葉を採取せずに、思い込みで仕様書の言語を語るのは辞めてほしい。
との言葉が誤解を与えやすいかについての地理的な
分野分布
保育園、幼稚園、小学校、中学校、高校、大学などの学校。
金融、保険、証券。
コンビニ、スーパー、薬局、衣料品、日用雑貨などの小売業。
ゲーム配信、動画配信などのネットサービス。
製鉄、化学工業、機械製造業などの製造業。
分野で使っている言葉は大きく違う。
同じ言葉が違う分野では違う意味だということはしばしば。
まぎらわしい、間違えやすい、行き違いの多い略号worst 10(候補24)
https://qiita.com/kaizen_nagoya/items/0bff5dbb72208053489b
仮説(88)用語の衝突(用語・用例募集中)
https://qiita.com/kaizen_nagoya/items/6a8eb7ffaa45eeb16624
時間
歴史
国によっては、国の名前、範囲が歴史的に違うことがある。
歴史的に公用語が変わることもある。
言語の歴史変遷を分析せずには解釈はできない。
仕様書の範囲が、歴史的建造物、歴史的文献、歴史的遺産などに関係する場合には特に。
世代
世代を、3年、6年、10年、20年、30年, 50年、100年の7種類くらいで分析しているとよい。
世代間の言葉の壁は、果てしなく遠い。
頻度
時間も空間も同じであっても、異なる二つの文書館の言葉の頻度が異なれば、
意味も異なる可能性がある。
頻度の高い用語が複数の意味を包括している場合と、
頻度の小さい用語が複数の意味を包括している可能性がある。
確率
二つの文書の比較であれば、頻度で分析できるかもしれない。
100以上の文書の比較は、確率分布を計算するとよいかもしれない。
自己参照
物理記事 上位100
https://qiita.com/kaizen_nagoya/items/66e90fe31fbe3facc6ff
数学関連記事100
https://qiita.com/kaizen_nagoya/items/d8dadb49a6397e854c6d
言語・文学記事 100
https://qiita.com/kaizen_nagoya/items/42d58d5ef7fb53c407d6
医工連携関連記事一覧
https://qiita.com/kaizen_nagoya/items/6ab51c12ba51bc260a82
通信記事100
https://qiita.com/kaizen_nagoya/items/1d67de5e1cd207b05ef7
自動車 記事 100
https://qiita.com/kaizen_nagoya/items/f7f0b9ab36569ad409c5
日本語(0)一欄
https://qiita.com/kaizen_nagoya/items/7498dcfa3a9ba7fd1e68
仮説(0)一覧(目標100現在40)
https://qiita.com/kaizen_nagoya/items/f000506fe1837b3590df
安全(0)安全工学シンポジウムに向けて: 21
https://qiita.com/kaizen_nagoya/items/c5d78f3def8195cb2409
OSEK OS設計の基礎 OSEK(100)
https://qiita.com/kaizen_nagoya/items/7528a22a14242d2d58a3
プログラマが知っていると良い「公序良俗」
https://qiita.com/kaizen_nagoya/items/9fe7c0dfac2fbd77a945
Ethernet 記事一覧 Ethernet(0)
https://qiita.com/kaizen_nagoya/items/88d35e99f74aefc98794
Wireshark 一覧 wireshark(0)、Ethernet(48)
https://qiita.com/kaizen_nagoya/items/fbed841f61875c4731d0
線網(Wi-Fi)空中線(antenna)(0) 記事一覧(118/300目標)
https://qiita.com/kaizen_nagoya/items/5e5464ac2b24bd4cd001
プログラマが知っていると良い「公序良俗」
https://qiita.com/kaizen_nagoya/items/9fe7c0dfac2fbd77a945
資料集 [あなたもdocker私もdocker一覧] docker(0) to 166+61=227
https://qiita.com/kaizen_nagoya/items/45699eefd62677f69c1d
Error一覧 error(0)
https://qiita.com/kaizen_nagoya/items/48b6cbc8d68eae2c42b8
一覧の一覧( The directory of directories of mine.) Qiita(100)
https://qiita.com/kaizen_nagoya/items/7eb0e006543886138f39
<この記事は個人の過去の経験に基づく個人の感想です。現在所属する組織、業務とは関係がありません。>
This article is an individual impression based on the individual's experience. It has nothing to do with the organization or business to which I currently belong.
文書履歴(document history)
ver. 0.01 add URL 20240510
最後までおよみいただきありがとうございました。
いいね 💚、フォローをお願いします。
Thank you very much for reading to the last sentence.
Please press the like icon 💚 and follow me for your happy life.