■はじめに
私は「アカピッピミシミシガメ」「チャラチャラのパーハン!」のような、どうかしてしまった日本語が大好きである。その系統とはズレるが、その手の心のアンテナにひっかかるものを見つけた。
「チョップ」という文字列が、「チチ ョョ ッッ ププ」という発音が難しそうな文字列として表出されていた。誤字をするにしても「チョッポ」「チョッピ」等ならありがちなタイプミスであろうと推測できるが、「チチ ョョ ッッ ププ」は発生要因が不可解である。
ということで、「チョップ」が「チチ ョョ ッッ ププ」になってしまうような事象が発生するのは何故か?どのような仕組みか?を調べてみる。
※CHOP (チョップ) 療法は悪性リンパ腫の代表的な化学療法である。
■生成AIに聞いてみよう
検索エンジンがPDFファイルの内容をインデックスする際に、テキスト抽出のプロセスで文字化けや誤認識が発生することがあります。これは、PDFファイル内のテキストが画像として埋め込まれている場合や、フォントのエンコーディングの問題、テキスト抽出アルゴリズムの不完全さなどによって起こり得ます。
PDFファイルは、テキスト、画像、ベクターグラフィックスなどを含む複雑なフォーマットであり、その内容を正確にテキストとして抽出するのは技術的に難しい場合があります。特に、スキャンされた文書や特殊なフォントを使用した文書では、文字の認識が正確に行われないことがあります。
検索エンジンはOCR(光学文字認識)技術を使用して画像からテキストを読み取ることがありますが、このプロセスは完璧ではなく、誤認識や文字化けを引き起こす可能性があります。その結果、検索結果に表示される文書のタイトルやスニペットに奇妙な文字列が含まれることがあります。
このような場合、検索エンジンが表示しているタイトルやスニペットは、実際の文書の内容を正確に反映していない可能性があるため、実際の文書を開いて内容を確認することが重要です。
生成AIは平気でそれっぽい嘘をつくので、次は該当PDFを確認する。
■該当PDFを見てみよう
①問題の部分
この部分を適当に選択&コピーペーストするとこうなる。
CHOP
チチ ョョ ッッ ププ
療法の手引き
「チチ ョョ ッッ ププ」だ!!
フォントサイズが大きくかつ影が曖昧な「療法の手引き」部分は見たままの通りにテキスト化できている。一方で、フォントサイズが小さく影がより明瞭である「チョップ」は二文字ずつになってしまった。
ということで、フォントサイズあるいは影の明瞭さが問題なのではないか?という仮説。
②フォントサイズに差がある部分を見てみよう
とつである微小管
びしょうかん
に作用します。
位置関係には大いに違和感があるが、フォントサイズが小さいが「びびししょょううかかんん」とはならなかった。
ということで、フォントサイズが原因である仮説は棄却できた。
③フォントに影エフェクトが付いてない部分を見てみよう
国立がん研究センター中央病院
血液腫瘍 科 ・ 薬 剤 部 ・ 看 護 部
テキスト間のスペースの入り方は気になるが、表出される文字の構成要素自体には何ら問題はない。
...ということは
あくまで推測であるが…
おそらく、明瞭な影エフェクトが付いていると、本体と影両方を文字だと認識され、文字がダブルで表出されてしまうようである。
■感想
文字の影エフェクトは、乱視のような見え方な気がして苦手であるためほとんど使用しないのだが、このような問題を生じさせる可能性もあるのだなと思った。
また、「平気でそれっぽいストーリーを作って嘘をつく」は生成AIだけではないので、アホなりに可能な限り一次ソースを確認して考えて判断して、それが間違えていたらちゃんと学習・謝罪・反省・修正をしていきたいものである。とは思うものの、自分で現場現物を見て考えて手を動かして人と話すことが好きだからこそ、「こんな思考ができる自分は、現実においても隠蔽された真実を情報収集と推理によって暴くことができる」とか思っちゃったりするのだと思う。こわ〜い。
おそらくこの世に需要はほぼほぼ無いであろうお題でしたが、最後までお読みいただき、ありがとうございました🙇