More than 1 year has passed since last update.

Janomeによる「わかち書き」

Posted at 2023-08-19

早速ですがわかち書きをchatGPTへ質問

【結論】
わかち書き（分かち書き）は、テキストや文章を単語やフレーズに分割する処理を指します。この処理は、日本語のような連続した文字列の言語において、文や単語の区切りを明確にするために重要です。機械翻訳やOCRなどの自然言語処理技術において、わかち書きはテキストの正確な解析と処理を支援する役割を果たします。

【詳細説明】
わかち書きは、テキストや文章を単語や文に分割するプロセスを指します。日本語などのアジア言語では、単語間に明確なスペースがなく、連続した文字列で表現されるため、テキスト全体を適切に理解するためには、単語や文の区切りを認識する必要があります。

例えば、次のような日本語の文章を考えてみましょう：「私は学校へ行きました。」

この文章は、スペースがないためにコンピュータが「私は」「学校へ」「行きました。」といった単語に分割することが難しいです。ここでわかち書きが登場し、文章を「私は学校へ行きました。」といった単語ごとに分割します。このような分割を行うことで、テキスト解析や翻訳などの処理が正確に行えるようになります。

機械翻訳においては、わかち書きは特に重要です。翻訳エンジンは単語単位でテキストを解析し、それぞれの単語の意味や文脈を考慮して翻訳を行います。わかち書きされたテキストは、単語や文の区切りが明確になるため、正確な翻訳が可能となります。

また、OCRにおいてもわかち書きは有用です。OCRは画像からテキストを認識する技術であり、テキストが連続した文字列として認識されるため、わかち書きを行わないと正確なテキスト抽出が難しくなります。わかち書きを行うことで、テキストの単語や文の境界を正しく抽出し、OCRの結果を改善することができます。

最新の展開として、深層学習技術がわかち書きにも応用されています。日本語の形態素解析やセグメンテーション（テキストを文や単語に分割する処理）は、深層学習モデルによって高度に精緻化されています。これにより、従来よりも複雑な文法構造や表現を持つテキストの解析が向上し、機械翻訳やOCRの品質も向上する可能性があります。

だそうです。興味があれば一読ください。

環境

Windows11
Python3.11.4
envにて仮想環境下
ipykernelにてカーネル設定
jupyter lab

形態素解析

サンプル文書をわかち書きへの前のテスト

sample.ipynb

from janome.tokenizer import Tokenizer
t1 = Tokenizer()
t1

OUTPUT

sample2.ipynb

text = '「カーネル」は、プログラム実行環境の一部であり、特に対話型のプログラムやスクリプトの実行に関連しています。IPythonカーネルは、IPythonと呼ばれる対話型のPythonシェルを裏で支えるコンポーネントです。'
tokens = t.tokenize(text)
token_list2 = list(tokens)
len(token_list2)

上記切れてますが、うまく分類できています。

最終、わかち書きへ

とりあえずここまで！
次へ続きます。。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up