タイ語処理OSSに4発プルリクを出した初コントリビューション体験記①; 形態素解析

Last updated at 2023-12-05Posted at 2023-12-02

はじめに

タイ語が読めるので、インターン先で社内唯一のタイ語NLPデータサイエンサーとして登用されている者です。

プログラミングは9年以上やっているのですが、初めてOSSにコントリビューションできて嬉しくなったので、その手順と、そのOSSの管理手法について記録を残します。

`pythainlp`とは？

タイ語の自然言語処理を行うにあたって恐らく全人類が使うであろう大御所ライブラリ pythainlp があります。

これには、

形態素解析
文章正規化
ローマ字化
スペルチェック
コーパス提供
...

など、タイ語の処理に関する森羅万象の機能が搭載されています。

管理は、backさんとwannaphongさんの2名が積極的に行っております。

プルリク1; 形態素解析の改善

このプルリクのお話です：https://github.com/PyThaiNLP/pythainlp/pull/856

人生の初めてのプルリクは、一行の修正でした。

問題点

僕は深層学習の潜在空間を扱うより、原始的なWordVectorを扱う方が好きなので、かなり頻繁に形態素解析（後述）の機能を利用しています。
そこで、あまり嬉しくない挙動を見つけました。

ถ้าไม่รังเกียจสีหน้า(รถ)
もし表現を気にしないなら(車)

が

ถ้า / ไม่รังเกียจ / สีหน้า / (รถ)
もし / 気にしない / 表現 / (車)

と、()が分解されない。

タイ語の形態素解析
タイ語は、英語のように単語ごとで空白で区切らず、単語を全て繋げて記述します。（韓国語と同じ）

例えば、

เชื่อมต่อทุกคำและเขียน
全て繋げて記述します

で一つの文章になっていて、
単語ごとに区切ると

เชื่อมต่อ / ทุก / คำ / และ / เขียน
繋げる / 全ての / 単語 / そして(and) / 書く

となります。語彙力のない初級者には読解が難しいですね。
このように、「 単語ごとに区切る 」ことを 形態素解析 といいます。
学校の国語でやらされた 品詞分解 というとイメージがつくかもしれません。

ちなみに、タイ語に「熟語」という概念があり、

รถ(車) + ไฟ(電気) -> รถไฟ(電車)

のように、2つの名詞をくっつけて新しい意味の名詞が大量にあります。なので、単純に見つけた単語から単純に切っていけばいいというわけではありません。
ちなみのちなみに、タイ語は後置修飾の言語（green appleではなくapple green）なので、「車」の後ろに「電気」がつくわけです。

タイ語の形態素解析を行うアルゴリズムには、まあ色々ありますが、現在標準的なのはMaximal Matchingが使われています。（細かくいうとThai Cluster Maximal Matching）
かなり簡単に単純に言うと「単語リストと照らし合わせて、なるべく最も長い単語を優先してマッチングしていく」、というものです。熟語の問題もクリアしているわけですね。

改善手順

まずは最初に、issueを立てました。

形態素解析モジュールに

# match non-Thai tokens
_PAT_NONTHAI = re.compile(
    r"""(?x)
[-a-zA-Z]+|        # Latin characters
\d+([,\.]\d+)*|    # numbers
[ \t]+|            # spaces
\r?\n              # newlines
"""
)

このような正規表現が定数として使われていましたが、「タイ語じゃないもの」をどうして「タイ語以外」と指定せずに、具体的に列挙してるんだ？こうしているから漏れが出たのでは？
という疑問です。

みなさんもちょっと違和感を抱いている模様。