3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

CA Tech LoungeAdvent Calendar 2023

Day 22

タイ語処理OSSに4発プルリクを出した初コントリビューション体験記①; 形態素解析

Last updated at Posted at 2023-12-02

はじめに

タイ語が読めるので、インターン先で社内唯一のタイ語NLPデータサイエンサーとして登用されている者です。

プログラミングは9年以上やっているのですが、初めてOSSにコントリビューションできて嬉しくなったので、その手順と、そのOSSの管理手法について記録を残します。

pythainlpとは?

タイ語の自然言語処理を行うにあたって恐らく全人類が使うであろう大御所ライブラリ pythainlp があります。

これには、

  • 形態素解析
  • 文章正規化
  • ローマ字化
  • スペルチェック
  • コーパス提供
  • ...

など、タイ語の処理に関する森羅万象の機能が搭載されています。

管理は、backさんwannaphongさんの2名が積極的に行っております。

プルリク1; 形態素解析の改善

このプルリクのお話です:https://github.com/PyThaiNLP/pythainlp/pull/856

人生の初めてのプルリクは、一行の修正でした。

問題点

僕は深層学習の潜在空間を扱うより、原始的なWordVectorを扱う方が好きなので、かなり頻繁に形態素解析(後述)の機能を利用しています。
そこで、あまり嬉しくない挙動を見つけました。

ถ้าไม่รังเกียจสีหน้า(รถ)
もし表現を気にしないなら(車)

ถ้า / ไม่รังเกียจ / สีหน้า / (รถ)
もし / 気にしない / 表現 / (車)

と、()が分解されない。

タイ語の形態素解析
タイ語は、英語のように単語ごとで空白で区切らず、単語を全て繋げて記述します。(韓国語と同じ)

例えば、

เชื่อมต่อทุกคำและเขียน
全て繋げて記述します

で一つの文章になっていて、
単語ごとに区切ると

เชื่อมต่อ / ทุก / คำ / และ / เขียน
繋げる / 全ての / 単語 / そして(and) / 書く

となります。語彙力のない初級者には読解が難しいですね。
このように、「 単語ごとに区切る 」ことを 形態素解析 といいます。
学校の国語でやらされた 品詞分解 というとイメージがつくかもしれません。

ちなみに、タイ語に「熟語」という概念があり、

รถ(車) + ไฟ(電気) -> รถไฟ(電車)

のように、2つの名詞をくっつけて新しい意味の名詞が大量にあります。なので、単純に見つけた単語から単純に切っていけばいいというわけではありません。
ちなみのちなみに、タイ語は後置修飾の言語(green appleではなくapple green)なので、「車」の後ろに「電気」がつくわけです。

タイ語の形態素解析を行うアルゴリズムには、まあ色々ありますが、現在標準的なのはMaximal Matchingが使われています。(細かくいうとThai Cluster Maximal Matching)
かなり簡単に単純に言うと「単語リストと照らし合わせて、なるべく最も長い単語を優先してマッチングしていく」、というものです。熟語の問題もクリアしているわけですね。

改善手順

まずは最初に、issueを立てました。
image.png

形態素解析モジュールに

# match non-Thai tokens
_PAT_NONTHAI = re.compile(
    r"""(?x)
[-a-zA-Z]+|        # Latin characters
\d+([,\.]\d+)*|    # numbers
[ \t]+|            # spaces
\r?\n              # newlines
"""
)

このような正規表現が定数として使われていましたが、「タイ語じゃないもの」をどうして「タイ語以外」と指定せずに、具体的に列挙してるんだ?こうしているから漏れが出たのでは?
という疑問です。

image.png
みなさんもちょっと違和感を抱いている模様。

なので、

  • レポジトリをフォークして、
  • 修正して、
  • プルリクエストを提出

しました。

最初の提案
image.png

タイ文字の文字コードが\u0E00-\u0E7Fなので、「それ以外」という意味で[^\u0E00-\u0E7F]+ではないかと。

すると×印が。
image.png

テストコードとlint(コード規約チェック)が通らなかったとのこと。
image.png

当時はGitHub Actionsに触れたことがなかったので、世の中にこんな便利な機能があるんだと震撼し、次の日から自分で使い始めました。

しばらくして皆さまが情報整備を行いました。歯車を動かした感じがしてドキドキ。
image.png

テストコードを確認していると、そもそもの仕様変更なので矛盾が生じていた模様。管理者がどう受け止めるかをお伺いすると、
image.png
devブランチの更新をpullしてくれと言われたので、pullすると
image.png
対象の関数のデフォルト形態素解析器をすり替えた模様。それアリなんだ。

pullしたものの、まだバツ印が。
image.png

linterとテストコードがはじかれている模様。
image.png

linterの結果報告を見ても、自分の担当箇所のコード規約は大丈夫だという(逆に言うと他の箇所は規約違反のまま残っているんですね)
image.png

同様に、テストコードも自分の担当箇所以外がひっかかっているようでした。
問い合わせてみると、
image.png

テスト環境の整備が間に合っていないとのこと。かわいそうに。

そこで、こちらはこちらで良からぬ挙動が。12:12pm と空白1つがひっついちゃっているという。
image.png
そしてもう直したとのこと。レポジトリ管理者はフォークレポジトリに直接pushできるんですね。

自分がコメントを付け足して、最終的にはこうなりました。
image.png
要するに、|で先にパターンを書いておくことにより、「非タイ文字」を ごっそり 区切ってしまうのではなく、非タイ文字の中でも、「アルファベット」「数字」などをさらに区切ることができる、早期returnのような使い方をしています。

_PAT_NONTHAIの変数名に対してはミスマッチしているような気もしますが、勉強になりますね。

最後に

一つの記事にまとめようと思いましたが、縦長になってきたので分割します。(分割記事はあんま伸びないんだよなあ...)

明日ぐらいに、2発目のプルリクについてのお話を書きます。

いいね頂けると泣きながら喜びます><

この記事を読んでいる方は、これらの記事も読んでいるのかもしれません:

3
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?