0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

タイ語の単語切りテストデータにおけるクリーニングの重要性

Posted at

一昨日の記事で触れたThodsaporn Chay-intr, Hidetaka Kamigaito, Manabu Okumura『Character-Based Thai Word Segmentation with Multiple Attentions』の筆頭著者から、タイ語の単語切りに用いたデータをいただくことができた。だが、いただいたテストデータの中に、妙な単語切りが紛れ込んでいて、閉口してしまった。たとえば「อาจจะ」が「อาจจ」と「ะ」にブッタ切られている。その点を尋ねてみたところ、どうやら元にしたBEST2010が、すでに間違っているらしい。ただ、私(安岡孝一)の手元からは、オリジナルのBEST2010がイマイチうまくダウンロードできないので、ミラー版のBEST2010をチェックしてみた。

$ test -d corpus || git clone --depth=1 https://github.com/korakot/corpus
$ fgrep '|อาจจ|ะ|' `find corpus/BEST -name '*.txt'`
corpus/BEST/TrainingSet/novel/novel_00078.txt:"|นั่น|ไง|"| |หมอ|ว่า| |"|นั่น|ไง| |หมอ|จึง|ต้อง|ตรวจ|สมอง| |ที|แรก|ก็|ยัง|ไม่|อยาก|ทำ|หรอก|นะ| |เพราะ|อยาก|จะ|ลอง|ดู|อาการ|ทาง|ประสาท|ไป|ก่อน| |บาง|ที|มัน|อาจจ|ะ|เกิด|จาก|การ|วิตกกังวล|อะไร|บาง|อย่าง| |แต่|อีก|ระยะ|หนึ่ง|ถ้า|ไม่|ดี|ขึ้น| |เรา|ก็|จะ|ดู|ความ|ผิด|ปกติ|ใน|สมอง|กัน|เลย| |แต่|ถ้า|เป็น|โรค|ลมชัก|ธรรมดา|ก็|กิน|ยา|ไป|เรื่อย|ๆ| |ไม่|ต้อง|ผ่าตัด|วัน|นี้| |<AB>พ.ศ.</AB>|นี้| |เป็น|โรค|ที่|ยัง|ผ่าตัด|ให้|หาย|ไม่|ได้|นะ|ครับ| |แต่|วัน|หน้า|หมอ|ก็|ไม่|ทราบ|เหมือน|กัน|...|"|
corpus/BEST/TrainingSet/novel/novel_00078.txt:<NE>น้ำตาล</NE>|พูด|ออก|ไป|จาก|ใจจริง| |ครึ่ง|หนึ่ง|ด้วย|ความ|สงสาร|แม่|ที่|อาจจ|ะ|ต้อง|จ่าย|ค่า|ผ่าตัด|<NE>น้ำตาล</NE>| |แพง| |แต่|อีก|ครึ่ง|หนึ่ง|ก็|เพราะ|<NE>น้ำตาล</NE>|กลัว|การ|ผ่าตัด|
corpus/BEST/TrainingSet/novel/novel_00078.txt:"|คุณ|น้า|ฮะ|"| |<NE>พี่เต้น</NE>|เอ่ย|เมื่อ|เห็น|ท่าที|มึนตึง|ของ|แม่| |"|อย่า|เพิ่ง|โกรธ|ผม|เลย|นะ|ฮะ| |บาง|ที|ผม|อาจจ|ะ|ช่วย|อะไร|น้อง|ได้|บ้าง|"|
corpus/BEST/TrainingSet/novel/novel_00078.txt:บรรยากาศ|การ|เรียน|เพื่อ|สอบ|เทียบ|ชวน|ให้|<NE>น้ำตาล</NE>|ตื่นเต้น|ยิ่ง|นัก|เพราะ|มี|เพื่อน|นัก|เรียน|ชาย|มา|เรียน|ด้วย| |เพื่อน|ๆ| |ที่|มา|จาก|โรง|เรียน|เดียว|กับ|<NE>น้ำตาล</NE>|ออก|จะ|กรี๊ดกร๊าด|มาก|กว่า|ปกติ| |เพราะ|ไม่|เคย|เรียน|รวม|กับ|ผู้|ชาย|มา|ก่อน| |<NE>น้ำตาล</NE>|ย้อน|นึก|ไป|ถึง|สมัย|ที่|เรียน|ชั้น|ประถม|ขึ้น|มา|ทันที| |ป่าน|นี้|<NE>ไอ้มดแดง</NE>|มัน|เรียน|อะไร|อยู่|นะ| |บาง|ที|คน|เกเร|แบบ|มัน|อาจจ|ะ|เรียน|โรง|เรียน|อาชีวะ|ก็|ได้|

novel_00078.txtに、この間違いが集中しているようだ。もうちょっと調べてみよう。

$ fgrep '|ะ' `find corpus/BEST -name '*.txt'`
corpus/BEST/TrainingSet/novel/novel_00078.txt:"|นั่น|ไง|"| |หมอ|ว่า| |"|นั่น|ไง| |หมอ|จึง|ต้อง|ตรวจ|สมอง| |ที|แรก|ก็|ยัง|ไม่|อยาก|ทำ|หรอก|นะ| |เพราะ|อยาก|จะ|ลอง|ดู|อาการ|ทาง|ประสาท|ไป|ก่อน| |บาง|ที|มัน|อาจจ|ะ|เกิด|จาก|การ|วิตกกังวล|อะไร|บาง|อย่าง| |แต่|อีก|ระยะ|หนึ่ง|ถ้า|ไม่|ดี|ขึ้น| |เรา|ก็|จะ|ดู|ความ|ผิด|ปกติ|ใน|สมอง|กัน|เลย| |แต่|ถ้า|เป็น|โรค|ลมชัก|ธรรมดา|ก็|กิน|ยา|ไป|เรื่อย|ๆ| |ไม่|ต้อง|ผ่าตัด|วัน|นี้| |<AB>พ.ศ.</AB>|นี้| |เป็น|โรค|ที่|ยัง|ผ่าตัด|ให้|หาย|ไม่|ได้|นะ|ครับ| |แต่|วัน|หน้า|หมอ|ก็|ไม่|ทราบ|เหมือน|กัน|...|"|
corpus/BEST/TrainingSet/novel/novel_00078.txt:<NE>น้ำตาล</NE>|พูด|ออก|ไป|จาก|ใจจริง| |ครึ่ง|หนึ่ง|ด้วย|ความ|สงสาร|แม่|ที่|อาจจ|ะ|ต้อง|จ่าย|ค่า|ผ่าตัด|<NE>น้ำตาล</NE>| |แพง| |แต่|อีก|ครึ่ง|หนึ่ง|ก็|เพราะ|<NE>น้ำตาล</NE>|กลัว|การ|ผ่าตัด|
corpus/BEST/TrainingSet/novel/novel_00078.txt:"|คุณ|น้า|ฮะ|"| |<NE>พี่เต้น</NE>|เอ่ย|เมื่อ|เห็น|ท่าที|มึนตึง|ของ|แม่| |"|อย่า|เพิ่ง|โกรธ|ผม|เลย|นะ|ฮะ| |บาง|ที|ผม|อาจจ|ะ|ช่วย|อะไร|น้อง|ได้|บ้าง|"|
corpus/BEST/TrainingSet/novel/novel_00078.txt:บรรยากาศ|การ|เรียน|เพื่อ|สอบ|เทียบ|ชวน|ให้|<NE>น้ำตาล</NE>|ตื่นเต้น|ยิ่ง|นัก|เพราะ|มี|เพื่อน|นัก|เรียน|ชาย|มา|เรียน|ด้วย| |เพื่อน|ๆ| |ที่|มา|จาก|โรง|เรียน|เดียว|กับ|<NE>น้ำตาล</NE>|ออก|จะ|กรี๊ดกร๊าด|มาก|กว่า|ปกติ| |เพราะ|ไม่|เคย|เรียน|รวม|กับ|ผู้|ชาย|มา|ก่อน| |<NE>น้ำตาล</NE>|ย้อน|นึก|ไป|ถึง|สมัย|ที่|เรียน|ชั้น|ประถม|ขึ้น|มา|ทันที| |ป่าน|นี้|<NE>ไอ้มดแดง</NE>|มัน|เรียน|อะไร|อยู่|นะ| |บาง|ที|คน|เกเร|แบบ|มัน|อาจจ|ะ|เรียน|โรง|เรียน|อาชีวะ|ก็|ได้|
corpus/BEST/TrainingSet/encyclopedia/encyclopedia_00055.txt:แสดง|ว่า|ยัง|ไม่|มี|การ|ใช้|ไม้หันอากาศ| |เพราะ|เสียง|ะ|ใน|คำ|ที่|มี|ตัว|สะกด|ก็|ใช้|พยัญชนะ|สะกด|ซ้ำ| |๒| |ตัว| |เช่น| |มน|น|มัน|

あとはencyclopedia_00055.txtに、誤って混入したらしい「ะ」が1つ。これらの間違いは、元々のBEST2010ではTrainingSet(訓練データ)に含まれている。

タイ語では「ะ」が語頭に来ることはありえないし、タイ文字クラスター(คลัสเตอร์อักษรไทย)もそう設計されている。こういう間違いがテストデータに含まれていると、正しく単語切りできるプログラムのF値が低くなってしまうので、私個人は閉口してしまうのだ。訓練データに間違いが紛れ込むのは避けられないとしても、そこからテストデータを抽出してくるのなら、ちゃんとテストデータはクリーニングしておいてほしいなあ。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?