本記事では、標準語のテキストを博多弁に変換する簡単な自然言語処理ツールを作ってみた過程を公開します。コンセプトは「方言女子と戯れたい」。敢えて機械学習は使用せず、規則ベースにて実装。シンプルですが変換結果を制御できる利点もあります。対象は特に人気の高い「博多弁をしゃべる女子」とし、今回は既存のサービスを調べ、その問題点を探るとともに、今後の開発方針を検討しました。
最終的にはこのツールを利用して本プロジェクト(東北大)のアンドロイドエージェント「青葉山子」や「川内萌」が博多弁をしゃべったり、博多弁の新しいエージェント(九州大?)が登場、なんてこともあり得るかもしれません^^;
#1. JavaScriptでWebページのテキストを方言などに変換するためのテキスト置換ライブラリ
https://qiita.com/setouchi/items/5ebeae7426bf72da7e56
##このサイトのアルゴリズム
「私」という文字列を見つけて、「わたし」に置換するなどの、単純な置き換えである。
よって文脈や文字の繋がりは考慮されず、「私立高校」などの「私」も変換されてしまう。
↓
文脈や単語のつながりを考慮した変換が必要
#2 既存の方言翻訳サイト比較
一番かわいいと言われている博多弁[1]で検証
[1]CanCan調べhttps://cancam.jp/archives/270892
実験
いろいろな変換サイトを試してみて、問題点を探していく。
##変換する文章
もしかして君が新しい学生さん?
初めまして。私の名前は川内萌です。
こう見えても、ここ伊藤・伊勢研究室の一員なんですよ。
よろしくお願いします。
##No.1 恋する方言変換
http://www.8toch.net/translate/
もしかして君が新しか学生しゃん?
初めまして。うちん名前は川内萌ばい。
こう見えてん、ここ伊藤・伊勢研究室ん一員たい。
よろしゅうお願いする。
##No.2 もんじろう
http://monjiro.net/
ひょっとして君の新しい学生しゃん?
初めまして。うちん名前は川内萌たい。
こう見えても、ここ伊藤・伊勢研究室ん一員なしけんしゅちゃ。
よろしゅうお願いするけんね。
##No.3博多弁sweet文章変換
http://sweetdrop.net/sweetword/swhen_h.html
もしかして君が新しい学生さん?
初めまして。私の名前は川内萌ばい。
こう見えても、ここ伊藤・伊勢研究室の一員なんか~ばい。
よろしくお願いするばい。
##No.4 博多弁に変えるとよ(単語数713)
http://nakasu.fc2web.com/mise/hakataben/hakataben.html
ひょっとして君が新しか学生しゃん?
初めまして。うちの名前は川内萌ばい。
こう見えても、ここ伊藤・伊勢研究室の一員なんばいよ。
よろしゅうお願いするとよ。
##No.5 安川タクシー(単語数324)
http://www.yasukawa-group.com/yasukawa/hakataben.html
もばってんて君が新しい学生しゃん?
初めまして。うちの名前は川内萌ばい。
こう見えても、ここ伊藤・伊勢研究室の一員なんとよ。
よろしゅうお願いするとよ。
#一文ごとに比較
##一文目
元 もしかして君が新しい学生さん?
恋 もしかして君が新しか学生しゃん?
も ひょっとして君の新しい学生しゃん?
S もしかして君が新しい学生さん?
変 ひょっとして君が新しか学生しゃん?
安 もばってんて君が新しい学生しゃん?
###もしかして
“恋”と“変”では、「ひょっとして」と変換した。地域によるのかもしれないが、「もしかして」というフレーズは使わないのかもしれない。“安”では逆説の「しかし」の意の「ばってん」と置き換えている。
###君が
“も”では、「の」に変換している。誤変換だと思われる。
###新しい
“恋”と“変”が「新しか」に変換している。しかし、文の途中であるここで「新しか」を使うのは、正しいとは言えない。
(引用 wikipedia 博多弁https://ja.wikipedia.org/wiki/%E5%8D%9A%E5%A4%9A%E5%BC%81)
カ語尾
共通語の終止形、連体形の活用語尾「い」を「か」ということがある。しかし、福岡でカ語尾は「よか」を除くとあまり聞かれず、「よか」以外の形容詞にカ語尾を付ける時は詠嘆を表すことが多い。
###学生さん?
”S”以外が「学生しゃん?」に変換してた。
##二文目
元 初めまして。私の名前は川内萌です。
恋 初めまして。うちん名前は川内萌ばい。
も 初めまして。うちん名前は川内萌たい。
S 初めまして。私の名前は川内萌ばい。
変 初めまして。うちの名前は川内萌ばい。
安 初めまして。うちの名前は川内萌ばい。
###私の
「うちん」と「うちの」の二種類があった。「うちの」は正しいようだが、「うちん」は不明
###萌です
「萌ばい。」「萌たい。」の二種類があった。言い切りの形ではどちらも使われている。「〇〇です。」の自己紹介では、「〇〇ったいね。」「〇〇っていうっちゃん。」などが存在するらしい。
##三文目
元 こう見えても、ここ伊藤・伊勢研究室の一員なんですよ。
恋 こう見えてん、ここ伊藤・伊勢研究室ん一員たい。
も こう見えても、ここ伊藤・伊勢研究室ん一員なしけんしゅちゃ。
S こう見えても、ここ伊藤・伊勢研究室の一員なんか~ばい。
変 こう見えても、ここ伊藤・伊勢研究室の一員なんばいよ。
安 こう見えても、ここ伊藤・伊勢研究室の一員なんとよ。
###見えても
”恋”の「見えてん」の「ん」は、正しいのか判別不能。一部地域では話されているのかも?
###なんですよ
”恋”が一番普通。おそらく、「なんですよ」というフレーズを想定していた。ほかのサイトは不自然な表現になっている。
##四文目
元 よろしくお願いします。
恋 よろしゅうお願いする。
も よろしゅうお願いするけんね。
S よろしくお願いするばい。
変 よろしゅうお願いするとよ。
安 よろしゅうお願いするとよ。
###よろしく
「よろしゅう」にほとんど変換された。
###お願いします
”恋”は「します」を「する」に変換したが、不自然。”も”は、いけなくもなさそう。”S”の「ばい」はなんか違う気がする。「するとよ」の二つは、正解か不正解なのかよくわからない。
#まとめ
今後、萌ちゃんに方言をしゃべってもらう上で一番大切なのは、いかに適切な語尾を使えるかだと感じた。
いろんな翻訳サイトで試してみた結果、完成度がもっとも高いと感じたのは、”恋する方言翻訳”だった。そう感じた理由は、語尾のまとまりの良さである。「なんですよ」を「たい」と訳すなど、カバー範囲は広く、かつよく使われる語尾にもしっかり対応していた。ただし、カバー範囲にも限界があるようで、「お願いします」までは訳せなかった。
これからの方針として、この”恋する方言翻訳”以上にきれいな語尾を作れるようにしていく。そのためには、いかに多く種類の共通語の語尾を方言に落とし込めるかが重要になるだろう。
また、語尾以外では基本的なポイント(例「〇〇さん」→「〇〇しゃん」)を外さなければ、なんとかなる。と感じた。