LoginSignup
2
1

More than 3 years have passed since last update.

方言を翻訳しようともがいた(失敗作)

Last updated at Posted at 2021-01-29

結論

失敗しました。改善すべき点を記録して、改善に取り組んでいます。
苦しみの過程(github)

output03.png

<unk>が「スガハッタ」に変換されている!錬金術かな?

原因

  • 方言訳はカタカナで書くことが殆ど
  • 形態素解析器はカタカナを分割しない
  • 1文=1単語になった(画像のplotを見ると分かると思います)
  • 従って、<unk>に対応できない翻訳機となった

背景

  • 日英翻訳機が大量にある。他の言語もある。エスペラント語もある。
  • しかし、方言翻訳機はルールベースのものしかない(そもそも狙っている方言がマイナーなためか、翻訳機もない)
  • 今時自作するなら機械翻訳だよね!

使ったもの

  • ブラウザ(Chormeを使いました)
  • Google Colab
  • テキストエディタ

やったこと

  1. 方言アライメントを用意する(ネットサーフィンしまくりました)
  2. アライメントをtsvに変換する(リポジトリ内 Hiraki_Sudahi.ipynbで実行可能です)
  3. アライメントの方言訳がカタカナだったので、標準語をカタカナに開く(ココが間違いだった)
  4. 参考ソースコードを用いてアライメントをベクトル化する
  5. Tensorflowを用いて学習・予測する

参考にしたソースコード様

kawasaki-kento/Transformer
SudachiPyで分かち書きしたきのメモ

補足

良質なコーパスを入手できる環境などがありましたらコメント頂けると嬉しいです。
TensorよりTorchの方が楽かも知れないと思ったりしました。けど、ひとまずこれで一通り試したい所存。

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1