結論
失敗しました。改善すべき点を記録して、改善に取り組んでいます。
苦しみの過程(github)
<unk>
が「スガハッタ」に変換されている!錬金術かな?
原因
- 方言訳はカタカナで書くことが殆ど
- 形態素解析器はカタカナを分割しない
- 1文=1単語になった(画像のplotを見ると分かると思います)
- 従って、
<unk>
に対応できない翻訳機となった
背景
- 日英翻訳機が大量にある。他の言語もある。エスペラント語もある。
- しかし、方言翻訳機はルールベースのものしかない(そもそも狙っている方言がマイナーなためか、翻訳機もない)
- 今時自作するなら機械翻訳だよね!
使ったもの
- ブラウザ(Chormeを使いました)
- Google Colab
- テキストエディタ
やったこと
- 方言アライメントを用意する(ネットサーフィンしまくりました)
- アライメントをtsvに変換する(リポジトリ内 Hiraki_Sudahi.ipynbで実行可能です)
- アライメントの方言訳がカタカナだったので、標準語をカタカナに開く**(ココが間違いだった)**
- 参考ソースコードを用いてアライメントをベクトル化する
- Tensorflowを用いて学習・予測する
参考にしたソースコード様
kawasaki-kento/Transformer
SudachiPyで分かち書きしたきのメモ
補足
良質なコーパスを入手できる環境などがありましたらコメント頂けると嬉しいです。
TensorよりTorchの方が楽かも知れないと思ったりしました。けど、ひとまずこれで一通り試したい所存。