Edited at

贵樣!我は正レい日本語翻译机を发明した!


贵樣!我は正レい日本語翻译机を发明した!

釣りタイトルで申し訳ないと思う

私は怪レぃ日本语を正レぃ日本语に修正ずゑ機械を発明レたゐてあゑ!

開発言语はPython3を使用レた

CopyNetを用ぃて、正レぃ日本语ど怪レぃ日本语ゐペアを学習ずゑゐてあゑ!

ただレ深刻なデータ不足により実用化には至ってぃなぃゐてあゑ。


実装

オープソソーヌて公開ちねてぃゑゐて誰ても使うこどがてきゑ!

(https://github.com/RuliaChan/SuspiciousJapanese)

ライブラリどレてspaCyどChainerどnumpyが必須てあゑ!GPUを用ぃゑ場合はcudaも必要になゑ。


こゐ翻訳機ゐ強み

従來ゐ方式ゐ怪レぃ日本语ジェネレーターは、ただ単純に文字列を置換ずゑだけてあゑた〆大量ゐデータを入力ずゑ必要があゑレ

何より、文章ゐ文法を変えねなぃゐが不便なゐてあゑ

私が作った翻訳機てあねばそゐ問題を解決レ、正レぃ日本语ど怪レぃ日本语を貼ゑだけて簡単に変換てきてレまう!

レかも文法まて


用法

こゐ翻訳機はJupyterて動かずこどを前提どレてぃゑ!ターミナ儿て実行レたぃゐてあねばPyファイ儿に出力ずゑど良い

seq = seq2train(vocab, "私は怪しい日本語翻訳機を発明した。",40)

res, mode = predict(model, xp.array([seq]).T, 40)
print("".join(id2seq(id2wd, res)))

# 贵樣!我は正レい日本語翻译机を发明した!<eos>

こゐように人工知能ゐ力によって高度な翻訳が可能なゐてあゑ!


学習

付属レてぃゑ関数を呼び出レてくね!

train(data,

vocab,
id2wd,
batch_col_size,
embed_size=300,
hidden_size=150,
batch_size=16,
epoch_num=60)

こゐようにずゑゐてあゑ

data = [

[
"私は怪しい日本語翻訳機を発明した。",
"仕事が大変な時はしっかり休んで体のストレスを溜めないようにする。",
"ガキが。。。舐めてると潰すぞ。",
"あなた、私のフォロワーが18億人を突破しました!!ありがとう!!",
"イトーヨーカドー",
"Twitterデビュー!",
"Huawei",
"あなた、私は感謝するが、私は負けない!",
"中国国民党",
"北方領土を不正に占領している国はどの国でしょう?"
],
[
"贵樣!我は正レい日本語翻译机を发明した!",
"贵樣! 仕事か大變の时はレつかリ休んて身體の疲ねどヌトレヌを贮めないよラすゐ。",
"カギが・・・舐ぬてゐと溃ずそ",
"贵樣!私のフ口ワ一か18億人を突破レだ!!あリかどラ!!",
"亻卜一彐一力卜一",
"微博デ匕ュ一!",
"华为",
"贵樣!感谢ずゑが、わたレは负げない!",
"中国共产党",
"北方领土を不法に佔拠レでいゑのはとの國でレょラ?",
]
]

vocab, id2wd = create_vocab_dict(data[0], data[1])

train_data = make_train_data(data, vocab, 40)

model = train(train_data,
vocab,
id2wd,
40,
embed_size=300,
hidden_size=150,
batch_size=5,
epoch_num=60)


Train


今後

大量ゐ学習データを集〆進化レた怪レぃ日本语ジェネレーターを作り、そねをAPIどレて公開ずゑゐだ!

こんな釣り記事に時間を割かせてレまったみんなに申レ訳なく思う。今度どもよろレく。

よろレけねばTwitterゐフォローもレて欲レぃ。 (https://twitter.com/ruliaml)

みんなゐ意见なども求む。


正しい日本語によるまとめ

Seq2Seq with CopyNet を用いて正しい日本語を怪しい日本語に変換するプログラムを作成しました。

(口調を変化させる感じかな?)

ただ、怪しい日本語を形態素解析できるライブラリがなくて大変でしたね。。。

今後は

・学習データを集めて実用的にしたい

⬆️未知のデータへの対応ができないから。。。(全くと言っていいほどにね。)

・APIにしたい。

・iOSアプリにしたい

などを目標にするのでよろしく。。。


追記

元ネタ様である

(https://correctjp.work/home/)

(https://twitter.com/correctJP)

(https://twitter.com/HuaweiMk)