日本では言語処理のデータセットを公開しないところが多い
日本では言語処理のデータセットを公開しないところが多いという事実は結構うざいです。
なので、散々悩んだ僕は、いいことに気づきました。
他の国の対話データセット(オープンソース)を使えばいいのです。
しかし、英米つまり英語は文化の差でうまく使えるとはおもいません。
韓国だったら、似てるから使えるのでは?とおもいました。
韓国では、オープンデータが多いのです。 なぜでしょう?
これは日本がオープンデータを作ることで負けていることを表しています。
今の状況は日本語の言語処理入門者に苦情しか出ないものに限りません。
それを解決する前に、僕らが取れる一番手っ取り早い方法をご紹介させていただきます。
それは、PAPAGO APIを使うのです。
import requests
client_id = "" # Client ID
client_secret = "" # Client Secret
url = "https://openapi.naver.com/v1/papago/n2mt"
def translator(input_text):
req_header = {"X-Naver-Client-Id":client_id, "X-Naver-Client-Secret":client_secret}
req_param = {"source":"ko", "target":"ja", "text":input_text}
#print(req_param)
res = requests.post(url,headers=req_header, data=req_param)
#print(res.status_code, res.ok)
if res.ok:
trans_txt=res.json()['message']['result']['translatedText']
return trans_txt
else:
return ""
この関数を用いることで、簡単に翻訳できます。もちろん、使う前にAPIセンターに登録が必要です。
残念ながらpapago以外のいい翻訳機は見当たりません。Googleも勝てません。
(現在、翻訳の仕事もしているからわかります。)
記事は以上です。ざつなので申し訳ないですが、ご参考いただければとおもいます。