自然言語処理
機械翻訳
TranslatorHub

Microsoft Translator Hub を使い始める際に見ておくとよいリソース

あまり需要は多くないと思っていますが、Translator Hub を使う機会があるので少しまとめておきたいと思います。

はじめに

この投稿のゴールは、Microsoft Translator Hub を使い始めようと思った人が、最初に読んでおいたほうがよさそうな情報をまとめることです。技術的な背景の解説は含みません。

Translator Hub とは?

Microsoft Research の研究成果として公開されている、機械翻訳 API 作成のための仕組みです。

既存のサービスを使えばよいのでは?

一般的に利用できる翻訳サービスとしては、Bing TranslatorGoogle翻訳 があります。また、Translate API のような言語翻訳用の API を提供しています。これらのサービスなどをビジネス上のシステムで使おうとした場合、一般的に利用されない社内用語に対して適切な翻訳が行えないことが課題となるケースがあります。
Translator Hub は Translate API に対して、翻訳のスタイルや独自の用語を事前に学習させることで API をカスタマイズすることができ、この課題に対処することができます。

本当に使っても大丈夫なの?

ダメということはないのですが、気を付けたほうがよいポイントがあるかと思います。

  • 一般提供開始済みのサービスではないため、コミュニティによる支援のみ
  • 要望、アイデアに関しては受付用のサイトに対してのフィードバックが可能

という状態です。(2018年1月現在)
自分たちで調べて解決していく必要があるということを念頭に、どのように利用可能かを検討することが重要だと思います。

初めの一歩として何を見ればいいの?

Translator Hub のサイト上のリソースや、Microsoft Research のリソースなどがありますが、遠回りのようで手っ取り早いと私が思ったのは、利用者ガイド です。概念、利用開始までの手順がまとまっています。英語で書かれてはいますが、それこそ上述の一般的な翻訳サービスを使って、まずはざっくりと理解してみるのが良いかと思います。

重要な点のザックリ要約

全部読んで理解したほうがよいと思うのですが、ざっくり要約すると Translator Hub を利用して翻訳 API を準備するための方法は以下のような感じです。

  • 元となる文章と翻訳先の言語に翻訳された文章が一対一で記入されているドキュメントを準備する
  • 翻訳先の言語で記載された文章のみのドキュメントを準備する
  • 元となる単語と翻訳先の言語で記述された単語の辞書を準備する
  • 上述の三つを Translator API に学習させる
  • 評価する

まとめ

というわけで、利用者ガイドを読みましょう。