More than 5 years have passed since last update.

Team AI by Kiara Inc.

AI翻訳アルゴリズムの構築に必要なデータセット集 by Kiara

Last updated at 2019-10-21Posted at 2019-10-21

はじめに

弊社では、Kiaraという同時翻訳Chatbotツール(Slack Plugin)を開発しながら、
オープンイノベーションで自然言語処理・機械翻訳の研究を進めています。
https://www.kiara-app.com/

背景

世界には数千の言語があります
1000 x 1000 の組み合わせだけでも100万通りあり、
それぞれのペアの辞書は作りきれないですが、
昨今のニューラルネットワークの発展で機械翻訳がめざましく性能が上がっています。

https://www.linguisticsociety.org/content/how-many-languages-are-there-world

言語学の探究の対象は人間の言語、特に世界の言語の多様性の範囲と限界です。したがって、言語学者は、世界にいくつの言語が存在するかについて、明確で合理的に正確な概念を持っていると考えるかもしれません。しかし、そのような明確なカウントはない、または少なくとも、現代言語学の科学的発見としての地位を持つカウントはないことが判明しました。

この不足の理由は、（ちょうど）高地ニューギニアやアマゾンの森林などの世界の一部がそこに住んでいる人々の範囲を確認するのに十分な詳細に調査されていないということではありません。むしろ、問題は、言語を列挙するという概念が見かけよりもはるかに複雑であることです。この一見単純な質問に対して、言語学者が与えるかもしれない、一貫性のある（しかし全く異なる）答えがいくつかあります。

OPUS

OPUSは、ウェブから翻訳されたテキストのコレクションです。 OPUSプロジェクトでは、無料のオンラインデータを変換および調整し、言語注釈を追加し、コミュニティに公開されている並列コーパスを提供しようとします。 OPUSはオープンソース製品に基づいており、コーパスはオープンコンテンツパッケージとしても配信されます。いくつかのツールを使用して、現在のコレクションをコンパイルしました。すべての前処理は自動的に行われます。手動による修正は行われていません。

OPUSコレクションは成長しています！時々このページをチェックして、到着する新しいデータを確認してください...
寄付は大歓迎です！ jorg.tiedemann@helsinki.fiまでご連絡ください

DGT-TM

2007年11月以降、欧州委員会の翻訳総局は、多言語、言語の多様性、および委員会の再利用をサポートする欧州委員会の一般的な取り組みを促進するために、Acquis Communautaireの多言語翻訳メモリDGT-TMを公開しました。情報。

技術ユーザー向けのこのページでは、このユニークな言語リソースの説明と、それをダウンロードする場所と、276言語ペアまたは552言語ペア方向のバイリンガルアラインコーパスの作成方法について説明します。 22の言語に翻訳された1つの文の例を次に示します。

Panlex

PanLexは、世界最大の語彙データベースを構築しています

私達がすること
10年以上にわたり、私たちは世界最大の語彙翻訳データベースを構築しており、常に新しい単語と言語を追加しています。数千の翻訳辞書を単一の共通構造に変換することにより、PanLexデータベースでは、単一の辞書にはない数十億の語彙翻訳を導き出すことができます。

なぜそんなに重要なのか
主要な言語の話者と十分にサービスされていない言語を話す人が利用できる機会の間には、格差が広がっています。十分なサービスが提供されていない言語で翻訳辞書と技術を利用できるようにすることで、スピーカーは、社会的、文化的、経済的福祉をサポートしながら、権利を行使し、平等な機会にアクセスできます

Google翻訳との違い
Google翻訳およびその他の機械翻訳アプリケーションは、最大100の主要な世界の言語で文章全体およびテキストを翻訳します。 PanLexは、数千の言語で単語を翻訳します。私たちのデータベースは、パンリンガル（すべての言語の範囲を強調）および語彙（文ではなく単語に焦点を当てています）です。データは無料で公開されています。

25 Best Parallel Text Datasets

機械翻訳トレーニング用の並列テキストデータセット
カナダの第36議会の調整されたハンサード：英語とフランス語の130万ペアの調整されたテキストセグメント。テキストは、第36カナダ議会の公式記録から取られています。

欧州議会の議事録並列コーパス1996-2011：文は21のヨーロッパ言語で対になっています。すべてのテキストには、ドキュメント、発言者、段落を含むメタデータが含まれています。

Global Voices Parallel Corpus：ニュースポータルGlobal Voicesからの選択。57の異なる言語で同じニュース記事を取り上げています。コーパスは四半期ごとに更新されます。

中国語-フランス語テキスト：中国語放送ニュースからの約30,000の中国語文字のサブセットのフランス語翻訳を含むデータセット。

Arabizi Text：522のツイートで構成される英語とArabizi（アラビア語チャット言語）の混合テキストでのコード切り替えの自動検出のためのトレーニングデータ。

英語-ベトナム語テキスト：プロの翻訳者がベトナム語に翻訳した500,000の英語ドキュメントのコーパス。ソーステキストには、2000年から2007年の間に収集された書籍、辞書、新聞、オンラインニュースが含まれます。

英語-ペルシャ語のテキスト：法律、文学、科学、芸術、政治などの分野からの英語とペルシャ語の200,000以上の整列した文章が含まれています。

中国語と英語の電子メール：電子メールからの中国語の15,000文字（10,000ワードに相当）と、英語の参照翻訳が含まれています。

フランス語-アラビア語の新聞：アラビア語の10,000語のコーパスとフランス語の2つの参照翻訳。ソーステキストは、2013年5月にアラビア語版のLe Monde Diplomatiqueから収集された記事です。

Pashto-French Text：フランス語に翻訳されたPashtoでの106時間の録音の転写で構成されています。

ドイツ語-英語テキスト：ドイツ語、英語、トルコ語の手動で整列されたデータセットのセット。

トルコ語-英語テキスト：WMT2018用のトルコ語-英語並列コーパス。

国連翻訳テキスト：6か国語で国連から翻訳された文書のコレクション。

XhosaNavy：ステレンボッシュ大学のE＆E工学部のHerman Engelbrechtによる南アフリカ海軍の並列コーパス。

ウィキペディア：20の言語でウィキペディアから抽出された数百万の並列文の大規模なコーパス。

英語-クロアチア語：英語とクロアチア語の並列ドキュメントペア候補。

カタロニア語-スペイン語：カタロニア語およびスペイン語のカタロニア政府の公式ジャーナルからの文書のコレクション。

英語-日本語：Wikipediaの両言語の京都記事の約50万ペアの手動翻訳文のデータセット。

OntoNotes：英語、中国語、アラビア語のさまざまなジャンルのテキストを含む注釈付きコーパス-ニュース、会話電話、ウェブログ、ユースネットニュースグループ、放送、トークショー。

中国のツリーバンク：中国のニュースワイヤー、政府の文書、雑誌記事、およびさまざまな放送ニュースからの注釈付きで解析されたテキストの約150万語が含まれています。

Arabic Broadcast News Transcripts：2008年と2009年に収集された約37時間のアラビア語放送ニューススピーチの転写が含まれています

Quoraより

それは、「任意の言語」の意味に依存します。数千の言語があり、それらのほとんどについては、翻訳されたテキスト（平行コーパス）は言うまでもなく、書かれたテキストを見つけるのは困難です（書記体系がない場合もあるため）。

少し控えめな場合は、少なくとも非常に多くの言語をカバーする、並列コーパスの素晴らしいコレクションがOpusプロジェクトWebサイトから入手できます。抽出できるコーパスが、MTモデルをトレーニングするのに十分な大きさであるかどうかによって異なります。多くの場合、作成できるモデルの品質とカバレッジはかなり制限されます。

EU言語（現在24）に興味がある場合は、DGT-TMと呼ばれるEU機関の翻訳者が作成した並行テキストの興味深いコレクションがあります。

人々は聖書（最も翻訳された本の1つ）の翻訳を使用して多くの言語でMT実験を行ってきましたが、ここでの問題は言語が少し古く、テキスト（したがってそれから作成されたモデル）が現代の語彙の多くをカバーしていません。

翻訳されたテキストではなく語彙に重点を置きたい場合は、Long Now FoundationのPanlexプロジェクトをご覧ください。

===

主要言語に限定して満足できる限り、翻訳用のデータセットを見つけることができる場所はいくつかあります。たとえば、Wikipediaには20の言語のコーパスがあり、欧州議会には21のヨーロッパ言語の文のペアがあります。それ以外は、単一の言語ペア間で翻訳するデータセットを見つけるのが一般的です。時間と労力を費やす意思がある場合は、いくつかの異なるデータセットを見つけて、モデルに合わせて変更することができます。

私が勤務するGengoでは、さまざまなグローバル言語で最も有用な並列テキストデータセットのリストを作成しました。これは、探しているデータを見つけるのに役立ちます。または、Gengoからカスタムデータセットを注文することを検討できます。 22,000人を超える認定言語の専門家が37言語の翻訳データセットの作成または注釈付けを待機しているため、お客様のデータニーズを満たすのに最適です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up