2
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

NLPを実践。Googleペガサスプロジェクトによる中国語・英語・日本語のテキスト/文章要約のためのWebアプリデモ

Posted at

NLP in practice: A Web App Demo for text summarization in Chinese, English and Japanese by Google Pegasus Project

STRATEGYSUM Text Summarization /テキスト要約テキストのまとめ文本摘要システム

Google Pegasusプロジェクトモデル[1–2]をベースにしたオンラインテキスト要約推論サービスを、tesla V4 GPUを使用してGoogle Cloud上にデプロイし、試してみました。
オンラインデモでは、英語、中国語、日本語のテキストに対応しており、ユーザーは入力するだけで、システムが自動的に言語を検出して要約処理を行います。
ウェブデモ
http://35.196.244.158
ご質問がある場合やモデル展開計画を提供する必要がある場合は、私に連絡してください: steven.zhang@spacexdeepsace.com
[1] https://github.com/google-research/pegasus
[2] https://ai.googleblog.com/2020/06/pegasus-state-of-art-model-for.html
今日、オンラインユーザーは情報過多に悩まされており、ウェブ上には膨大な量のテキスト情報が急増しているため、ユーザーが必要とする全ての資料を読むことは困難である。
自動テキスト要約は、正式にはこの問題を解決するものであり、また、自動テキスト要約は高度な自然言語アプリケーションの一つでもあります。テキスト要約には、抽出的要約と抽象的要約の2種類があります。抽出的要約は、入力テキストのサブセットを選択して要約を作成することで、重要な内容を最大限にカバーし、冗長性を最小限に抑えることを目的としている。これに対して、抽象的要約は、入力テキストの抽象表現を作成し、自然言語生成技術を用いて要約を生成することを目的としている。抽出的抽象化と比較すると、抽象化抽象化は生成の難易度が高く、抽象化抽象化には原文には存在しない表現が含まれている可能性があるため、手作業で抽象化抽象化を作成するのに近いものとなります。StrategySumは、我々が提案する言語横断抽象化ソリューションであり、ペガサス[1]をベースとしたエンドツーエンドの深層学習モデルを用いて言語横断抽象化表現を抽出することで、多言語抽象化生成を支援するとともに、テキスト推論[2]などの様々な戦略を組み合わせて、生成された抽象化表現が原文に忠実であることを保証するという利点がある。

  • 多言語要約タスクの処理において、学習コーパスは、ある言語では比較的豊富であるが、他の言語では非常に疎である。学習データが非常に疎な場合、モデルが学習する要約例が十分にないため、対象言語の要約タスクを処理することは非常に困難であり、モデルは重度のオーバーフィットやアンダーフィットを起こしやすい。我々は、モデルへのヒントとして言語タイプの埋め込みを使用して、単一のモデルに複数の言語を扱う能力を装備することを提案しています。
  • クロスランゲージ言語モデルは、言語モデルとしてトランスフォーマーベースを用い、言語エンベッディングを導入しながら事前学習スキームとしてペガサスが提案したGSG(Gap Sentences Generation)を用いて学習する。
  • 一般的な抽象化モデルで生成された抽象化文は、真実ではない内容や原文と矛盾する内容を構成することが多い。この問題に対処するために、GoogleもMicrosoftも独自の見識と抽象度忠実度の評価基準を提案している。原文に忠実でない場合は、で提案されている三元論的アプローチを用いて校正を行い、それでも失敗した場合は、抽出された抽象化モデルに置き換えることで、原文への抽象化の忠実度を最大限に確保しています。
  • トランスモデルの空間複雑度はシーケンス長の2乗であり、一般的なトランスモデルの構造では非常に長いテキストを扱うことが難しいという問題に対して、パーティショニング抽出法を用いて、まず抽出抽象を用いてテキストの長さを短くし、ノイズが多く重要でない内容をフィルタリングしながら抽出抽象を生成し、長文テキストとの互換性を確保すると同時に、生成された抽象が現実的であることを保証することを提案している。

抽象化タスクのテスト

Chang’e-5号は、中国の月探査プロジェクト第3期の月探査機で、中華人民共和国初の地球外サンプルリターンミッションを実施し、月探査プロジェクトの「軌道・着陸・帰還」の最後の「帰還」ミッションを完了した. Chang’e-5は2020年11月24日午前4時30分に海南の文昌宇宙発射場から打ち上げられ、月面で自動サンプリングを行い月面から離陸し、地球に帰還して12月17日に内モンゴルに着陸した。

約6000語
抄録:__
Chang’e-5は、2020年11月24日に海南の文昌宇宙発射場から打ち上げられました。これは中国の月探査プロジェクトの第三段階の一部である。中国が宇宙活動を開始して以来、月面での自動サンプリング、月面からの初の離陸という4つの “初 “を達成した。無人での月面サンプルリターンでミッションは終了した

2
3
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?