これは、過去10年間のAIにおける最も顕著な技術的進歩のひとつである、テキスト解析と自然言語処理(NLP)の、手作業による退屈なルールベースのシステムから意味認識モデルへの進化の物語である。言い換えれば、コンピュータとヒトの言葉の関係は、構文ベースから文脈ベースへ、そして単なる「処理」からニュアンスの理解へと進化したのである。
このブログでは、大規模言語モデル(LLM)によりテキスト分析がどう変化しているかを探り、非構造化テキストのデータからより多くの情報を引き出すために、Dataikuがどのように最新のテクノロジーで時代遅れの文書解析プロセスを改善できるかを説明します。
起源をたどる: NLPの形成期
NLPの歴史を紐解くと、1960年代にルールベースの分類法、事前定義されたパターンマッチング、その他の言語処理の技術が登場した時から始まります。これらの手法は、多くの前提条件となるデータ準備段階と適切に組み合わせることで、何十年もの間、自動コンテンツ分類、情報抽出、感情分析など、構造化されていないテキストに対して有用なタスクを実行することができました。このような伝統的な手法には利点もあるが、複雑で手間がかかり、言語に依存するというマイナス面もある。
1980年代後半、計算能力の向上と機械学習(ML)アルゴリズムへの移行は、NLPにおける統計的アプローチの登場を示唆した:頻出度や出現頻度に基づく単語の埋め込み、Nグラム、リカレントネット、長期短期記憶ユニットなど。これらの初期のモデルは確かに柔軟性が高く、人間が同じビジネスタスクをどのように行うかをエミュレーションするのに適しているが、これらの技術にはまだ大きな欠点がある。 それらは特定のタスクや言語に特化しており、膨大な前処理と何段階ものテキストクリーニングを行わなければ使用できない。そしておそらく最も重要なことは、人間の言葉のニュアンスを見逃すことが多いということだ。
これはルールベース・システム、tf-idf、カスタム・パイプラインのツリーベース・モデルが、自然言語処理アプリケーションで無視されるべきだとか、流行遅れになったという意味ではありません。このような理由から、Dataikuは、テキスト分析機能の完全なスイートを維持し、どこにも行くことはありません!テキストデータの視覚的な準備とクリーンアップ、ML用のテキストフィーチャーの処理、お気に入りのモデルのトレーニングとデプロイに必要なものはすべて、Dataikuのプラットフォームの一部として含まれています。
言語タスクに適用可能な技術的アプローチの多様性を示すプロジェクト
つまり、過去を見過ごすことなく、未来に適応し、それを受け入れる必要があるということです。テキスト分析とドキュメント・インテリジェンスに関して言えば、未来は今であり、それはLLMと呼ばれている。さあ、始めましょう!
注目してください。
LLMの進化は、2013年頃のWord2VecやGloVeのような初期の言語モデルまで遡ることができます。しかし、真のブレークスルーは2017年にGoogleから発表された論文「Attention Is All You Need」でもたらされた。この論文は、アテンションメカニズム、トランスフォーマーアーキテクチャを世界に紹介し、BERT(Bidirectional Encoder Representations from Transformers)、GPT(Generative Pretrained Transformer)、またはT5(Text-to-Text Transfer Transformer)のような事前学習済み言語モデルの出現への道を切り開きました。
LLM は多様な大量のテキストに対して学習されるため、人間の言語の意味を持つパターン、ニュアンス、複雑さを学習することができる。あるレベルでは、我々は基本的にこれらのモデルに、世界の主要言語の読み解き方を教えているのです。LLMの大きな利点のひとつに、従来のNLPパイプラインでは大量の前処理が不可欠でしたが、これらの最新モデルではテキストのクリーニングや前処理がほとんど必要ないのです。LLMの文脈理解という性質は、多くの準備ステップを不要にし、時間とリソースを大幅に節約するだけでなく、完全な、変更前のテキストを活用することで、より意味のある結果をもたらします。
では、従来のNLPがLLMに変身することは、あなたの会社にとって何を意味するのでしょうか?それは、伝統的なNLPタスクと新しい自然言語理解・生成(NLU/NLG)技術を組み合わせることで、ワークフローが一段上のレベルに飛躍することを意味します。これらの高性能で、多目的のモデルが、より少ない工程でより良い洞察とビジネス成果を促進するための必要不可欠な役割を果たす推論エンジンです。まだ確信していませんか?Dataikuがどのようにお客様のビジネス変革の旅をサポートするプラットフォームとして選ばれているかをご覧ください。
LLMとDataikuでゲームをレベルアップする
Dataikuは、ビジュアルレシピを使った数回のクリックで物事を完了させたい場合、LLMプロンプトを試してタスクに最適なアウトプットを得たい場合、社内のナレッジベースでプロンプトを補強する強力なシステムを構築したい場合、あるいはこれらすべてを混合したい場合など、お客様が必要とするものを提供します。
非構造化データでLLMを大規模に使用するさまざまな方法を説明する例として、顧客体験の向上と経費削減のために保険金請求をより効率的に処理しようとしている保険会社を想像してみてください。典型的なクレーム処理のワークフローは、以下のような一連の質問を中心に展開されます:
- 誰が何を請求しているのか?
- 保険金の請求者は誰か?
- クレーム内容は本物か、それとも疑わしいのか?
- どの保険が適用可能か?
LLMが登場する前は、これらの疑問は専用のMLワークフローで個別に取り組まれていた。クレームの対象を特定するために学習されたテキスト分類モデル、重要な詳細を抽出するためのエンティティ抽出パイプライン、潜在的な保険詐欺パターンを発見するための異常検出モデル、そしてクレームを顧客の保険証券や補償条件と照合するための手作業による多大な労力......これらすべてを、最終的に保険契約者に回答する前に実行しなければならない。さらに、数え切れないほどのステップを踏んでテキストを前処理し、複数の言語を掛け合わせると、迷宮のような、もろく、かろうじて保守可能なシステムが出来上がる。
今日、最新のLLMで強化されたワークフローは、このプロセスの多くの要素を向上させることができます:
Dataikuのテキスト抽出、分類、要約のためのAIを活用したビジュアルレシピの組み合わせは、自動的に文書を処理し、受け取った文書を分類し、各クレームの内容を分類し、氏名、住所、損害額などの情報を抽出できます。しかも、これを多言語のテキストに対して、しかもわずか数クリックで実行できるのです!
DataikuのLLMによるNLPタスクのためのビジュアルコンポーネント
- よりカスタマイズされたタスクの場合は、Dataikuのプロンプトスタジオを利用して、クレームを処理するために必要な情報のすべての必要な部分を抽出するための命令の最適なセットを開発したり、ステータスのアップデートを要約し、保険契約者に戻ってパーソナライズされた電子メールの応答を生成します。
Gen AIユースケース:メディカルレポートアナライザー
このアプリケーション例の全編ビデオをご覧ください: メディカル・レポート・アナライザー
- LLMアプリケーションをさらにレベル・アップしたいですか?保険契約文書の知識ベースからの情報でモデルの応答を補強することで、保険金請求担当者が現在費やしている、特定の保険金請求ごとに回答や補償条件を調べるための時間を省くことができます。
この手法は、RAG(Retrieval Augmented Generation:検索機能拡張型ジェネレーション)と呼ばれ、ソース文書の情報をエンコードし、インデックス化することで、特定の問い合わせに最も近い情報を素早く検索できるようになります。Dataikuでは、ドキュメントコレクション内の情報を数値でエンコードして保存するビジュアルコンポーネントを提供することで、RAGを容易にし、類似検索を実行して手元の照会に最も関連性の高いデータを取得し、さらに現場のナレッジワーカーが日常業務で使用できるフロントエンドのQ&Aアプリケーションを提供します。さらに、LLMの利点は、社内の従業員が正しい答えを知ることだけにとどまりません。生成AIの機能を使えば、自動的に解決策を提示し、顧客への適切な回答を準備することも可能です!
このアプリケーション例の動画をご覧ください: 保険契約エクスプローラー
LLMに自律的な対応をさせるのが心配ですか?私たちはそう思いません!Dataikuのラベリング機能により、オペレータはすべての詳細が正しく表示され、ポリシーが正しく適用されていることを確認できます。
汎用のLLMをお客様のドメインやユースケースに適合させ、他の専用モデルやツールと効果的に組み合わせる方法については、LLMをお客様のアプリケーション用にカスタマイズする方法についてのブログをご覧ください。LLMを使って従来のNLPやMLパイプラインをモダナイズする可能性は無限です。LLMで従来のNLPやMLパイプラインを近代化する可能性は無限にあります。あなたがどのようなものを構築するのか、楽しみにお待ちください!
LLMを使ったNLPレシピをさらに進める
テキストの要約、分類、感情分析などの言語タスクを簡素化するDataikuのLLMを搭載したレシピで、従来のNLPレシピを近代化する方法をこちらよりご覧ください。
原文:From Syntax to Superpowers: The Marvelous Journey of NLP's Metamorphosis