『IBM watsonx.ai がやってきた 💙』の続きの記事です。
使用するモデルについて
現時点(2023/7/8)で使用できるファウンデーション・モデルは、この 5 つです。
今回は、オリジナル mpt-7b-instruct モデルを IBM が再トレーニングしたバージョンである mpt-7b-instruct2 を使用してみます。
Model Cardからの抜粋
MPT-7B-Instruct2 is a retrained version of the orignal MPT-7B-Instruct model available
under the Apache 2.0 License.
MPT-7B-Instruct is a short-form instruction following decoder-only model.
See model cards for MPT-7B and MPT-7B-Instruct for more information.
4 つのタスクを試してみた
IBMによって再トレーニングされた mpt-7b-instruct2 を Prompt Lab にて試してみました。
正式な日本サポートは明言されていませんが、私が試した範囲では、割と日本語も使えそうな印象です。
日本語サポートを保証するものではありません
1. 翻訳
日本語に翻訳してください
(Output: → 翻訳)
About Watson Discovery
IBM Watson® Discovery is an intelligent document processing engine that helps you to gain insights from complex business documents.
Use Discovery to visually train AI for deep understanding of your content, including tables and images, to help you find business value that is hidden in your enterprise data. Use natural language or structured queries to find relevant answers, surface insights, and build AI-enhanced business processes anywhere.
Start by connecting your data to Discovery. Next, teach Discovery to understand the language and concepts that are unique to your business and industry. Enrich your data with award-winning Watson Natural Language Processing (NLP) technologies so you can identify key information and patterns.
生成をクリック!
結果はこちら。
翻訳する文章が割と長めなので、翻訳結果が途中で切れてしまわないように、Max tokensを500に変更しました。(以降、Max tokensは500を使用しています)
Watson Discovery は、ビジネスドキュメントに関する深い意識を得るための intelligent document processing engine です。
Discovery を使用すると、ビジネスの言語と業界固有の概念を理解するためにビジネスドキュメントを視覚的にトレーニングすることができます。 このようにすることで、ビジネスの重要な情報を隠していた企業データについて見つけることができます。 構造化のクエリや自然言語のクエリを使用して、重要な情報を見つけ、検出することができます。 そして、ビジネスプロセスを構築する場所に、Discovery を使用して AI を強化することができます。
Discovery を使用する前に、データを Discovery に接続し、Discovery がビジネスの言語と業界固有の概念を理解するためにトレーニングする必要があります。 そして、Watson Natural Language Processing (NLP) 技術を使用してデータを豊富に補完することができます。
一部微妙な箇所もありますが、なかなか、いい感じで翻訳してくれています。
Examplesにおいて 『 Output: 』 を翻訳に変更したら、日本語に翻訳されるようになった。
『Max tokens』 について
出力が暴走した場合を想定し、Max tokens はあまり大きくしない方がトークン消費の観点で賢明だと思われる。逆に短かった場合は再度やり直しが必要になり、無駄にトークンを消費してしまう。「適切な Max tokens を指定する」は課題の1つになりそうだ。対応策として、「自分が求める出力をイメージし、入力と出力の合計をある程度上回る大きさを指定する」が考えられるが、これもまた難しい。。。
Lite プランで使用できる token 数について
Watson Machine Learning Lite プランの説明ページを見ると、月当たり、25,000 token とあります。
2. 固有表現抽出
『固有表現抽出』という言葉を初めて聞いた方のために、Wikipediaへのリンクを含めておきます。
『文中から固有表現 (Named Entity) を抽出し、それを固有名詞(人名、組織名、地名など)や日付、時間表現、数量、金額、パーセンテージなどのあらかじめ定義された固有表現分類へと分類する。』とあります。
固有表現を特定し、さらにその固有表現の分類も一緒に抽出する手法です。
ビジネス領域で AI 技術を活用する際の有効なユースケースとして要約がありますが、要約によって本来必要な情報が省かれてしまう可能性があります。
ケース・バイ・ケースではありますが、顧客対応履歴の場合、固有表現抽出を使用することで、重要な表現を的確に抽出し、簡潔に整理(構造化)することが可能です。
また、その構造化データをデータベースに蓄積することで、様々な後続処理へ連携することが容易になります。
活動報告から固有表現を抽出してください。
柳は12:00に西山さんから13:30にマルゲリータピザを配達する注文を電話でもらった。
担当者: 柳
お客様: 西山
種別: 注文
手段: 電話
対象: マルゲリータピザ
受付: 12:00
配達時刻: 13:30
以上
柳が小山さんからピザのキャンセルを13:00にアプリで受け付けた。
担当者: 柳
お客様: 小山
種別: キャンセル
手段: アプリ
対象: ピザ
受付: 13:00
いい感じに固有表現を抽出することができました。
このような大量のデータをデータベースに蓄積しておくことで、統計的な分析にも活用できそうです。
Examplesにおいて Output:の最終行に 『以上』 を追加することで、ゴミ(Input文自体)が出力されなくなりました。これって、もしかして発見しちゃった笑
3. プログラムコード説明
プログラム初心者にとって、プログラムを読むことは割と大変な作業です。
また、プログラム・メンテナンス時において、他人が書いたコードを読み解くのは、なれたプログラマーであっても負荷のかかる作業です。
このような作業負荷を軽減するために、『AI にプログラムコードを自然な文章で説明させる』ことが利用できそうです。
関数を日本語で説明してください。
Input: → プログラム
Output: → プログラムの説明
#python コード
def gcd(x, y):
while y != 0:
(x, y) = (y, x % y)
return x
この関数は、引数のxとyの最大公約数を返します。
難解なプログラム笑は、これで解決。
4. プログラムコード生成
プログラムコードを読み解くこともさることながら、やりたい処理をプログラミングする事もなかなか負荷の高い作業です。
この作業を、自然文を使ってプログラミングコードを生成することができればプログラミングの作業効率が随分と高まるはずです。
引数で与えられた数までに存在する素数を生成するPython関数を作成してください。
Python:
def generate_primes(n):
"""
Generate the first n primes.
"""
primes = []
for i in range(2, n + 1):
if i == 2:
continue
for j in range(2, i):
if i % j == 0:
break
else:
primes.append(i)
return primes
プログラムが苦手な方もこれで安心
実際にこのコードを使って、100以下に存在する素数を探してみます。
おおお! 100以下の素数をあっという間に探してくれました! (が)
プロンプトの工夫で解決できる余地があると思いますが、素数である『2』を出力しません。
(理由は生成されたプログラムを見るとわかります)
無料枠を使い切ってしまったため、ここで断念。
今回は、Pythonコードを出力させました。一からプログラムを書くことを思えば十分役に立ちますし、Java, JavaScript, C言語等、自分の慣れた言語以外のコードでプログラミングしなければいけないシーンで活用すれば、もっと大きな効果が期待できます。
無料枠を使い切る
いかがでしたでしょうか
モデルの能力を引き出すプロンプト(Instruction/Examples)の改良の余地は、残されていると思いますが、なかなか面白い結果が得られたと思います。
多くの方々の最初の一歩になることを願っております。
Enjoy your watsonx.ai life !
参考