はじめに
この記事では、今話題のChatGPTをはじめとした様々なAIサービスを提供しているOpenAIが出しているサービスの概要から使用方法までをまとめた記事となっています。
・AIに興味があるけど、使い方がわからない
・ChatGPTは使ってるけど、他のサービスがあるなんて知らなかった
そんな人たちを対象として、画像付きでChatGPTだけでなく、GPT-4、DALL・E2、Whisperについての紹介を行うので、ChatGPTのみならず、色々な技術に触れてみたい人はぜひ、参考にしてみてください。
最後には、関連したサービスもまとめてみました。
~目次~
OpenAIとは
アカウント作成
ChatGPT
GPT-4
DALL・E2
Whisper
関連サービス
弊社Nucoでは、他にも様々なお役立ち記事を公開しています。よかったら、Organizationのページも覗いてみてください。
また、Nucoでは一緒に働く仲間も募集しています!興味をお持ちいただける方は、こちらまで。
OpenAIとは
OpenAIは、2015年に設立された人工知能の研究・開発を行う、非営利団体です。設立には、イーロンマスク氏らも関わっています。現在は、サム・アルトマン氏を最高経営責任者として運営が行われています。
OpenAIが提供するサービスとして、代表的なのがChatGPTです。ChatGPTの登場により、世の中にさらなるAIブームを巻き起こし、現在、世界中で、ChatGPTの活用方法であったり、ChatGPTに使用される大規模言語モデルの可能性について研究と議論が行われています。
アカウント作成
ステップ1:サイトにアクセス
OpenAIのサービスを使いはじめるには、こちらのサイトにアクセスして、Try ChatGPTをクリックします。
ステップ2:Sign up
クリックすると、このような画面が表示されるので、既にアカウントを持っている場合はLog inを、持っていない場合はSign upをクリックしてください。
ステップ3:メールアドレスの設定
アカウントを作成する場合、このような画面が表示されるので、お好きなメールアドレスを使用して、アカウントを作成してください。
ステップ4:パスワード登録とメールアドレスの認証
メールアドレス入力後、Continueをクリックすると、次のような画面が表示されます。
自身でパスワードを設定して、Continueをクリックしましょう。そうすると、以下の画面が表示され、登録したメールアドレスに、認証メールが届くので、届いたメールのVerify email addressをクリックしてください。
ステップ5:名前、生年月日の入力
メールの認証が完了後、名前、誕生日の入力がもとめられます。それらを入力してContinueをクリックしましょう
ステップ6:電話番号の登録・アカウント作成完了
次に、電話番号の入力がもとめられるので電話番号を記入して、Send codeをクリックしましょう。
登録した番号の携帯に、認証コードが送られてくるので、認証コードを入力したら、アカウント作成完了です。この手順で登録した人は、そのままChatGPTを始めることができます。
ChatGPT
概要
ChatGPTは、2022年にOpenAIから発表された、対話に特化したAIサービスです。ChatGPTにできることとして、「質疑応答」、「文章の作成・要約」、「プログラミングコードの作成・間違いの指摘」などがあげられます。他にも、様々な活用方法が検討されています。基本的にChatGPTは無料で使用することが可能ですが、より高精度の言語モデルであるGPT-4を使用したい場合は有料となります。(無料版はGPT-3.5と呼ばれるモデルが使用されています)
使い方
アカウント作成で、アカウントを作成した人はそのままの画面でChatGPTが開始できると思います。すでにアカウントを持っている方は、こちらのサイトのTry ChatGPTをクリックして、ログインすれば開始できます。このような画面が表示されていればすぐにChatGPTを開始できます。
このように、ChatGPTは、与えられた入力に対して、高精度に人間らしい返答を行ってくれます。
ChatGPTでは、主に
・質問に対する応答
・文章の作成・要約
・翻訳
・プログラミングコードの生成・間違いの指摘
などを行ってくれます。
質問に対する応答
ChatGPTは、与えられた入力に対して、高精度かつ人間らしい応答を行ってくれます。
文章の作成・要約
文章の作成、要約も行うことができます。
①文章作成
②文章要約
翻訳
ChatGPTは、このように翻訳も高精度で可能となっています。(文章はWikipediaより抜粋)
プログラミングコードの作成・間違いの指摘
①プログラミングコードの作成
ChatGPTでは、プログラミングコードの生成も可能となっています。以下の例では、2つの入力に対して四則演算の結果を返すようなプログラミングコードをPythonで作成するように指示を与えました。
②プログラミングコードの間違いの指摘
プログラミングコードの作成以外にも、コードのどこに間違いがあるのかということも指摘してくれます。
ChatGPTの注意点
ChatGPTはこのように様々な場面で役に立つのですが、使用上、注意が必要な点があります。それが、情報の正確性です。
ChatGPTが行う応答は、すべてが完璧な応答ではなく、誤りも存在します。ChatGPTはその特性上、誤った情報に対しても、最もらしく応答を行うため、出力された結果が正しい情報なのか注意しなければなりません。また、ChatGPTに使用されている言語モデルである、GPT-3.5は2021年に学習を終えたモデルであるため、2022年以降の情報を質問しても、誤った情報あるいは、解答を行わないことがあるため注意が必要となります。
①間違った情報
この応答では、担当、生まれの月日と出身地が誤った情報となっています。
プロンプトエンジニアリング
ChatGPTの正確性の問題や、性能を引き出すための手法として、プロンプトエンジニアリングが注目されています。プロンプトエンジニアリングとは入力(プロンプト)を工夫することで、AIの持つ力を最大限に引き出そうという考えです。プロントエンジニアリングについては、「Prompt Engineering Guide」で、基本的なものから応用的なものまでまとめられているので、参考にしてみてください。
GPT-4
概要
GPT-4は現在(2023、4月)、OpenAIが発表している大規模言語モデルであるGPTシリーズの最新バージョンとなっています。ChatGPTで使用されているモデルのGPT-3.5よりも高性能なモデルとされており、GPT-3.5と異なる点として、情報の正確性の向上、安全性の向上、創造性の向上などがあげられます。実際に、OpenAIが公開しているデータとして司法試験や学力テストでGPT-3.5を上回る得点を出したと報告されています。2023年4月の時点では、GPT-4の利用は有料となっており、月額20ドルとなっています。
使い方
GPT-4を使用するためには、ChatGPT Plusにアップグレードする必要があります。
ChatGPTの左下にある「Upgrade to Plus」をクリックして、アップグレードの手続きを進めましょう。
支払い方法など、諸々の手続きが完了すると、次の画面のようになり、GPT-4を利用する準備の完了です。
画面上部のDefault(GPT-3.5)をクリックすると、言語モデルの一覧が表示されるので、そこでGPT-4を選ぶことで、使用する言語モデルがGPT-4に切り替わり、最新モデルのChatGPTが使用できます。
GPT-3.5(無料版)とGPT-4で、同じ入力に対して、出力がどう変わるのか見てみましょう。例えば「ChatGPTの仕組みを詳しく教えてください」と入力すると以下の結果が返ってきます。
GPT-3.5でも、高精度な応答を行ってくれますが、GPT-4では、自己注意メカニズムに触れたり、注意点を提示してくれたりと、GPT-3.5よりも高精度に応答を行ってくれることがわかります。(個人的には文章構成もGPT-4の方が優れている気がします)
DALL・E2
概要
DALL・E2とは、OpenAIから提供されている、文字入力に対してリアルな絵を出力してくれる画像生成AIです。DALL・E2では、「空飛ぶ犬」など現実的でない状況に対する絵の生成も可能となっています。また、短い入力よりも詳細な入力を行うことで意図した絵の生成が可能です(例:家→森の中にある家)。DALL・E2の利用は現在では有料[注1]となっており、$15で115クレジット(生成115回分)を購入できます。生成された画像は、PNGとして手元に保存することもできます。
[注1]4月6日以降にDALLEにログインした人には、無料クレジットが配られないそうです。(詳細はこちら)
使い方
使い方はとても簡単で、まずこちらにアクセスします。
次に「Try DALL・E2」をクリックしてログインすると以下の画面が表示されます。
この、画面真ん中のボックスに、生成したい絵の概要(例えば、空飛ぶ犬など)を入力して、「Generate」を押すと画像を自動で生成してくれます。日本語入力も可能となっており(英語入力の方が正確)、「空飛ぶ柴犬」と入力したら次のようなリアルな画像が生成されました。
提案された画像を選択して、編集や生成された画像を保存することも可能となっています。例えば、右から2つ目を選択すると次のような画面になります。
Edit
Editを選択すると以下のような画面が表示され、自分で編集作業が行えます。現在提供されている編集画面はベータ版であるため、できることは限られており、部分的な削除や、キャンバス内における追加での画像生成、画像のアップロードなどが行えます。
Variations
Variationsでは、選択した画像を元に類似した異なるパターンの画像の提案を行ってくれます。
Share
Sharaを選択することで、画像の保存をせずとも、他の人に生成した画像を共有することができます。
Save
Saveを選択することで、画像をサイト内で閲覧できるCollectionに保存することができます(お気に入り登録のような機能)
Whisper
概要
Whisperとは、OpenAIから発表された、無料で使用できる文字起こしサービスです。68万時間という膨大な音声データセットで学習を行うことで、高い精度で音声認識が可能となっています。音声認識以外にも、言語の識別であったり、英語だけでなく多言語で音声認識が可能となっているマルチタスクなモデルとなっています。
以下の写真はOpenAIが発表している、言語別の性能評価になります。これは、単語誤り率(Word Error Rate)で評価されています。数字が小さいほど精度が高いことを示しています。(写真は一部抜粋)
使い方
ここでは、簡単にWhisperを使用することのできる「Hugging Face」とGoogle Coloboratry上で動かす2種類を紹介します。
①Hugging Face
Hugging Faceとは、機械学習アプリケーション作成のためのツールであったり、自然言語処理関連のライブラリであったり、モデルを提供しているアメリカの企業です。
使い方としては、まずこちらのリンクにアクセスします。
そうすると以下の画面が表示されると思います。
1.「Record from microphone」で自分の声をレコーディング
2.「Transcribe」で文字起こし
この2ステップでWhisperを簡単に体験することができます。
②Google Coloboratryでの実行
上記のサイトでは、その場で録音した音声のみでしか文字起こしできなかったと思います。そこでここでは、事前に録音した音声を文字起こしすることを想定して、誰でも実装できるようにGoogle Coloboratry上でコードを書いていきます。
Step1:Colaboratryの準備
まず、Google Colaboratryを開きます
Step2:ランタイムのタイプをGPUに変更
デフォルトのランタイム設定だとCPUになっているので、GPUに変更します。
GPUの変更方法はまず、
①の逆三角形をクリック
②のリソースを表示を選択します。
そうすると、以下の画面が表示されるのでランタイムのタイプを変更を選択します。
デフォルトでは、Noneになってると思うので、これをGPUに変更して、保存すれば完了です。
Step3:使用する音声の準備
文字起こしさせたい音声を準備してください。
step4:実装
次のコードを実行して、Whisperをインストールしましょう。
! pip install git+https://github.com/openai/whisper.git
次に、事前に用意した音声データをアップロードします。Whisperのインストール完了後、左のファイルアイコンを選択すると次のような画面になると思うので、その中にある「content」に用意した音声データをアップロードしましょう。
次に、使用するモデルを選択します。モデルにはいくつかの種類があるのですが、今回は「base」モデルを使用します。
import whisper
model = whisper.load_model("base")
次に文字起こしのコードを書きます。この、sample.mp3の箇所に自身の用意した音声データの名前を入れてください。
result = model.transcribe("sample.mp3")
print(result["text"])
これで準備完了です。
実際に実行すると以下のようになりました。
文字起こしに成功しています。
使用方法については、Whisperのgithubにも上がっているので、モデルを変更したり、色々試してみてください。
関連サービス
最後に、ChatGPTやOpenAIに関連したサービスをいくつか簡単に紹介します。
・Bing
Microsoft社の検索エンジンであるBingでは、GPT-4を搭載した新たな検索機能を追加しました。対話形式で情報のやりとりを行うため、従来の検索方法よりもピンポイントで自分の欲しい情報が取得できます。*使用にはMicrosoft Edgeに切り替える必要があります。
・Bing Image Creator
これは、既に紹介したDALLEを元にMicrosoftからプレビュー版として提供されているサービスです。DALLEと同様に入力に対応した画像を生成することが可能で、現在は無料で使用することができます。
リンク:https://www.bing.com/images/create
・Github Copilot
Github Copilotは、GithubとOpenAIが共同で開発した、プログラミングコード補完ツールです。Copilotとは、副操縦士という意味で、作業者のコード生成を助けて、作業を効率良く、迅速に行えるように開発されています。様々なプログラミング言語に対応しており、Visual Studio Codeなどの一部の統合開発環境で使用することができます。使用は有料となっており、個人用とビジネス用の2種類用意されています。個人用は$10/月、ビジネス用は$19/月になっています。
リンク:https://github.com/features/copilot#pricing
Github Copilotは登録から使用までが少し複雑なのでこちらのサイトを参考にしてみてください。
まとめ
いかがでしたでしょうか、上記で紹介したサービス以外にも様々なサービスが展開されており、Microsoft Officeにも現在GPTを利用した新しいOfficeが開発されているなど、今後、私たちの作業を効率よくしてくれるサービスが登場することが期待されます。
弊社Nucoでは、他にも様々なお役立ち記事を公開しています。よかったら、Organizationのページも覗いてみてください。
また、Nucoでは一緒に働く仲間も募集しています!興味をお持ちいただける方は、こちらまで。