本記事は下記の続きです。
GPT-3.5, ChatGPT
2022年3月、OpenAIはGPT-3.5を発表し、以前のGPT-3に比べて言語処理能力とコスト効率を大幅に向上させた1。特に、長文の一貫性を保つ能力が強化され、コードの生成や数学的推論の精度も向上した2。
そして、同年11月には、GPT-3.5とWebGPTのような会話型インターフェイスを用いたChatGPTがリリースされ、一般ユーザー向けに無料で提供された3。リリース当初、OpenAI社内ではchatbotは機械学習の分野でも成功例がないもの(Facebook社のGalactica AIなど)で、ChatGPTをリスキーな研究プレビューと見なしていたこともあり、そこまで関心が向くとは想定していなかったが、リリースから5日以内に100万人のユーザー、日本からのアクセスでサーバーがダウンするなど非常に多くのアクセスを獲得することとなった45。ChatGPTの爆発的な人気により、サーバー負荷が急増し、OpenAIはインフラの強化を余儀なくされた6。同年12月には、有料プラン「ChatGPT Plus」を発表し、ビジネスモデルの構築を進めた7。
ChatGPT is scary good. We are not far from dangerously strong AI.
Elon Musk post in 4:48 AM · Dec 4, 2022
ChatGPTは、従来のルールベースのチャットボットとは異なり、大規模な事前学習と強化学習を組み合わせることで、自然な会話が可能になった8。InstructGPTと同様に、RLHF(Reinforcement Learning from Human Feedback)を活用し、ユーザーのフィードバックを基にモデルを調整することで、より正確かつ安全な応答を提供することを目指した9。ChatGPTの登場は、AIによるカスタマーサポートや教育分野での活用を加速させ、多くの企業がAPIを通じて導入を開始し、特にOpenAI社が出資を受けているMicrosoft社のEdge等の製品にも組み込まれる方向で進められた1011。
DALL-E 2
2022年4月には、OpenAIはDALL-Eの改良版であるDALL-E 2を発表した12。DALL-EがTransformerベースのモデルを利用していた一方、DALL-E 2はCLIPを埋め込んだDiffusionモデルを用いられており、画像の品質、解像度、忠実度が向上し、よりリアルで芸術的な画像を生成できるようになった1314。DALL-E 2の大きな特徴は、「inpainting(塗り直し)」機能であり、画像の一部を削除・編集し、自然な形で補完する能力を持っていた15。
このようなOpenAI社の技術進展により、Microsoft社はがAzure OpenAI Serviceへのアクセスを拡大し、DALL-E 2をAzure OpenAI Serviceで提供開始した16。
Whisper
2022年9月、ASR(Automatic Speech Recognition)システムと称された、音声の文字起こし(Transcription)を行うWhisperというモデルが発表される17。Whisperは、Transformerの構造(GPT2.0と同じ種類のByte-pair Encoding Tokenizer)に基づいており、68万時間分の音声データセットを用いて弱教師あり学習を行われた18。既存の多くのASRシステムと比較して、アクセント・背景ノイズ・専門用語に対する堅牢性向上が見られ、複数の言語からの翻訳が可能などのあったが、主に研究者向けとされた1920。
その後2022年12月に、構造はそのままにより大規模で学習され性能をアップさせたWhisper Large V2が発表され21。
続きはこちら
-
OpenAI. (2022). Introducing GPT-3.5. Retrieved from https://openai.com/research/gpt-3-5 ↩
-
OpenAI. (2022). GPT-3.5 Model Improvements. Retrieved from https://openai.com/blog/gpt-3-5-updates ↩
-
OpenAI. (2022). ChatGPT: Optimizing Language Models for Dialogue. Retrieved from https://openai.com/blog/chatgpt ↩
-
The inside story of how ChatGPT was built from the people who made it ↩
-
OpenAI. (2022). Scaling Infrastructure for ChatGPT. Retrieved from https://openai.com/blog/chatgpt-scaling ↩
-
OpenAI. (2022). ChatGPT Plus Subscription Plan. Retrieved from https://openai.com/blog/chatgpt-plus ↩
-
Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training Language Models to Follow Instructions with Human Feedback. OpenAI. Retrieved from https://arxiv.org/abs/2203.02155 ↩
-
OpenAI. (2022). Reinforcement Learning from Human Feedback in ChatGPT. Retrieved from https://openai.com/research/rlhf ↩
-
OpenAI API. (2022). ChatGPT API Release. Retrieved from https://openai.com/api/chatgpt ↩
-
OpenAI had a 2-year lead in the AI race to work 'uncontested,' Microsoft CEO Satya Nadella says ↩
-
Ramesh, A., Dhariwal, P., Nichol, A., et al. (2022). Hierarchical Text-Conditional Image Generation with CLIP Latents. OpenAI. Retrieved from https://openai.com/research/dall-e-2 ↩
-
OpenAI. (2022). DALL-E 2: More Realistic and Consistent Images. Retrieved from https://openai.com/research/dall-e-2 ↩
-
Two years after DALL-E debut, its inventor is “surprised” by impact ↩
-
OpenAI Blog. (2022). Exploring Inpainting in DALL-E 2. Retrieved from https://openai.com/blog/dalle-inpainting ↩
-
Robust Speech Recognition via Large-Scale Weak Supervision ↩
-
Focus on Whisper, OpenAI’s automatic speech recognition system ↩