本記事は下記の続きです。
DALL-E、CLIP
2021年1月、OpenAIはGPT3.0とImage GPTの技術をもとにした、DALL-Eと呼ばれるtext-to-image(テキスト入力、画像出力)のモデルを発表した1。また同時に、画像とテキストをペアで事前学習し、Zero-shotでも(事前に学習していなくても)画像がどの説明とペアになる可能性が高いかを確認できるCLIP(Contrastive Language-Image Pre-Training)も発表しており、DALL-Eの出力結果をランクづけするために利用された(DALL-Eは最大512枚の画像を生成でき、CLIPで取得したランク付けに基づいて、上位32枚が保持される)2。
OpenAIの最初のマルチモーダルAIモデルとして発表されたDALL-Eは、dVAE(discrete Variational Autoencoder)、12BパラメータのGPT-3によるトークン予測が用いられてマルチモーダル対応sおり、「アボカドの形をしたアームチェア」のようなプロンプトからユニークな画像の生成、スタイルや属性の組み合わせなど抽象的な概念の理解などの能力を示した。
CLIPはその学習方法とともに論文とコードが公開され、多くの研究者がその性能を検証し応用できるようになった3。一方で、DALL-Eについては技術デモと論文が発表されたものの、学習済みモデルは公開されず、OpenAIはその商業的および倫理的影響を慎重に評価する姿勢を見せた4。
DALL-EはOpenAIの最初の、マルチモーダルAIの発展が人工知能の汎用性を高める鍵になると考えており、従来のAIは個別のタスクに特化する傾向があったが、CLIPのように異なるモダリティ(テキストと画像)を同時に学習し、それらを関連付ける能力は、より人間に近い認知能力を持つAIの開発に不可欠とした5。
OpenAI and the road to text-guided image generation: DALL·E, CLIP, GLIDE, DALL·E 2 (unCLIP)
Codex
2021年8月、OpenAIは自然言語をプログラミングコードに変換するCodexを発表した67。CodexはOpenAIが2021年7月にGitHubと提携して構築・リリースした、ソースコードの続きを自動で補完する「GitHub Copilot」という機能を強化するものd8、5400万のGithubリポジトリからPythonコードファイルを収集し、最終的には159GBに絞り込んだデータセットを用いて、GPT3.0をファインチューニングしたモデルである9。
GLIDE
2021年12月、OpenAIは画像生成モデル「GLIDE(Guided Language-to-Image Diffusion for Generation and Editing)」を発表した10。GLIDEは、DALL-Eとは異なるアプローチで画像生成を行う「拡散モデル(diffusion model)」を採用し、より高品質な画像生成を可能にした11。
GLIDEの最大の特徴は、事前に訓練されたテキストエンコーダー(GPTベース)を用いて、画像生成のプロセスをガイドする点であった12。これにより、DALL-Eと比較して、よりリアルで忠実な画像を生成することができ、画像編集機能(inpainting)やノイズ除去の精度も向上した13。また、GLIDEは大規模なデータセットを必要とせず、より少ない計算資源で高品質な画像を生成できる点も特徴であり、AI研究コミュニティから高く評価された14。
GLIDEの研究は、後のDALL-E 2やDALL-E 3の開発に大きな影響を与えた。特に、拡散モデルの強力なノイズ除去能力とガイド付き学習の手法は、画像生成AIの品質向上に不可欠な技術となった15。また、OpenAIはGLIDEの研究成果の一部を公開し、倫理的なリスクを考慮しながら、安全な画像生成AIの開発を進める方針を示した16。
WebGPT
2021年12月、GPT3.0をファインチューニングし、会話型インターフェースを付与したWebGPTを発表した。人間が疑問の答えをWebで調べる方法の模倣(検索クエリを送信し、リンクを辿り、ウェブページを上下にスクロールするなど)、情報源のWebページの引用をつけるなどが可能であり17、Agentと呼ばれるアプリケーションのパイオニアの一つとなった18。ただし、未だに基本的な間違いや偏見が含まれる回答が生成されるという問題は残っていた。
InstructGPT
2022年1月、InstructGPTと呼ばれるGPT3.0をファインチューニング版を発表した。InstructGPTは、フェイクニュースや有害コンテンツの生成を抑えることを目指し、RLHF(Reinforcement Learning from Human Feedback)という人間の価値基準に沿うように、人間のフィードバックを使って強化学習を行うことでファインチューニングが行われている1920。
GPT3.0に比べてさまざまなパフォーマンスの向上が見られたが、回答にバイアスが乗ってしまう等の問題は依然として残り、さらなるアップデートを続けることになる21。
続きはこちら
-
Ramesh, A., Pavlov, M., Goh, G., et al. (2021). DALL-E: Creating Images from Text. OpenAI. Retrieved from https://openai.com/research/dall-e ↩
-
Radford, A., Kim, J. W., Hallacy, C., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. OpenAI. Retrieved from https://openai.com/research/clip ↩
-
GitHub. (2021). openai/CLIP. Retrieved from https://github.com/openai/CLIP ↩
-
OpenAI. (2021). DALL-E Announcement. Retrieved from https://openai.com/research/dall-e ↩
-
Brown, T., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. NeurIPS. Retrieved from https://arxiv.org/abs/2005.14165 ↩
-
OpenAI Announces 12 Billion Parameter Code-Generation AI Codex ↩
-
Nichol, A., Dhariwal, P., Ramesh, A., et al. (2021). GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. OpenAI. Retrieved from https://arxiv.org/abs/2112.10741 ↩
-
OpenAI. (2021). Introducing GLIDE: A Diffusion Model for Text-to-Image Generation. Retrieved from https://openai.com/blog/glide ↩
-
OpenAI Blog. (2021). How GLIDE Improves Image Generation and Editing. Retrieved from https://openai.com/blog/glide-improvements ↩
-
OpenAI. (2021). GLIDE and the Future of Image Editing AI. Retrieved from https://openai.com/blog/glide-image-editing ↩
-
GitHub. (2021). OpenAI/GLIDE: Code and Research. Retrieved from https://github.com/openai/glide ↩
-
OpenAI Research. (2022). Diffusion Models in DALL-E 2 and Beyond. Retrieved from https://openai.com/blog/diffusion-models ↩
-
OpenAI Policy. (2021). Ethical Considerations in AI-Generated Content. Retrieved from https://openai.com/blog/ai-ethics ↩
-
WebGPT: Improving the factual accuracy of language models through web browsing ↩
-
Evaluations, Limitations, and the Future of Web Agents – WebGPT, WebVoyager, Agent-E ↩
-
arXiv. (2021). Training language models to follow instructions with human feedback Retrieved from https://arxiv.org/abs/2203.02155 ↩