0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

OpenAI(3. 2021~2022年ごろ:DALL-E, CLIP, GLIDE, InstructGPT)

Last updated at Posted at 2025-02-10

本記事は下記の続きです。

DALL-E、CLIP

2021年1月、OpenAIはGPT3.0とImage GPTの技術をもとにした、DALL-Eと呼ばれるtext-to-image(テキスト入力、画像出力)のモデルを発表した1。また同時に、画像とテキストをペアで事前学習し、Zero-shotでも(事前に学習していなくても)画像がどの説明とペアになる可能性が高いかを確認できるCLIP(Contrastive Language-Image Pre-Training)も発表しており、DALL-Eの出力結果をランクづけするために利用された(DALL-Eは最大512枚の画像を生成でき、CLIPで取得したランク付けに基づいて、上位32枚が保持される)2

OpenAIの最初のマルチモーダルAIモデルとして発表されたDALL-Eは、dVAE(discrete Variational Autoencoder)、12BパラメータのGPT-3によるトークン予測が用いられてマルチモーダル対応sおり、「アボカドの形をしたアームチェア」のようなプロンプトからユニークな画像の生成、スタイルや属性の組み合わせなど抽象的な概念の理解などの能力を示した。

CLIPはその学習方法とともに論文とコードが公開され、多くの研究者がその性能を検証し応用できるようになった3。一方で、DALL-Eについては技術デモと論文が発表されたものの、学習済みモデルは公開されず、OpenAIはその商業的および倫理的影響を慎重に評価する姿勢を見せた4

DALL-EはOpenAIの最初の、マルチモーダルAIの発展が人工知能の汎用性を高める鍵になると考えており、従来のAIは個別のタスクに特化する傾向があったが、CLIPのように異なるモダリティ(テキストと画像)を同時に学習し、それらを関連付ける能力は、より人間に近い認知能力を持つAIの開発に不可欠とした5


OpenAI and the road to text-guided image generation: DALL·E, CLIP, GLIDE, DALL·E 2 (unCLIP)


CLIP

Codex

2021年8月、OpenAIは自然言語をプログラミングコードに変換するCodexを発表した67。CodexはOpenAIが2021年7月にGitHubと提携して構築・リリースした、ソースコードの続きを自動で補完する「GitHub Copilot」という機能を強化するものd8、5400万のGithubリポジトリからPythonコードファイルを収集し、最終的には159GBに絞り込んだデータセットを用いて、GPT3.0をファインチューニングしたモデルである9

GLIDE

2021年12月、OpenAIは画像生成モデル「GLIDE(Guided Language-to-Image Diffusion for Generation and Editing)」を発表した10。GLIDEは、DALL-Eとは異なるアプローチで画像生成を行う「拡散モデル(diffusion model)」を採用し、より高品質な画像生成を可能にした11

GLIDEの最大の特徴は、事前に訓練されたテキストエンコーダー(GPTベース)を用いて、画像生成のプロセスをガイドする点であった12。これにより、DALL-Eと比較して、よりリアルで忠実な画像を生成することができ、画像編集機能(inpainting)やノイズ除去の精度も向上した13。また、GLIDEは大規模なデータセットを必要とせず、より少ない計算資源で高品質な画像を生成できる点も特徴であり、AI研究コミュニティから高く評価された14

GLIDEの研究は、後のDALL-E 2やDALL-E 3の開発に大きな影響を与えた。特に、拡散モデルの強力なノイズ除去能力とガイド付き学習の手法は、画像生成AIの品質向上に不可欠な技術となった15。また、OpenAIはGLIDEの研究成果の一部を公開し、倫理的なリスクを考慮しながら、安全な画像生成AIの開発を進める方針を示した16

WebGPT

2021年12月、GPT3.0をファインチューニングし、会話型インターフェースを付与したWebGPTを発表した。人間が疑問の答えをWebで調べる方法の模倣(検索クエリを送信し、リンクを辿り、ウェブページを上下にスクロールするなど)、情報源のWebページの引用をつけるなどが可能であり17、Agentと呼ばれるアプリケーションのパイオニアの一つとなった18。ただし、未だに基本的な間違いや偏見が含まれる回答が生成されるという問題は残っていた。

image.png
WebGPT

InstructGPT

2022年1月、InstructGPTと呼ばれるGPT3.0をファインチューニング版を発表した。InstructGPTは、フェイクニュースや有害コンテンツの生成を抑えることを目指し、RLHF(Reinforcement Learning from Human Feedback)という人間の価値基準に沿うように、人間のフィードバックを使って強化学習を行うことでファインチューニングが行われている1920
GPT3.0に比べてさまざまなパフォーマンスの向上が見られたが、回答にバイアスが乗ってしまう等の問題は依然として残り、さらなるアップデートを続けることになる21


続きはこちら

  1. Ramesh, A., Pavlov, M., Goh, G., et al. (2021). DALL-E: Creating Images from Text. OpenAI. Retrieved from https://openai.com/research/dall-e

  2. Radford, A., Kim, J. W., Hallacy, C., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. OpenAI. Retrieved from https://openai.com/research/clip

  3. GitHub. (2021). openai/CLIP. Retrieved from https://github.com/openai/CLIP

  4. OpenAI. (2021). DALL-E Announcement. Retrieved from https://openai.com/research/dall-e

  5. Brown, T., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. NeurIPS. Retrieved from https://arxiv.org/abs/2005.14165

  6. OpenAI Codex

  7. OpenAI Codex

  8. OpenAIが入力した自然言語から自動でコードを出力するAIシステム「Codex」をリリース

  9. OpenAI Announces 12 Billion Parameter Code-Generation AI Codex

  10. Nichol, A., Dhariwal, P., Ramesh, A., et al. (2021). GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. OpenAI. Retrieved from https://arxiv.org/abs/2112.10741

  11. OpenAI. (2021). Introducing GLIDE: A Diffusion Model for Text-to-Image Generation. Retrieved from https://openai.com/blog/glide

  12. OpenAI Blog. (2021). How GLIDE Improves Image Generation and Editing. Retrieved from https://openai.com/blog/glide-improvements

  13. OpenAI. (2021). GLIDE and the Future of Image Editing AI. Retrieved from https://openai.com/blog/glide-image-editing

  14. GitHub. (2021). OpenAI/GLIDE: Code and Research. Retrieved from https://github.com/openai/glide

  15. OpenAI Research. (2022). Diffusion Models in DALL-E 2 and Beyond. Retrieved from https://openai.com/blog/diffusion-models

  16. OpenAI Policy. (2021). Ethical Considerations in AI-Generated Content. Retrieved from https://openai.com/blog/ai-ethics

  17. WebGPT: Improving the factual accuracy of language models through web browsing

  18. Evaluations, Limitations, and the Future of Web Agents – WebGPT, WebVoyager, Agent-E

  19. arXiv. (2021). Training language models to follow instructions with human feedback Retrieved from https://arxiv.org/abs/2203.02155

  20. RLHF(人間のフィードバックによる強化学習)とは?

  21. InstructGPT Model Card

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?