生成AIの動向について全然キャッチアップできていなかったので、今さらだけど備忘録も兼ねて関連キーワードをまとめてみる(6年ぶりのQiita投稿w UI変わってルネ💕)
生成AIとは
今さらだけど、念の為おさらい。
生成AI(Generative AI)とは
ざっくり言うと:「テキスト・画像・音声・動画などを"新しく"作るAI」
どんなものを生成するの?
- テキスト → 文章、メール、ストーリー、コードなど(例:ChatGPT)
- 画像 → イラスト、写真風の画像、ロゴなど(例:Stable Diffusion)
- 音声 → ナレーション、歌声(例:音声合成モデル like Voicebox)
- 動画 → ショートムービー、アニメーション(例:Sora)
「AI」との違いは?
「AI」はもっと広い概念
「AI(人工知能)」は、人間の知能的な作業(推論・判断・認識・学習など)をコンピュータで実現する技術全般を指します。
つまり、 生成AIは「AIの中の1カテゴリ」 です。
生成AI関連のキーワードリスト
🧠基本概念・全体像
用語 | 説明 |
---|---|
AI(人工知能) | 人間の知的行動(学習・判断・推論など)を模倣するコンピュータ技術の総称。機械学習やディープラーニングも含む広い概念。 |
生成AI(Generative AI) | テキスト・画像・音声・動画などの新しいコンテンツを生成できるAI。ChatGPT、Stable Diffusionなどが該当。 |
LLM(Large Language Model) | 大量のテキストを学習した大規模言語モデル。自然な言語理解・生成が可能で、ChatGPTの中身もこれ。 |
推論(Inference) | 学習済みモデルが入力に対して出力を生成する処理。たとえば、質問への回答を出すなど。 |
学習(Training) | モデルがデータからパターンを習得する過程。事前学習と微調整(ファインチューニング)がある。 |
自己教師あり学習 | ラベルのないデータを自動でラベル付けしながら学習する仕組み。LLMでよく使われる。 |
トランスフォーマー(Transformer) | LLMの基盤となるニューラルネットワーク構造。長文の文脈理解に強く、多くの生成AIモデルで採用されている。 |
マルチモーダル(Multimodal) | テキスト・画像・音声など、複数の情報形式を統合して理解・生成できるAI。例:GPT-4 Turbo with Vision。 |
プロンプト(Prompt) | 生成AIに与える「指示文」や「入力」。どの形式の生成AI(テキスト・画像・音声など)にも共通する操作の基本。 |
プロンプトエンジニアリング | より良い出力を得るためにプロンプトの内容や構造を設計・調整する技術。生成AIの活用精度を左右する。 |
💬テキスト生成系
用語 | 説明 |
---|---|
ChatGPT | OpenAIが提供する対話型生成AI。GPT-3.5、GPT-4、最新のGPT-4.5やGPT-4 Turboをベースに、高速かつ高精度な応答を実現している。 |
GPT(Generative Pre-trained Transformer) | 大規模言語モデルのシリーズ名。テキストの理解・生成が可能なAIモデルそのもの。APIとして開発者向けに提供される。 |
Claude | Anthropic社が開発する安全性重視の対話型AI。最新版はClaude 3で、より高精度な自然言語理解と安全な対話が強化されている。 |
Gemini(旧Bard) | Googleが開発する対話型AI。最新版はGemini 1.5やGemini 2.5 Proがリリースされており、Google検索や他のGoogleサービスと連携して高性能な応答を実現。 |
Chain of Thought(思考連鎖) | 複雑な問題を段階的に解かせるプロンプト設計手法。 |
RAG(Retrieval-Augmented Generation) | 外部情報を検索しながら文章を生成する技術。FAQチャットボットなどに使われる。 |
エージェント(AI Agent) | 主にテキスト生成系を基盤としつつ、画像や音声など多様な生成AIツールと連携可能な自律的AIシステム。AutoGPTなどが代表例。 |
Custom GPT / GPTs | ChatGPT上で作成可能なカスタムチャットボット。特定用途向けに設定・調整可能。 |
補足:ChatGPT と GPT の違い
GPT
大規模言語モデル(AI技術そのもの)の名前。複数のバージョン(GPT-3、GPT-4など)が存在し、APIとして開発者向けに提供される。
ChatGPT
GPTモデルを使った対話型AIサービス。一般ユーザーがWebやアプリから直接使える形で提供されている。UIや会話履歴管理などの機能が付属。
🎨画像・動画・音声系
ツール名 | 主な用途 | 使い方の例・特徴 | 特徴・他ツールとの違い |
---|---|---|---|
Midjourney | 画像生成 | DiscordでBotにプロンプトを送信して画像生成。 | 芸術的で美しいイラスト系の作風が得意。商用利用も可能。 |
Stable Diffusion | 画像生成 | ローカルにインストールしてプロンプトを指定。WebUIもある。 | オープンソースで自由度が高く、カスタマイズ・モデル学習も可能。 |
DALL·E | 画像生成 | ChatGPT経由またはWebでプロンプトを入力。 | 現実的で精密な画像。Inpainting(画像の一部編集)対応。 |
Runway | 動画編集・生成 | Web上で動画をアップロードし、背景除去・字幕などを操作。 | ノーコードで簡単に動画編集ができ、AIによる映像拡張も可能。 |
Sora | 動画生成 | プロンプトを入力すると短編動画を生成(※一部限定公開中)。 | OpenAI製。テキスト→リアル動画の性能が非常に高い。 |
Pika | 動画生成 | テキストや画像から短いアニメーション動画を作成。 | モバイル向けにも対応し、手軽に映像コンテンツ制作が可能。 |
ElevenLabs | 音声合成 | テキストを入力するとリアルな音声を生成。声のカスタマイズ可。 | 感情豊かなTTSが強み。多言語対応も優れている。 |
Voicemod / Voicemaker | 音声変換 | マイク音声をリアルタイムで加工。録音ファイルの変換も可能。 | ゲーム実況・配信向けに人気。音声の多様な変換に対応。 |
RVC | 音声変換(歌声模倣) | 学習済み音声モデルを使って他人の声に変換。 | 歌声や声真似が可能で、歌ってみた動画などに使われる。 |
Descript | 音声・動画編集 | 音声を自動で文字起こし、テキストを修正すると音声も修正。 | 編集が超直感的。PodcasterやYouTuberに人気。 |
Kaiber | 動画生成(アニメ風) | テキストや静止画をもとに動きのある動画を作成。 | アーティスティックで印象的なアニメーション制作が得意。 |
補足
Midjourney vs DALL·E:Midjourneyは幻想的・芸術系、DALL·Eはリアルで実用的なスタイルに向いています。
Stable Diffusion:ローカルでも動かせるため、プライバシー保護やチューニングの自由度が魅力です。
Soraはまだ一部ユーザー限定ですが、将来的に映像制作の常識を変える可能性がある注目技術です。
🛠️開発・組み込み系
用語 | 説明 |
---|---|
LangChain | LLMを組み込んだアプリ開発のためのフレームワーク。外部ツールとの連携、メモリ、エージェント機構などを統合的に扱える。 |
LlamaIndex(旧GPT Index) | ドキュメントをインデックス化し、LLMから検索・参照しやすくするためのツール。RAG構成によく使われる。 |
RAG(Retrieval-Augmented Generation) | 外部知識を検索して取り込みながら文章を生成する構成。社内ナレッジ検索やFAQボットなどに利用される。 |
AutoGPT / BabyAGI | LLMを用いたエージェント型フレームワーク。タスク分解・実行・検証を自律的に行う実験的プロジェクト。 |
OpenAI API / Anthropic API | 開発者向けの大規模言語モデルAPI。ChatGPT(OpenAI)やClaude(Anthropic)を自アプリから呼び出すことが可能。 |
Model Context Protocol(MCP) | 複数のLLMを横断して活用するための標準プロトコル。プロンプト・コンテキストの構造を共通化し、マルチモデル対応アプリの開発効率を高める。LangChainなどと併用されることも多い。 |
LangServe / LangSmith | LangChainアプリをAPI化・監視・可視化するための開発支援ツール群。LangServeでエンドポイント化、LangSmithでログ可視化・評価が可能。 |
🧰ツール・サービス
ビジネス向け
用語 | 説明 |
---|---|
ChatGPT | 対話型AIサービス。文書作成・議事録要約・ブレスト支援など、幅広いビジネスユースで利用される。 |
Claude | 長文処理や安全性を重視した対話型AI。レポート生成・契約書レビューなどに強み。 |
Gemini | Google製対話AI。GmailやGoogle Docsとの連携で、作業効率を大幅に向上。 |
Obsidian | 個人・チームのナレッジ管理ツール。GPT連携でメモの要約や情報整理を効率化。 |
Notion AI | Notionに統合されたAI機能。議事録作成、提案文書の下書きなど、ビジネス文書生成に適している。 |
Perplexity AI | 情報検索型AI。出典を明示しながら正確な情報を提供するため、調査やマーケティングリサーチに活用される。 |
開発者向け
用語 | 説明 |
---|---|
Cursor | GPT統合型コーディングエディタ。コード補完、リファクタリング、コード解説などが可能。 |
GitHub Copilot | GitHub提供のAIペアプログラマ。Visual Studio Codeなどでリアルタイムにコード提案。 |
OpenAI API | GPTを組み込んだアプリ開発のためのAPI。自然言語処理機能を自社製品に追加可能。 |
Claude API | Anthropic社のLLMを開発者向けに提供。安全性重視のAIアプリ開発に適している。 |
LangChain / LangServe | LLMアプリ開発支援フレームワークと運用ツール。チェーン設計、エージェント構築、API化に対応。 |
🧩応用領域・社会的テーマ
用語 | 説明 |
---|---|
自然言語処理(NLP) | テキストの分類・要約・翻訳・質問応答など、言語を扱うAI技術全般。生成AIの根幹をなす重要領域。 |
マルチモーダルAI | テキスト・画像・音声・動画など複数の情報形式を統合して理解・生成するAI。例:GPT-4 Turbo(画像入力対応)など。 |
AI倫理 | バイアス、プライバシー、透明性、説明責任など、AI技術の社会的・倫理的な利用に関する指針や議論。 |
ハルシネーション(Hallucination) | AIが事実に基づかない誤情報をあたかも正しいかのように生成してしまう現象。信頼性の課題として重要視されている。 |
知的財産・著作権との関係 | AI生成物の著作権、学習データのライセンス、引用の正当性など、法律・知財に関わる論点。現在もグレーゾーンが多い。 |
AIによる業務効率化・自動化 | 文書作成、議事録作成、スケジューリング、FAQ対応など、ホワイトカラー業務の高度な省力化・自動化が進行中。 |
AIガバナンス | AIを社会実装する際のルール・規制・枠組みづくり。企業・行政でのポリシー整備や国際的な議論が進められている。 |
フェイク生成/ディープフェイク | AIで偽造された画像・映像・音声が誤情報拡散や詐欺に悪用されるリスク。技術の透明性と識別技術の発展が求められている。 |
教育×生成AI | 生徒の学習支援、教材の自動生成など教育現場でのAI活用が進展中。利用と規制のバランスを問う議論も広がっている。 |
最後に:この投稿のまとめ方
言わずもがなだと思いますが、本投稿は生成AI(ChatGPT(無料版))を活用して作成しました。
ただし、単に「生成AI関連キーワードをまとめて」という単純な指示をしただけではなく、実際には2〜3時間かけて内容の壁打ちを繰り返しながら作り込んでいます。
プロンプトのやりとりはこちらからご覧いただけます。
また、内容の信頼性向上のために適宜エビデンスや情報ソースの検索も行いましたが、情報の正確性を完全に保証するものではありません。あくまで参考としてお読みいただければ幸いです。
P.S. 生成AIパスポートのカンペにも使えるかも🙄