生成AIの仕組み

Posted at 2025-06-17

1.生成AIの仕組み
LLM（大規模言語モデル）は、人間のように言葉を理解し、文章を作るAIです。ChatGPTなどのAIはこのLLMによって動いています。さらに最近では、「マルチモーダル」といって、言葉だけでなく画像や音声、動画なども一緒に扱えるAIが登場し、より人間に近い情報処理ができるようになっています。

LLMの中身を簡単に言えば、「次にくる言葉を予測するAI」です。たとえば「私は今日学校に____」と入力すると、「行きました」「行くつもりです」など、自然な言葉を予測して出力してくれます。では、どうやって予測するのでしょうか？

それを支えているのが「トランスフォーマー（Transformer）」という仕組みです。この中で特に大事なのが「アテンション機構」と呼ばれる考え方です。これは、文の中で「どの言葉がどの言葉に影響しているか」を計算する仕組みで、意味のつながりをベクトル（数学的な数の集まり）として捉えます。たとえば、「彼はサッカーが好きです」という文では、「彼」と「好き」がつながっていることを、AIは数値で表して理解します。

さらに、AIが言葉を理解するために使うのが「単語ベクトル（word embeddings）」という技術です。これは「意味が似ている言葉ほど、数学的にも近くなるように配置する方法」です。たとえば、「王様」と「女王様」は近い意味なので、AIの中でも近い位置にあります。こうした意味の距離感を学習することで、AIはより自然な文をつくれるようになります。

マルチモーダルAIは、ここからさらに進化したものです。たとえば「画像を見て説明文を作る」ことができます。これは、画像を一度ベクトルに変換し、言葉のベクトルと同じ空間（共通ベクトル空間）で扱う技術によって可能になります。画像の処理にはViT（Vision Transformer）、音声にはWaveNetなどのモデルが使われ、テキストと統合されます。これにより「猫の写真を見せて『これは猫です』と説明する」「音声を聞いて内容を文字にする」といった、複数の情報を組み合わせた高度なAIが生まれています。

このように、LLMは数学（線形代数、確率、最適化）を使って、言葉や画像、音声の意味を数値に変換し、計算によって“理解”しています。高校数学をしっかり学ぶことで、将来このAIの仕組みも自分で作れるようになります。LLMは、私たちの生活や学び方、働き方を変えていく「未来の道具」です。そしてその裏には、数学・情報・言語という人間の知の結晶が詰まっています。

LLMs (Large Language Models) are advanced AI systems that can understand and generate human-like language. Tools like ChatGPT are based on these models. Recently, they have evolved into multimodal models, meaning they can process not just text, but also images, sounds, and even videos. This makes them much closer to how humans perceive and communicate information.

At the core of LLMs is a deep learning architecture called the Transformer, which is designed to predict the next word in a sentence. For example, if you input "I will go to school ____", the model can predict words like "today" or "tomorrow". But how does it do this?

The key lies in a concept called "attention mechanism". It allows the model to determine which words in a sentence are related to each other, even if they are far apart. It does this through mathematical structures called vectors. For example, in the sentence “He loves soccer,” the model recognizes that “He” is connected to “loves” by calculating their relationships using numbers.

Another important technique is word embeddings, which represent the meaning of words as vectors in a mathematical space. Words with similar meanings, like “king” and “queen,” are placed close together in this space. This helps the model understand context and generate more natural sentences.

Multimodal LLMs go even further. They can, for example, generate text from an image by converting the image into a vector and analyzing it in the same space as language. To do this, models like ViT (Vision Transformer) are used for image input, and models like WaveNet handle audio. These are then integrated with language models, allowing the AI to describe images, transcribe speech, or answer questions about visual content.

Behind all of this is math—linear algebra, probability, optimization. By learning high school math well, you build the foundation to understand and even create these AI systems. LLMs are not just smart tools—they are the result of combining language, information, and mathematics into a powerful form of artificial intelligence that’s shaping the future of learning, work, and creativity.

2. LLMで使う高校数学・大学数学

【高校数学で使われる内容】

数学分野	内容	LLMとの関係
数Ⅰ：数と式	指数・対数・多項式展開	活性化関数の形（例：シグモイド関数）や計算の基礎
数Ⅱ：ベクトル	平面・空間ベクトルの演算	単語や画像を「意味のベクトル」として扱う（埋め込み）
数B：確率	事象の確率・期待値	文章生成における「次の単語の確率予測」などに応用
数III：微分積分	導関数・極値・積分	ニューラルネットワークの学習（勾配降下法）の計算基盤
数A：集合と論理	命題・集合・論理演算	トークン（単語の最小単位）処理や構文解析に必要

【大学数学で使われる内容】

分野	内容	LLMでの応用
線形代数	行列・ベクトル・固有値分解	入力・重み・出力をすべて行列で表現。Attentionも行列演算
確率統計	確率分布・ベイズ・エントロピー	単語の出現確率や生成の不確実性を扱うために不可欠
解析学	多変数関数・連続性・極限	誤差逆伝播法（Backpropagation）の数学的基盤
最適化理論	勾配降下法・ラグランジュ未定乗数法	モデル学習時に損失関数を最小化するための計算理論
情報理論	クロスエントロピー・KLダイバージェンス	言語モデルの損失関数の定義に用いる。情報の圧縮にも関係
関数解析／関数空間論	ヒルベルト空間・ノルム	Attentionの連続化、分布表現、重み空間の扱いに関与
統計的学習理論	VC次元・汎化誤差	モデルが「学びすぎない（過学習しない）」保証の理論基盤

3. LLMで使われているコンピュータ言語とライブラリ（簡易版）

✅ 使用されるプログラミング言語（5選）

言語名	主な役割
Python	AI開発の中心言語。モデルの学習・実行・可視化すべてに使う。
C++	高速な計算処理。AIライブラリの内部で使われている。
CUDA	GPUを使ってAIを高速に動かす専用の言語（NVIDIA製）。
JavaScript	Webアプリやチャット画面の表示に使う。ChatGPTのUIなどで利用。
Rust	安全で高速な処理が可能。一部でLLMの軽量・高速化に活用されている。

✅ よく使われるライブラリ（分野別）

▶ モデルを作って学習させる

ライブラリ名	説明
PyTorch	AI開発で最も広く使われるライブラリ。柔軟で直感的に扱える（Meta社開発）。
TensorFlow	Google開発。教育・研究用途でも人気。Kerasとの統合により扱いやすい。
JAX	超高速な自動微分が可能。Google製。大規模モデル向けの次世代ツールとして注目。
Transformers	Hugging Face製。GPTやBERTなどLLMを簡単に利用・実装できるAPIセット。

4. プロンプトエンジニアリング（Prompt Engineering）

■ 定義

プロンプトエンジニアリングとは、大規模言語モデル（LLM: Large Language Model）に対して意図した出力を得るための入力文（プロンプト）の構造設計および最適化技術である。主に自然言語を介してモデルに指示を与えるため、従来のプログラミングと異なり、「自然言語による制御」の一形態として注目されている。

■ 機能的役割

LLMは、事前学習済みの自己回帰モデルに基づいて次単語を予測するため、入力されたプロンプトの語彙・構造・順序によって応答結果が大きく左右される。プロンプトは出力品質・再現性・応答制御の鍵となり、生成AIの実用化において本質的技術のひとつである。

■ プロンプト設計の構成要素（Template Design）

構成要素	説明
Instruction（命令）	モデルに対する明確なタスク指示（例：「要約してください」）
Context（文脈情報）	タスクに関連する追加情報（例：「これは契約書の一部です」）
Input（入力データ）	モデルが処理すべきテキストまたはデータ（例：質問文・表など）
Constraints（制約条件）	出力に関する制約（文字数、口調、文体、語彙など）

■ 代表的技法と分類

技法名	概要	具体例・用途
Zero-shot Prompting	入力に直接タスクを記述し、例を与えない	「この文章を英語に訳してください」
Few-shot Prompting	数件の入出力例を与えてパターン学習を促す	QA、分類、要約、文体模倣など
Chain-of-Thought Prompting	論理的思考のプロセスを明示的に誘導する	数学問題や推論系タスクで高精度
Self-Consistency	複数のChain-of-Thought実行後、最も多い解を採用	論理的安定性の向上
Instruction Tuning	プロンプト形式に特化した追加学習モデルを活用	Alpaca, Flan-T5 などが該当

■ 技術的注意点

出力の**再現性（determinism）**は「temperature」や「top-p」といったハイパーパラメータに依存
長すぎるプロンプトはトークン数制限に注意（例：GPT-4oでは最大128k tokens）
不完全・曖昧なプロンプトは**幻覚（hallucination）**や誤出力を誘発する

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up