【G検定対策】音声処理の重要用語を「AIの処理フロー」で体系的に整理する

Posted at 2026-06-22

はじめに

G検定（ジェネラリスト検定）の学習において、音声処理の分野は専門用語が多く、混乱しやすいポイントの一つです。
本記事では、単に用語を羅列するのではなく、「AIが音声を処理する際の流れ」 に沿って体系的に整理しました。

学習の際、「今どの段階の話をしているのか」を意識することで、理解がスムーズになります。

音声処理は、大きく以下の5つのステップで構成されます。

まず、音声処理で何を実現したいのかを分類します。

用語	解説
音声処理	音声に関わる技術の総称。
音声認識	音声をテキスト（文字）に変換するタスク。（例：自動文字起こし）
音声合成	テキストから音声を生成するタスク（TTS）。（例：カーナビの案内）
話者識別	声の主が誰であるかを特定するタスク。（例：声による生体認証）

人間が発する言葉や音の最小単位についての定義です。

音素 (Phoneme)
- 物理的な音の最小単位。（例：「あ」の音、英語の「L」と「R」の違い）
音韻 (Phonology)
- 意味を区別する、脳内で認識される抽象的な最小単位。
- 日本語の「ん」は後ろに続く言葉で発音が変わる（音素が違う）が、意味としては同じ（音韻）。

マイクで拾ったアナログの音を、コンピュータが扱える形に変換する段階です。

A-D 変換 (ADC)
- 連続的な「アナログ信号」を、離散的な「デジタル信号」へ変換する処理。
パルス符号変調器 (PCM)
- A-D変換の代表的代表的な方式。標本化、量子化、符号化の手順でデジタル化する。
高速フーリエ変換 (FFT)
- 時間とともに変化する「波形データ」を、どの高さの音がどれくらい含まれるかという「周波数データ」に高速に変換するアルゴリズム。

※画像は処理の全体像を理解するためのイメージです。厳密な波形や専門的な回路図を示すものではありません。

FFTで得たデータを、さらに人間の聞こえ方や声の特徴に特化した数値へ変換します。

スペクトル包絡
- 周波数データの細かいギザギザを繋いだ大まかな輪郭。ここに「声の音色」や「母音」の情報が含まれる。
フォルマント（フォルマント周波数）
- スペクトル包絡にある「山の盛り上がり」のこと。低い方から第1フォルマント(F1)...と呼び、その組み合わせで「あいうえお」を判別できる。
メル尺度
- 人間の聴覚（低い音には敏感、高い音には鈍感）に合わせた周波数のモノサシ。
メル周波数ケプストラム係数 (MFCC)
- メル尺度を利用して抽出される、音声認識における最も代表的な特徴量。

抽出された特徴量を用いて、最終的な予測や生成を行う心臓部です。

隠れマルコフモデル (HMM)
- 時系列データを確率的に扱うモデル。ディープラーニング以前の音声認識の主流。
WaveNet
- CNN（畳み込みニューラルネットワーク）を用いた音声生成モデル。
- 非常に高品質で自然な音声合成を実現した（Google DeepMind開発）。

音声処理の用語は、以下の流れで繋がっています。

アナログの音（PCM）
↓ FFTで変換
周波数データ
↓ 特徴抽出
MFCC（メル尺度を利用）
↓ モデル学習
HMMやWaveNet
↓
音声認識・音声合成の実現！

この流れを押さえておくことで、「どのフェーズの技術か」を混同せずに済むのではと思います。