音声認識における前処理まとめ（PCMから特徴量まで）【G検定対策】 | AI・データサイエンス・IT学習ノート

最終更新日：2026年5月6日

gk signal_processing nlp

G検定トップ＞音声認識における前処理まとめ（PCMから特徴量まで）【G検定対策】

まず結論

音声認識における前処理とは、アナログ音声をデジタル化し、学習しやすい特徴量に変換する一連の処理である。
G検定では 「PCM」「フーリエ変換」「MFCC」などの順序と役割が問われる。

直感的な説明

人の声をAIに理解させるには、
1. 音をデジタルにする
2. 音の性質を数値で表す
3. モデルが扱いやすい形にする
  必要がある。
生の波形をそのまま学習させるのではなく、
意味のある特徴に変換するのが前処理。

定義・仕組み

音声認識の前処理の全体像

音声入力（アナログ）
PCM（アナログ → デジタル）
- 標本化
- 量子化
- 符号化
信号処理
- フレーミング
- 窓関数
- フーリエ変換（FFT）
特徴量抽出
- スペクトログラム
- メルスペクトログラム
- MFCC
機械学習モデルへ入力

👉 前処理は 学習前に必ず行われる工程。

いつ使う？（得意・不得意）

得意

音声認識（ASR）
音声分類
音声感情分析

不得意

文字データ（NLP）
画像データ

G検定ひっかけポイント

❌「PCMは暗号化処理である」
❌「MFCCは生波形から直接計算する」
❌「フーリエ変換は機械学習モデルの中で行う」

👉 PCMはデジタル化
👉 FFTは周波数変換
👉 MFCCは特徴量

判断基準

アナログ → デジタル → PCM
周波数成分 → FFT
人の聴覚に近づける → メル尺度・MFCC

まとめ（試験直前用）

音声認識は前処理が重要
PCM：標本化→量子化→符号化
FFTで周波数解析
MFCCは代表的特徴量
暗号化・学習処理と混同しない

🔗 関連記事

🏠 G検トップに戻る