Skip to the content.

G検定トップ > 音声認識における前処理まとめ(PCMから特徴量まで)【G検定対策】

まず結論

  • 音声認識における前処理とは、アナログ音声をデジタル化し、学習しやすい特徴量に変換する一連の処理である。
  • G検定では 「PCM」「フーリエ変換」「MFCC」などの順序と役割が問われる。

直感的な説明

  • 人の声をAIに理解させるには、
    1. 音をデジタルにする
    2. 音の性質を数値で表す
    3. モデルが扱いやすい形にする
      必要がある。
  • 生の波形をそのまま学習させるのではなく、
    意味のある特徴に変換するのが前処理。

定義・仕組み

音声認識の前処理の全体像

  1. 音声入力(アナログ)
  2. PCM(アナログ → デジタル)
    • 標本化
    • 量子化
    • 符号化
  3. 信号処理
    • フレーミング
    • 窓関数
    • フーリエ変換(FFT)
  4. 特徴量抽出
    • スペクトログラム
    • メルスペクトログラム
    • MFCC
  5. 機械学習モデルへ入力

👉 前処理は 学習前に必ず行われる工程

いつ使う?(得意・不得意)

得意

  • 音声認識(ASR)
  • 音声分類
  • 音声感情分析

不得意

  • 文字データ(NLP)
  • 画像データ

G検定ひっかけポイント

  • ❌「PCMは暗号化処理である」
  • ❌「MFCCは生波形から直接計算する」
  • ❌「フーリエ変換は機械学習モデルの中で行う」

👉 PCMはデジタル化
👉 FFTは周波数変換
👉 MFCCは特徴量

判断基準

  • アナログ → デジタル → PCM
  • 周波数成分 → FFT
  • 人の聴覚に近づける → メル尺度・MFCC

まとめ(試験直前用)

  • 音声認識は前処理が重要
  • PCM:標本化→量子化→符号化
  • FFTで周波数解析
  • MFCCは代表的特徴量
  • 暗号化・学習処理と混同しない

🔗 関連記事


🏠 G検トップに戻る