Skip to the content.

G検定トップ > 音声特徴量まとめ(フォルマント / MFCC / スペクトログラム)【G検定対策】

まず結論

  • スペクトログラム:音声を「時間 × 周波数」で可視化したもの
  • フォルマント:スペクトログラム上に現れる「重要な周波数ピーク」
  • MFCC:人の聴覚特性を考慮して数値化した「音声特徴量」

👉
可視化 → ピーク → 数値特徴
という関係でつながっている。

直感的な説明

音声特徴量は役割が違う。

  • スペクトログラム:
    「音の地図」を描く
  • フォルマント:
    「地図の山(目立つピーク)」を見る
  • MFCC:
    「人間の耳っぽく要約した数値」に変換する

定義・仕組み

スペクトログラム

  • 音声信号を短時間FFTで変換
  • 横軸:時間 / 縦軸:周波数 / 色:強さ
  • 音の変化を視覚的に確認できる

📌 特徴

  • 可視化ツール
  • 学習用の直接入力というより「理解・前処理用」

フォルマント

  • スペクトログラム(またはスペクトル包絡)上のピーク
  • 口・喉の形によって強調される周波数帯
  • 母音の違いを決定づける

📌 特徴

  • F1, F2, F3 が特に重要
  • 「ピーク」という言葉が出たらフォルマント

MFCC(Mel-Frequency Cepstral Coefficients)

  • 周波数をメル尺度に変換
  • 人間の聴覚に近い形で特徴抽出
  • 音声認識で最もよく使われる特徴量

📌 特徴

  • 数値ベクトル(機械学習向き)
  • スペクトログラムをそのまま使わない

いつ使う?(得意・不得意)

スペクトログラム

  • 音声の可視化
  • 特徴の直感的理解
  • CNN入力として使う場合もある

フォルマント

  • 母音分析
  • 音声学・音声工学
  • 音色・発話特徴の理解

MFCC

  • 音声認識
  • 話者認識
  • 機械学習・深層学習の入力特徴

比較表(試験用まとめ)

項目 スペクトログラム フォルマント MFCC
役割 可視化 周波数ピーク 数値特徴量
画像 周波数値 ベクトル
人の聴覚考慮 ×
ML入力向き
試験キーワード 時間×周波数 ピーク メル尺度

G検定ひっかけポイント(★最重要)

❌ フォルマント = メル周波数

  • メル周波数:尺度
  • フォルマント:ピーク

❌ スペクトログラム = MFCC

  • スペクトログラム:画像
  • MFCC:数値特徴量

❌ MFCCは可視化手法

  • MFCCは 学習用の特徴量

⭕ 即判断ルール

  • 「ピーク」→ フォルマント
  • 「時間×周波数」→ スペクトログラム
  • 「人の耳・メル尺度・係数」→ MFCC

まとめ(試験直前用)

  • スペクトログラム:音の地図
  • フォルマント:地図の山
  • MFCC:耳に近い数値要約
  • 用途・役割の違いを意識する

🔗 関連記事


🏠 G検トップに戻る