音声特徴量まとめ（フォルマント / MFCC / スペクトログラム）【G検定対策】 | AI・データサイエンス・IT学習ノート

gk speech signal_processing

G検定トップ＞音声特徴量まとめ（フォルマント / MFCC / スペクトログラム）【G検定対策】

まず結論

スペクトログラム：音声を「時間 × 周波数」で可視化したもの
フォルマント：スペクトログラム上に現れる「重要な周波数ピーク」
MFCC：人の聴覚特性を考慮して数値化した「音声特徴量」

👉
可視化 → ピーク → 数値特徴
という関係でつながっている。

直感的な説明

音声特徴量は役割が違う。

スペクトログラム：
「音の地図」を描く
フォルマント：
「地図の山（目立つピーク）」を見る
MFCC：
「人間の耳っぽく要約した数値」に変換する

定義・仕組み

スペクトログラム

音声信号を短時間FFTで変換
横軸：時間 / 縦軸：周波数 / 色：強さ
音の変化を視覚的に確認できる

📌 特徴

可視化ツール
学習用の直接入力というより「理解・前処理用」

フォルマント

スペクトログラム（またはスペクトル包絡）上のピーク
口・喉の形によって強調される周波数帯
母音の違いを決定づける

📌 特徴

F1, F2, F3 が特に重要
「ピーク」という言葉が出たらフォルマント

MFCC（Mel-Frequency Cepstral Coefficients）

周波数をメル尺度に変換
人間の聴覚に近い形で特徴抽出
音声認識で最もよく使われる特徴量

📌 特徴

数値ベクトル（機械学習向き）
スペクトログラムをそのまま使わない

いつ使う？（得意・不得意）

スペクトログラム

音声の可視化
特徴の直感的理解
CNN入力として使う場合もある

フォルマント

母音分析
音声学・音声工学
音色・発話特徴の理解

MFCC

音声認識
話者認識
機械学習・深層学習の入力特徴

比較表（試験用まとめ）

項目	スペクトログラム	フォルマント	MFCC
役割	可視化	周波数ピーク	数値特徴量
形	画像	周波数値	ベクトル
人の聴覚考慮	×	△	◎
ML入力向き	△	△	◎
試験キーワード	時間×周波数	ピーク	メル尺度

G検定ひっかけポイント（★最重要）

❌ フォルマント = メル周波数

メル周波数：尺度
フォルマント：ピーク

❌ スペクトログラム = MFCC

スペクトログラム：画像
MFCC：数値特徴量

❌ MFCCは可視化手法

MFCCは 学習用の特徴量

⭕ 即判断ルール

「ピーク」→ フォルマント
「時間×周波数」→ スペクトログラム
「人の耳・メル尺度・係数」→ MFCC

まとめ（試験直前用）

スペクトログラム：音の地図
フォルマント：地図の山
MFCC：耳に近い数値要約
用途・役割の違いを意識する

🔗 関連記事

🏠 G検トップに戻る