gk speech signal_processing
G検定トップ
> 音声特徴量まとめ(フォルマント / MFCC / スペクトログラム)【G検定対策】
まず結論
- スペクトログラム:音声を「時間 × 周波数」で可視化したもの
- フォルマント:スペクトログラム上に現れる「重要な周波数ピーク」
- MFCC:人の聴覚特性を考慮して数値化した「音声特徴量」
👉
可視化 → ピーク → 数値特徴
という関係でつながっている。
直感的な説明
音声特徴量は役割が違う。
- スペクトログラム:
「音の地図」を描く - フォルマント:
「地図の山(目立つピーク)」を見る - MFCC:
「人間の耳っぽく要約した数値」に変換する
定義・仕組み
スペクトログラム
- 音声信号を短時間FFTで変換
- 横軸:時間 / 縦軸:周波数 / 色:強さ
- 音の変化を視覚的に確認できる
📌 特徴
- 可視化ツール
- 学習用の直接入力というより「理解・前処理用」
フォルマント
- スペクトログラム(またはスペクトル包絡)上のピーク
- 口・喉の形によって強調される周波数帯
- 母音の違いを決定づける
📌 特徴
- F1, F2, F3 が特に重要
- 「ピーク」という言葉が出たらフォルマント
MFCC(Mel-Frequency Cepstral Coefficients)
- 周波数をメル尺度に変換
- 人間の聴覚に近い形で特徴抽出
- 音声認識で最もよく使われる特徴量
📌 特徴
- 数値ベクトル(機械学習向き)
- スペクトログラムをそのまま使わない
いつ使う?(得意・不得意)
スペクトログラム
- 音声の可視化
- 特徴の直感的理解
- CNN入力として使う場合もある
フォルマント
- 母音分析
- 音声学・音声工学
- 音色・発話特徴の理解
MFCC
- 音声認識
- 話者認識
- 機械学習・深層学習の入力特徴
比較表(試験用まとめ)
| 項目 | スペクトログラム | フォルマント | MFCC |
|---|---|---|---|
| 役割 | 可視化 | 周波数ピーク | 数値特徴量 |
| 形 | 画像 | 周波数値 | ベクトル |
| 人の聴覚考慮 | × | △ | ◎ |
| ML入力向き | △ | △ | ◎ |
| 試験キーワード | 時間×周波数 | ピーク | メル尺度 |
G検定ひっかけポイント(★最重要)
❌ フォルマント = メル周波数
- メル周波数:尺度
- フォルマント:ピーク
❌ スペクトログラム = MFCC
- スペクトログラム:画像
- MFCC:数値特徴量
❌ MFCCは可視化手法
- MFCCは 学習用の特徴量
⭕ 即判断ルール
- 「ピーク」→ フォルマント
- 「時間×周波数」→ スペクトログラム
- 「人の耳・メル尺度・係数」→ MFCC
まとめ(試験直前用)
- スペクトログラム:音の地図
- フォルマント:地図の山
- MFCC:耳に近い数値要約
- 用途・役割の違いを意識する
🔗 関連記事
- フォルマントとは?(音声スペクトルのピーク)【G検定対策】
- パルス符号変調(PCM)とは?【G検定対策】
- 音韻(phoneme)とは?【G検定対策】
- 音声認識における前処理まとめ(PCMから特徴量まで)【G検定対策】
- 音色の違い(MFCC)
🏠 G検トップに戻る