gk audio mfcc signal_processing
G検定トップ
> 音色の違い(MFCC)
まず結論
- 音色の違いはスペクトル包絡の違いとして表現される
- 音色特徴量として最も代表的なのが MFCC(メル周波数ケプストラム係数)
- FFT やメル尺度は MFCCを求めるための途中処理
直感的な説明
同じ「ド」の音でも、
- ピアノ
- ギター
- 人の声
で 音の雰囲気(音色) が違います。
これは、
含まれている周波数成分の「分布の形」
が違うからです。
この 周波数の分布の形(スペクトル包絡) を、 人間の聴覚に近い形で数値化したものが MFCC です。
定義・仕組み
音色とは?
- 音の高さ(周波数)や大きさでは説明できない音の違い
- スペクトル包絡 によって決まる
MFCC(メル周波数ケプストラム係数)
MFCCは、以下の手順で求められます。
- FFT(高速フーリエ変換) で周波数成分に分解
- メル尺度 で人間の聴覚特性を反映
- 対数を取る
- ケプストラム変換 を行う
👉 この結果得られる係数が MFCC です。
各用語の役割整理
- FFT:周波数成分を求める手法
- メル尺度:人間の聴覚に合わせた周波数スケール
- MFCC:音色を表す最終的な特徴量
いつ使う?(得意・不得意)
得意な用途
- 音声認識
- 話者認識
- 楽器音の分類
注意点
- 音の高さそのものを表す特徴量ではない
- 雑音に弱い場合がある
G検定ひっかけポイント
- ❌「音色の違いは FFT」 → 誤り
- ❌「音色の違いはメル尺度」 → 誤り
- ✅ 音色の違いは MFCC
- ✅ FFT やメル尺度は 途中処理
まとめ(試験直前用)
- 音色=スペクトル包絡の違い
- 音色特徴量の代表が MFCC
- FFT・メル尺度は MFCCを求めるための手段
👉 音声系問題では MFCCが答え になることが多い
🔗 関連記事
- フォルマントとは?(音声スペクトルのピーク)【G検定対策】
- パルス符号変調(PCM)とは?【G検定対策】
- 音声特徴量まとめ(フォルマント / MFCC / スペクトログラム)【G検定対策】
- 音声認識における前処理まとめ(PCMから特徴量まで)【G検定対策】
🏠 G検トップに戻る