gk speech signal_processing
G検定トップ
> フォルマントとは?(音声スペクトルのピーク)【G検定対策】
まず結論
- フォルマント(Formant)とは、音声の周波数スペクトル包絡に現れるピークのことで、
母音の音色や特徴を決める重要な周波数成分である。 - G検定では「メル周波数・VAD・音素との混同」を狙って出題される。
直感的な説明
フォルマントは、
人の口や喉の形によって強調される周波数帯。
- 同じ高さの声でも
- 「あ」「い」「う」で音が違って聞こえる
👉 その違いを生むのが フォルマント。
イメージとしては、
周波数スペクトルの中で“山が立っている部分”。
定義・仕組み
- 音声信号を周波数スペクトルに変換する
- そのスペクトルの 包絡線(なだらかな形) を見る
- 局所的に大きなピークとなっている周波数をフォルマントと呼ぶ
一般に:
- 第1フォルマント(F1)
- 第2フォルマント(F2)
- 第3フォルマント(F3)
が音声認識・音声分析で重要。
いつ使う?(得意・不得意)
得意
- 母音の識別
- 音声認識の特徴量設計
- 話者・発話特徴の分析
不得意・注意点
- 無音区間の検出には使わない
- 周波数の「尺度」そのものではない
- 言語単位(意味・音素)そのものではない
G検定ひっかけポイント(★最重要)
ここが今回の誤答ポイント👇
❌ フォルマントはメル周波数である
- 誤り
- メル周波数は 周波数の尺度(変換)
- フォルマントは スペクトル上のピーク
❌ フォルマントはVADである
- 誤り
- VAD(Voice Activity Detection)は 音声区間検出
- フォルマントは 音声の周波数特性
❌ フォルマントは音素そのものである
- 誤り
- 音素は 言語学的な最小単位
- フォルマントは 音響的特徴
⭕ 正しい判断基準(試験用)
- 「周波数スペクトルのピーク」→ フォルマント
- 「周波数の尺度」→ メル周波数
- 「音声か無音か」→ VAD
- 「言語の最小単位」→ 音素
まとめ(試験直前用)
- フォルマント=音声スペクトルのピーク
- 母音の音色を決める重要要素
- メル周波数・VAD・音素とは別物
- 「ピーク」=フォルマント
🔗 関連記事
- パルス符号変調(PCM)とは?【G検定対策】
- 音韻(phoneme)とは?【G検定対策】
- 音声特徴量まとめ(フォルマント / MFCC / スペクトログラム)【G検定対策】
- 音声認識における前処理まとめ(PCMから特徴量まで)【G検定対策】
- 音色の違い(MFCC)
🏠 G検トップに戻る