gk signal_processing nlp
G検定トップ
> 音声認識における前処理まとめ(PCMから特徴量まで)【G検定対策】
まず結論
- 音声認識における前処理とは、アナログ音声をデジタル化し、学習しやすい特徴量に変換する一連の処理である。
- G検定では 「PCM」「フーリエ変換」「MFCC」などの順序と役割が問われる。
直感的な説明
- 人の声をAIに理解させるには、
- 音をデジタルにする
- 音の性質を数値で表す
- モデルが扱いやすい形にする
必要がある。
- 生の波形をそのまま学習させるのではなく、
意味のある特徴に変換するのが前処理。
定義・仕組み
音声認識の前処理の全体像
- 音声入力(アナログ)
- PCM(アナログ → デジタル)
- 標本化
- 量子化
- 符号化
- 信号処理
- フレーミング
- 窓関数
- フーリエ変換(FFT)
- 特徴量抽出
- スペクトログラム
- メルスペクトログラム
- MFCC
- 機械学習モデルへ入力
👉 前処理は 学習前に必ず行われる工程。
いつ使う?(得意・不得意)
得意
- 音声認識(ASR)
- 音声分類
- 音声感情分析
不得意
- 文字データ(NLP)
- 画像データ
G検定ひっかけポイント
- ❌「PCMは暗号化処理である」
- ❌「MFCCは生波形から直接計算する」
- ❌「フーリエ変換は機械学習モデルの中で行う」
👉 PCMはデジタル化
👉 FFTは周波数変換
👉 MFCCは特徴量
判断基準
- アナログ → デジタル → PCM
- 周波数成分 → FFT
- 人の聴覚に近づける → メル尺度・MFCC
まとめ(試験直前用)
- 音声認識は前処理が重要
- PCM:標本化→量子化→符号化
- FFTで周波数解析
- MFCCは代表的特徴量
- 暗号化・学習処理と混同しない
🔗 関連記事
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- 数理・アルゴリズム・データ活用基礎(オプション)【DS検定対応】
- Bag of Words(BoW)とは?【文章の数値化手法|G検定対策】
- BERTとGPTの違い【比較チートシート|G検定対策】
- BERT(双方向Transformer)とは?G検定対策
🏠 G検トップに戻る