ds data-preparation design
まず結論
特徴量エンジニアリングとは、機械学習モデルの性能を高めるためにデータの特徴量を作成・変換する工程です。
DS検定では、アルゴリズムよりもデータの作り方が精度に大きく影響するという理解が問われます。
直感的な説明
例えば、次のような顧客データがあるとします。
顧客 生年月日 購入回数
A 1990/01/01 12 B 1985/05/10 3
このままでは機械学習モデルが使いにくい場合があります。
そこで次のようなデータを作ります。
顧客 年齢 購入回数
A 34 12 B 39 3
このように
新しい特徴を作る
既存の特徴を変換する
といった処理を 特徴量エンジニアリング(Feature Engineering) と呼びます。
定義・仕組み
特徴量エンジニアリングとは、モデルが学習しやすい形に特徴量を加工する作業です。
特徴量とは、
機械学習モデルに入力するデータの項目です。
例えば
年齢
購入回数
クリック数
気温
などが特徴量になります。
しかし、生データのままだと
情報が不足している
学習しにくい
ことがあります。
そこで
新しい特徴量を作る
変換する
不要な特徴量を削除する
といった作業を行います。
代表的な例
年齢 = 現在日 − 生年月日
購入頻度 = 購入回数 ÷ 利用期間
このような加工によって
モデルがパターンを見つけやすくなります。
どんな場面で使う?
① 機械学習モデルの精度向上
多くの場合、
アルゴリズムよりも特徴量の作り方の方が精度に影響します。
そのため実務では
モデル調整
特徴量エンジニアリング
を繰り返して改善します。
② データ前処理の重要工程
特徴量エンジニアリングには次のような処理が含まれます。
エンコーディング
正規化
欠損値処理
特徴量生成
DS検定では
「データ前処理の重要工程」
として出題されることが多いです。
よくある誤解・混同
① データ収集との混同
❌ 特徴量エンジニアリング = データを集める作業
⭕ 特徴量エンジニアリング = 既存データを加工する作業
② モデルチューニングとの混同
❌ ハイパーパラメータ調整
⭕ 入力データを改善する作業
DS検定では
データ改善か、モデル調整か
を区別させる問題が出ることがあります。
③ 前処理との関係
前処理の中でも
モデル性能に直結する部分
が特徴量エンジニアリングです。
まとめ(試験直前用)
特徴量エンジニアリング = 特徴量を作成・変換する工程
モデル精度に大きく影響する
例
年齢計算
カテゴリ数値化
新しい特徴量作成
DS検定では
「モデル性能を高めるためのデータ加工」
と書かれていたら
特徴量エンジニアリングを疑うと判断しやすくなります。
対応スキル項目(データサイエンス力シート)
データ理解・前処理
データ加工
★ データの前処理(欠損値処理、正規化、カテゴリ変数の処理など)を理解している
🔗 関連記事
- アクセス制御リスト(ACL)とは?ファイル権限の基本を整理【DS検定】
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- アジャイル開発とは?ウォーターフォール開発との違いを整理【DS検定】
- 分析アプローチ設計とは?(分析プロジェクトを成功させる設計プロセス)【DS検定】
- 必要なデータ・分析手法・可視化を適切に選択する力とは?【DS検定】