ds data-preparation design
まず結論
カテゴリ変数とは、数値ではなく「分類(カテゴリー)」を表すデータです。
DS検定では、カテゴリ変数はそのままでは機械学習で扱えないためエンコーディングが必要という点が問われます。
直感的な説明
例えば次のようなデータがあります。
顧客 性別
A 男性 B 女性 C 男性
この「男性」「女性」は数値ではなく
グループ(分類)を表しています。
このように
性別
商品カテゴリ
都道府県
職業
などの 分類を表すデータを
カテゴリ変数(categorical variable)と呼びます。
定義・仕組み
カテゴリ変数とは、値が数値ではなくカテゴリ(分類)で表される変数です。
データは大きく次の2種類に分けられます。
データの種類 例
数値変数 年齢、売上、温度 カテゴリ変数 性別、地域、商品カテゴリ
数値変数は
計算できる
平均を求められる
という特徴があります。
一方でカテゴリ変数は
計算できない
大小の意味がない
という特徴があります。
そのため機械学習では
エンコーディングによって数値に変換する必要があります。
どんな場面で使う?
① データ分析
カテゴリ変数は次のような分析でよく使われます。
性別ごとの売上
地域ごとの利用率
商品カテゴリ別の人気
この場合
グループごとに比較する分析になります。
② 機械学習
機械学習では
商品カテゴリ
ユーザータイプ
地域
などが特徴量として使われます。
しかしモデルは文字を扱えないため
エンコーディングで数値化します。
よくある誤解・混同
① 数値データとの混同
例えば次のようなデータがあります。
満足度
1 2 3
この数字は
数量
大きさ
を表しているとは限りません。
例えば
1 = 低 2 = 中 3 = 高
のような カテゴリを表す番号 の場合もあります。
この場合は
数値に見えてもカテゴリ変数です。
DS検定ではここを混同させる問題がよく出ます。
② ラベルエンコーディングとの混同
ラベルエンコーディングは
カテゴリ変数を数値に変換する方法です。
つまり
カテゴリ変数 → エンコーディング → 数値データ
という関係になります。
③ 順序カテゴリとの違い
カテゴリ変数には次の2種類があります。
種類 例
名義尺度 性別、血液型 順序尺度 満足度、高・中・低
順序尺度は
順番の意味を持つカテゴリです。
DS検定では
順序があるかどうか
を問われることがあります。
まとめ(試験直前用)
カテゴリ変数 = 分類を表すデータ
例
性別
地域
商品カテゴリ
数値のように計算できない
機械学習では エンコーディングが必要
DS検定では
「分類データ」や「カテゴリデータ」
と書かれていたら
カテゴリ変数を思い出すと判断しやすくなります。
対応スキル項目(データサイエンス力シート)
データ理解・前処理
データ加工
★ データの前処理(欠損値処理、正規化、カテゴリ変数の処理など)を理解している
🔗 関連記事
- アクセス制御リスト(ACL)とは?ファイル権限の基本を整理【DS検定】
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- アジャイル開発とは?ウォーターフォール開発との違いを整理【DS検定】
- 分析アプローチ設計とは?(分析プロジェクトを成功させる設計プロセス)【DS検定】
- 必要なデータ・分析手法・可視化を適切に選択する力とは?【DS検定】