Skip to the content.

DS検定トップ > カテゴリ変数とは?数値データとの違いを整理【DS検定】

まず結論

カテゴリ変数とは、数値ではなく「分類(カテゴリー)」を表すデータです。

DS検定では、カテゴリ変数はそのままでは機械学習で扱えないためエンコーディングが必要という点が問われます。

直感的な説明

例えば次のようなデータがあります。

顧客 性別

A 男性 B 女性 C 男性

この「男性」「女性」は数値ではなく

グループ(分類)を表しています。

このように

性別

商品カテゴリ

都道府県

職業

などの 分類を表すデータを

カテゴリ変数(categorical variable)と呼びます。

定義・仕組み

カテゴリ変数とは、値が数値ではなくカテゴリ(分類)で表される変数です。

データは大きく次の2種類に分けられます。

データの種類 例

数値変数 年齢、売上、温度 カテゴリ変数 性別、地域、商品カテゴリ

数値変数は

計算できる

平均を求められる

という特徴があります。

一方でカテゴリ変数は

計算できない

大小の意味がない

という特徴があります。

そのため機械学習では

エンコーディングによって数値に変換する必要があります。

どんな場面で使う?

① データ分析

カテゴリ変数は次のような分析でよく使われます。

性別ごとの売上

地域ごとの利用率

商品カテゴリ別の人気

この場合

グループごとに比較する分析になります。

② 機械学習

機械学習では

商品カテゴリ

ユーザータイプ

地域

などが特徴量として使われます。

しかしモデルは文字を扱えないため

エンコーディングで数値化します。

よくある誤解・混同

① 数値データとの混同

例えば次のようなデータがあります。

満足度

1 2 3

この数字は

数量

大きさ

を表しているとは限りません。

例えば

1 = 低 2 = 中 3 = 高

のような カテゴリを表す番号 の場合もあります。

この場合は

数値に見えてもカテゴリ変数です。

DS検定ではここを混同させる問題がよく出ます。

② ラベルエンコーディングとの混同

ラベルエンコーディングは

カテゴリ変数を数値に変換する方法です。

つまり

カテゴリ変数 → エンコーディング → 数値データ

という関係になります。

③ 順序カテゴリとの違い

カテゴリ変数には次の2種類があります。

種類 例

名義尺度 性別、血液型 順序尺度 満足度、高・中・低

順序尺度は

順番の意味を持つカテゴリです。

DS検定では

順序があるかどうか

を問われることがあります。

まとめ(試験直前用)

カテゴリ変数 = 分類を表すデータ

性別

地域

商品カテゴリ

数値のように計算できない

機械学習では エンコーディングが必要

DS検定では

「分類データ」や「カテゴリデータ」

と書かれていたら

カテゴリ変数を思い出すと判断しやすくなります。

対応スキル項目(データサイエンス力シート)

データ理解・前処理

データ加工

★ データの前処理(欠損値処理、正規化、カテゴリ変数の処理など)を理解している

🔗 関連記事


🏠 DS検定トップに戻る