Skip to the content.

DS検定トップ > DISTINCTとは?重複データを除去する基本操作【DS検定】

まず結論

DISTINCTとは「重複している値を1つにまとめる(重複排除する)」SQLの機能

DS検定では「重複を消すのか・残すのか」を判断させる問題としてよく出る

直感的な説明

同じ商品を何回も買っているデータがあったとします。

りんご りんご みかん りんご

このとき「どんな商品があるかだけ知りたい」なら、

りんご みかん

と重複をまとめます。

👉 これをやるのが DISTINCT です

定義・仕組み

DISTINCTは、指定した列の値の重複を取り除くSQLのキーワードです。

基本形:

SELECT DISTINCT 列名 FROM テーブル名;

ポイント:

同じ値は1つだけ残る

複数列に使うと「組み合わせ単位」で重複を判断する

例:

SELECT DISTINCT 商品名 FROM 売上テーブル;

👉 商品名の種類だけを取得できる

どんな場面で使う?

よく使う場面

ユニークな値を知りたいとき (例:顧客の居住地域の種類)

集計前のデータ確認 (例:カテゴリの種類チェック)

注意が必要な場面

件数を知りたいとき → DISTINCTを使うと件数が減る

データの重複そのものが意味を持つとき → 売上回数などは消してはいけない

よくある誤解・混同

❌ GROUP BY と同じ

→ ⭕ 似ているが目的が違う

DISTINCT:重複排除だけ

GROUP BY:集計(SUM, COUNTなど)とセット

👉 DS検定ではここを混同させてくる

❌ 件数は変わらない

→ ⭕ 重複があると件数は減る

選択肢では 「DISTINCTを使ってもレコード数は変わらない」 → ❌ 誤り

❌ 行全体ではなく1列だけ見ている

→ ⭕ 複数列の場合は組み合わせで判断

SELECT DISTINCT A, B FROM テーブル;

👉 (A,B)のペアで重複を判定する

まとめ(試験直前用)

DISTINCT=重複を1つにまとめる

件数は減る可能性がある

GROUP BYとは「目的」が違う

複数列は「組み合わせ」で判定

「重複を消す操作か?」を見抜くのがポイント

対応スキル項目(データエンジニアリング力シート)

データ基盤

データ操作

★ SQLを用いた基本的なデータ操作(検索・集計・結合等)ができる👉 試しながら作る前提の環境

② データ分析・可視化

  • データの読み込み
  • 加工(前処理)
  • グラフ表示

👉 分析の一連の流れをそのまま記録できる

③ 実験・記録(MLOpsとの関係)

  • ハイパーパラメータを変えて試す
  • 精度を比較する
  • 結果をNotebookに残す

👉 モデル開発の「試行錯誤の記録」として使われる

DS検定ではここがポイントで、
Notebookは単なるコーディングツールではなく、実験環境でもあると理解することが重要です。

④ 共有・再現性

  • Notebookをそのまま共有できる
  • 同じ手順を再現できる

👉 チーム開発や業務で重要

どんな場面で使う?

使う場面

  • データ分析(探索的データ分析)
  • モデル開発の初期段階
  • 仮説検証・試行錯誤
  • レポート作成(結果+コード)

使わない場面(注意)

  • 本番システムの処理(バッチ・API)
  • 大規模なプロダクションコード

👉 Notebookは「開発・実験向け」
👉 本番は別環境(スクリプト・API)で動かす

よくある誤解・混同

❌ 誤解①:Notebookは単なるコード実行ツール

→ ⭕ 実際は「分析・実験・記録」をまとめた環境

❌ 誤解②:そのまま本番で使うもの

→ ⭕ 本番は別(Pythonスクリプト・APIなど)

❌ 誤解③:MLOpsとは関係ない

→ ⭕ 実験・記録・共有の部分で重要

DS検定ではここがよく出ます👇

  • 「Notebookは開発だけに使う」→ ❌
  • 「実験やモデル比較にも使う」→ ⭕

❌ 誤解④:Rは古いから使われない

→ ⭕ 統計解析や可視化では今も重要

まとめ(試験直前用)

  • Notebookは「試行錯誤しながら分析する環境」
  • コード+結果+グラフをまとめて扱える
  • 実験管理(パラメータ・精度比較)にも使う
  • 本番環境とは別(ここが重要な切り分け)
  • DS検定では「開発・実験・共有の役割」を問われる

対応スキル項目(AI利活用スキルシート)

  • AIの活用
  • AIの開発・運用
  • ★ AIを活用したシステムの開発・運用プロセスを理解している

🔗 関連記事


🏠 DS検定トップに戻る