ds data-processing sql
まず結論
DISTINCTとは「重複している値を1つにまとめる(重複排除する)」SQLの機能
DS検定では「重複を消すのか・残すのか」を判断させる問題としてよく出る
直感的な説明
同じ商品を何回も買っているデータがあったとします。
りんご りんご みかん りんご
このとき「どんな商品があるかだけ知りたい」なら、
りんご みかん
と重複をまとめます。
👉 これをやるのが DISTINCT です
定義・仕組み
DISTINCTは、指定した列の値の重複を取り除くSQLのキーワードです。
基本形:
SELECT DISTINCT 列名 FROM テーブル名;
ポイント:
同じ値は1つだけ残る
複数列に使うと「組み合わせ単位」で重複を判断する
例:
SELECT DISTINCT 商品名 FROM 売上テーブル;
👉 商品名の種類だけを取得できる
どんな場面で使う?
よく使う場面
ユニークな値を知りたいとき (例:顧客の居住地域の種類)
集計前のデータ確認 (例:カテゴリの種類チェック)
注意が必要な場面
件数を知りたいとき → DISTINCTを使うと件数が減る
データの重複そのものが意味を持つとき → 売上回数などは消してはいけない
よくある誤解・混同
❌ GROUP BY と同じ
→ ⭕ 似ているが目的が違う
DISTINCT:重複排除だけ
GROUP BY:集計(SUM, COUNTなど)とセット
👉 DS検定ではここを混同させてくる
❌ 件数は変わらない
→ ⭕ 重複があると件数は減る
選択肢では 「DISTINCTを使ってもレコード数は変わらない」 → ❌ 誤り
❌ 行全体ではなく1列だけ見ている
→ ⭕ 複数列の場合は組み合わせで判断
SELECT DISTINCT A, B FROM テーブル;
👉 (A,B)のペアで重複を判定する
まとめ(試験直前用)
DISTINCT=重複を1つにまとめる
件数は減る可能性がある
GROUP BYとは「目的」が違う
複数列は「組み合わせ」で判定
「重複を消す操作か?」を見抜くのがポイント
対応スキル項目(データエンジニアリング力シート)
データ基盤
データ操作
★ SQLを用いた基本的なデータ操作(検索・集計・結合等)ができる👉 試しながら作る前提の環境
② データ分析・可視化
- データの読み込み
- 加工(前処理)
- グラフ表示
👉 分析の一連の流れをそのまま記録できる
③ 実験・記録(MLOpsとの関係)
- ハイパーパラメータを変えて試す
- 精度を比較する
- 結果をNotebookに残す
👉 モデル開発の「試行錯誤の記録」として使われる
DS検定ではここがポイントで、
Notebookは単なるコーディングツールではなく、実験環境でもあると理解することが重要です。
④ 共有・再現性
- Notebookをそのまま共有できる
- 同じ手順を再現できる
👉 チーム開発や業務で重要
どんな場面で使う?
使う場面
- データ分析(探索的データ分析)
- モデル開発の初期段階
- 仮説検証・試行錯誤
- レポート作成(結果+コード)
使わない場面(注意)
- 本番システムの処理(バッチ・API)
- 大規模なプロダクションコード
👉 Notebookは「開発・実験向け」
👉 本番は別環境(スクリプト・API)で動かす
よくある誤解・混同
❌ 誤解①:Notebookは単なるコード実行ツール
→ ⭕ 実際は「分析・実験・記録」をまとめた環境
❌ 誤解②:そのまま本番で使うもの
→ ⭕ 本番は別(Pythonスクリプト・APIなど)
❌ 誤解③:MLOpsとは関係ない
→ ⭕ 実験・記録・共有の部分で重要
DS検定ではここがよく出ます👇
- 「Notebookは開発だけに使う」→ ❌
- 「実験やモデル比較にも使う」→ ⭕
❌ 誤解④:Rは古いから使われない
→ ⭕ 統計解析や可視化では今も重要
まとめ(試験直前用)
- Notebookは「試行錯誤しながら分析する環境」
- コード+結果+グラフをまとめて扱える
- 実験管理(パラメータ・精度比較)にも使う
- 本番環境とは別(ここが重要な切り分け)
- DS検定では「開発・実験・共有の役割」を問われる
対応スキル項目(AI利活用スキルシート)
- AIの活用
- AIの開発・運用
- ★ AIを活用したシステムの開発・運用プロセスを理解している
🔗 関連記事
- バッチ処理とストリーム処理の違いとは?【DS検定リテラシー】
- データトランスフォーメーションとは?(非構造化データの変換)【DS検定】
- Dockerとは?再現性が出る理由を整理【DS検定】
- ETLとは?(データ統合の基本プロセス)【DS検定リテラシー】
- フィルターとは?BIツールの基本操作をわかりやすく解説【DS検定】