ds data-processing sql
まず結論
SQLのフィルタリング処理とは、条件を指定して必要なデータだけを抽出する操作です。 DS検定では、「条件に合うデータだけを取り出す処理=フィルタリング(WHERE句)」と理解できているかが問われます。
直感的な説明
例えば、次のような売上データがあるとします。
日付 店舗 売上
4/1 東京 80万円 4/2 東京 120万円 4/3 大阪 90万円 4/4 東京 150万円
もし、
「売上が100万円以上の日だけ知りたい」
と思ったらどうするでしょうか。
必要なのは次のデータだけです。
日付 店舗 売上
4/2 東京 120万円 4/4 東京 150万円
このように 条件に合う行だけを取り出す操作が フィルタリング処理(Filtering)です。
Excelの「フィルター機能」やBIツールの絞り込みと同じ考え方です。
SQLではこれを WHERE句で行います。
例:
SELECT * FROM sales WHERE 売上 >= 1000000;
定義・仕組み
フィルタリング処理とは、
データに条件を指定して、条件に合致するレコード(行)だけを抽出する処理です。
SQLでは主に WHERE句を使います。
基本形は次のようになります。
SELECT 列名 FROM テーブル名 WHERE 条件;
条件にはさまざまな演算子を使うことができます。
演算子 意味
AND 複数条件をすべて満たす OR 複数条件のどれかを満たす IN 指定した値の集合に含まれる LIKE 文字列パターン検索 BETWEEN 範囲指定
例:
SELECT * FROM sales WHERE 店舗 = ‘東京’ AND 売上 >= 1000000;
これは
「東京店舗で、売上100万円以上のデータ」
を抽出しています。
どんな場面で使う?
フィルタリング処理は、データ分析ではほぼ必ず使います。
代表例:
売上分析
売上100万円以上の日を抽出
特定店舗の売上だけを見る
顧客分析
30代の顧客だけ抽出
購入回数が多い顧客
ログ分析
エラーが発生したログ
特定期間のアクセス
つまり、
必要なデータだけを取り出して分析するための基本操作
がフィルタリングです。
データ分析では 「抽出 → 集計 → 可視化」 という流れになることが多く、
フィルタリングはその 最初のステップです。
よくある誤解・混同
① フィルタリング=削除ではない
フィルタリングは
データを消す操作ではありません。
あくまで
表示・抽出する行を限定するだけ
です。
② フィルタリングと検索の混同
DS検定では次のような選択肢が出ることがあります。
❌ 「フィルタリングとはデータの検索機能である」
これは厳密には不正確です。
フィルタリングは
条件に基づくデータ抽出
です。
③ 集計処理との混同
フィルタリングは
データを選ぶ処理
であり、
平均・合計などを計算する処理ではありません。
例えば
操作 役割
フィルタリング 必要なデータを抽出 集計(GROUP BY) データをまとめて計算
この違いはDS検定でよく問われます。
まとめ(試験直前用)
フィルタリング処理=条件に合うデータだけを抽出する操作
SQLでは WHERE句を使う
Excelのフィルター機能と同じ考え方
データ分析では 抽出 → 集計 → 可視化 の最初のステップ
データ削除や集計処理と混同しないこと
DS検定では 「条件を指定してデータを抽出する処理はどれか」 という形で問われることが多いです。
対応スキル項目(データエンジニアリング力シート)
データ加工
フィルタリング処理
★ 数十万レコードのデータに対して、条件を指定してフィルタリングできる(特定値に合致する・もしくは合致しないデータの抽出、特定範囲のデータの抽出、部分文字列の抽出など)
🔗 関連記事
- バッチ処理とストリーム処理の違いとは?【DS検定リテラシー】
- データトランスフォーメーションとは?(非構造化データの変換)【DS検定】
- Dockerとは?再現性が出る理由を整理【DS検定】
- ETLとは?(データ統合の基本プロセス)【DS検定リテラシー】
- フィルターとは?BIツールの基本操作をわかりやすく解説【DS検定】