Skip to the content.

DS検定トップ > ETLとは?(データ統合の基本プロセス)【DS検定リテラシー】

まず結論

ETLとは、データを「抽出(Extract)→変換(Transform)→格納(Load)」する一連の処理のことです。
DS検定では「DWHにデータを入れる前の処理は何か?」という形で問われます。

直感的な説明

企業には、

  • 販売システム
  • 会計システム
  • 顧客管理システム

など、別々のデータがあります。

そのままでは形式がバラバラ。

そこで、

① 必要なデータを取り出す
② 形式をそろえて加工する
③ 分析基盤(DWHなど)に入れる

この流れがETLです。

「データを整えてから倉庫に入れる作業」と考えると分かりやすいです。

定義・仕組み

ETLは3つの工程から成ります。

① Extract(抽出)

各システムからデータを取り出す

② Transform(変換)

  • データ形式の統一
  • 不要データの削除
  • 単位の変換
  • 欠損値処理

ここが最も重要です。

③ Load(格納)

整形済みデータをDWHに保存する

重要ポイント:

ETLは「分析前の前処理プロセス」です。
分析そのものではありません。

どんな場面で使う?

使う場面

  • DWH構築
  • 経営ダッシュボード作成
  • 部門横断データ統合

特に「複数システムを統合する」場面で使われます。

向かない場面

  • リアルタイム処理
  • 生データをそのまま保存するデータレイク

その場合はELTやストリーム処理が使われます。

よくある誤解・混同

① ETL=データ分析?

違います。

ETLは分析の前段階です。

DS検定では
「分析モデルを構築する工程」と混同させてきます。

② ELTとの違い

項目 ETL ELT
変換タイミング 格納前 格納後
主な用途 従来型DWH クラウド基盤

DS検定では
「クラウド」「大容量基盤」とあればELT寄りです。

③ データレイクとの混同

データレイクは保存の考え方。
ETLは加工プロセス。

役割がまったく違います。

まとめ(試験直前用)

  • ETL=抽出→変換→格納
  • DWHに入れる前の整形作業
  • 分析そのものではない
  • 複数システム統合に必須
  • 「変換してから保存」→ ETL

対応スキル項目(データエンジニアリング力シート)

  • データ基盤
  • データ統合
  • ★ データ統合プロセス(ETL)の基本を理解している
  • ★ 複数システムのデータを統合する考え方を理解している

🔗 関連記事


🏠 DS検定トップに戻る