Skip to the content.

DS検定トップ > データレイクとは?(DWHとの違いも整理)【DS検定リテラシー】

まず結論

データレイクとは、形式を問わず生データをそのまま大量に保存するための仕組み(考え方)です。
DS検定では「データウェアハウス(DWH)との違い」を判断させる問題がよく出ます。

直感的な説明

データレイク

とにかく全部そのまま貯める「大きな湖」。

  • Excel
  • ログ
  • 画像
  • 音声
  • センサーデータ

形式をそろえず、そのまま保存します。

データウェアハウス(DWH)

整理して棚に並べた「倉庫」。

  • きれいに構造化
  • 分析しやすい形に整形済み

この違いが最大のポイントです。

定義・仕組み

データレイクの特徴

  • 構造化・非構造化データをそのまま保存
  • 保存時に整形しない(Schema on Read)
  • 後から用途に応じて加工する

よくHDFSやクラウドストレージと組み合わせて構築されます。

重要なのは、

データレイクは「保存の考え方」であって
特定の製品名ではない、という点です。

どんな場面で使う?

使う場面

  • 将来何に使うか未確定のデータ保存
  • AI・機械学習用データの蓄積
  • IoTやログなど大量データの保管

とりあえず全部ためる、が基本思想です。

向かない場面

  • 即座に集計・レポートしたい場合
  • 経営指標の定型分析

その場合はDWHが向いています。

よくある誤解・混同

① データレイク=HDFS?

違います。

HDFSは保存技術。
データレイクは保存の考え方。

DS検定ではここを混同させます。

② データレイクは整理されている?

いいえ。

保存時は整理しません。
読み出すときに構造を定義します。

③ DWHとの違い

項目 データレイク DWH
保存時 整形しない 整形する
データ形式 何でも可 主に構造化
用途 AI・将来分析 定型分析

DS検定では
「構造化済み」「経営分析用」と書いてあればDWH寄りです。

まとめ(試験直前用)

  • データレイク=生データをそのまま保存
  • 形式を問わない
  • 保存時に整形しない(Schema on Read)
  • DWHは整形済みデータ
  • 「全部ためる」思想 → データレイク

対応スキル項目(データエンジニアリング力シート)

  • データ基盤
  • データ管理
  • ★ データ基盤の代表的なアーキテクチャを理解している
  • ★ データレイクとデータウェアハウスの違いを理解している

🔗 関連記事


🏠 DS検定トップに戻る