sg sg-technology database system_strategy
まず結論
データウェアハウスとは、企業内のさまざまなシステムから集めたデータを、分析しやすい形で統合・蓄積する大規模なデータベースです。
SG試験では、データウェアハウスの細かい設計よりも、データマート・データレイク・データカタログ・データリネージとの違いを判断できるかが大切です。
特に、選択肢で
- 特定部門向けに切り出した小規模なデータベース
- 生データをそのまま蓄積する場所
- データの所在や意味を管理する仕組み
- データの加工履歴を追跡する情報
と書かれていたら注意です。
データウェアハウスは、全社的なデータを統合して分析に使うための基盤と押さえましょう。
直感的な説明
データウェアハウスは、会社のデータを集める大きな倉庫のようなものです。
会社には、いろいろなシステムがあります。
- 販売管理システム
- 会計システム
- 顧客管理システム
- 在庫管理システム
それぞれのシステムにデータが分かれていると、会社全体の状況を見たいときに分析しづらくなります。
そこで、各システムから必要なデータを集め、形式をそろえて、分析しやすく保管します。
これがデータウェアハウスです。
日常のイメージでいうと、各店舗に散らばっている商品情報や売上情報を、本部の大きな倉庫に集めて整理するようなものです。
定義・仕組み
データウェアハウスは、英語で Data Warehouse と呼ばれます。
Warehouse は「倉庫」という意味です。
基本的な流れは、次のようになります。
- 業務システムからデータを集める
- データ形式や表記ゆれを整える
- 分析しやすい形で蓄積する
- レポート作成や経営判断に利用する
たとえば、同じ顧客でも、あるシステムでは「株式会社A」、別のシステムでは「(株)A」と登録されていることがあります。
このようなデータをそのまま使うと、集計結果がずれる可能性があります。
データウェアハウスでは、こうしたデータを整理し、会社全体で分析しやすい形にします。
IPAの情報セキュリティマネジメント試験では、セキュリティだけでなく、業務でITを安全に活用するためのテクノロジ系知識も出題範囲に含まれます。データベース関連の用語は、IPA 情報セキュリティマネジメント試験の出題範囲と関連づけて押さえておくと理解しやすくなります。
データマートとの違い
| 用語 | 役割 | 判断ポイント |
|---|---|---|
| データウェアハウス | 全社的なデータを統合して蓄積する | 大規模・統合・分析基盤 |
| データマート | 特定の部門や目的に合わせて切り出す | 小規模・部門別・目的別 |
データウェアハウスが会社全体の大きな倉庫なら、データマートは目的別に取り出した小さな棚です。
SG試験では、選択肢に「特定の目的に合わせて必要なデータを抽出・加工した小規模なデータベース」とあれば、データウェアハウスではなくデータマートを疑います。
どんな場面で使う?
データウェアハウスは、次のような場面で使われます。
- 会社全体の売上を分析したい
- 複数システムのデータをまとめて見たい
- 長期間のデータを使って傾向を分析したい
- 経営判断やレポート作成に使うデータを整備したい
たとえば、販売管理システムだけを見ると売上は分かります。
しかし、在庫や顧客情報、広告費なども合わせて見ると、より正確に経営状況を判断できます。
データウェアハウスは、このように複数のデータを統合して分析する場面で役立ちます。
一方で、すぐに特定部門だけで使う小さな分析用データが必要な場合は、データマートの方が近いです。
よくある誤解・混同
データウェアハウスとデータマートの混同
データウェアハウスは、全社的なデータを統合する大きな仕組みです。
データマートは、その中から目的別に必要なデータを取り出した小さな仕組みです。
- データウェアハウス:全社規模で統合
- データマート:部門・目的ごとに切り出し
「小規模」「特定目的」「部門別」とあれば、データマートを疑います。
データウェアハウスとデータレイクの混同
データレイクは、構造化データだけでなく、画像・ログ・センサーデータなども含めて、生データをそのまま蓄積する考え方です。
- データウェアハウス:分析しやすいように整理して蓄積
- データレイク:多様な生データをそのまま蓄積
選択肢で「本来の形式のまま」「多種多様な生データ」とあれば、データレイクを疑います。
データウェアハウスとデータカタログの混同
データカタログは、データの所在、定義、内容、利用方法などのメタデータを管理する仕組みです。
- データウェアハウス:データそのものを統合して蓄積する
- データカタログ:データを探しやすくするための情報を管理する
「どこにどんなデータがあるかを管理」とあれば、データカタログです。
データウェアハウスとデータリネージの混同
データリネージは、データがどこで発生し、どのような変換や加工を経て現在の形になったかを示す情報です。
- データウェアハウス:分析用データを蓄積する場所
- データリネージ:データの流れや加工履歴を追跡する情報
「発生元」「変換・加工の履歴」「トレーサビリティ」とあれば、データリネージを疑います。
まとめ(試験直前用)
- データウェアハウスは、全社的なデータを統合して分析しやすく蓄積する仕組み
- データマートは、特定目的向けに切り出した小規模な分析用データベース
- データレイクは、生データを本来の形式のまま広く蓄積する場所
- データカタログは、データの所在や定義などのメタデータを管理する仕組み
- データリネージは、データの発生元や加工履歴を追跡する情報
SG試験では、「全社的に統合するのか」「目的別に切り出すのか」で判断すると、データウェアハウスとデータマートを切り分けやすくなります。
🔗 関連記事
- クライアントサーバーシステムとは?役割分担の考え方を理解する【SG試験】
- 請負契約と準委任契約の違いとは?成果物か作業かで判断【SG試験】
- 著作権譲渡契約とは?ライセンス契約との違いを整理【SG試験】
- DFDとは?データの流れと処理を表す図【SG試験】
- データマートとは?データウェアハウスとの違いを整理【SG試験】