ds data-storage data-processing
まず結論
HDFSとは、大量データを複数のサーバに分散して保存する仕組みです。
DS検定では「なぜビッグデータを安全に扱えるのか」を判断させる問題で問われます。
直感的な説明
1台のパソコンに全部のデータを保存していたら、
壊れた瞬間にすべて失われます。
HDFSは違います。
データを小さなブロックに分割し、複数のサーバに分けて保存します。
さらに同じデータを複数コピーして持たせます。
つまり、
- 分散して持つ
- コピーして守る
この2つで「壊れても大丈夫」にしている仕組みです。
DS検定では
「耐障害性を高める仕組みはどれか?」と問われることが多いです。
定義・仕組み
HDFS(Hadoop Distributed File System)は、
Hadoopで使われる分散ファイルシステムです。
仕組みのポイント
① データをブロック単位に分割する
② 複数のデータノードに保存する
③ 同じブロックを複数台にコピー(レプリケーション)する
例えば、レプリケーション係数が3なら、
同じデータを3台に保存します。
1台が故障しても、
残りの2台から読み出せるため、耐障害性が高まります。
ここがDS検定の重要ポイントです。
どんな場面で使う?
使う場面
- ビッグデータの保存
- ログデータの大量蓄積
- 分散処理(MapReduceなど)と組み合わせる場合
企業での活用例:
- Webアクセスログの分析
- IoTデータの蓄積
- ECサイトの行動履歴分析
使うと誤解しやすい場面
- 高速な検索が目的の場合 → インデックス技術の話
- トランザクション管理が必要な場合 → RDBの話
HDFSは「高速検索の仕組み」ではありません。
あくまで「大量データを分散して保存する仕組み」です。
よくある誤解・混同
① データレイクとの混同
データレイクは「考え方・保存方針」。
HDFSは「実際の保存技術」。
選択肢では
「データレイクが耐障害性を高める」と書かれていたら注意です。
② レプリケーション以外を選ばせる問題
DS検定ではよく、
- インデックス作成
- トランザクションログ
- キャッシュ機構
などを混ぜてきます。
耐障害性を高める直接的な仕組みは
データレプリケーションです。
③ RDBとの混同
RDBは整合性やトランザクション管理が強み。
HDFSは大量データの分散保存が強み。
「整合性」「ACID」と出てきたらRDB寄りです。
まとめ(試験直前用)
- HDFSは分散ファイルシステム
- 大量データを複数サーバに分けて保存する
- 耐障害性の仕組みはレプリケーション
- データレイクは概念、HDFSは技術
- 「壊れても残る仕組みは?」→ レプリケーション
対応スキル項目(データエンジニアリング力シート)
- データ基盤
- 分散処理基盤
- ★ 分散処理基盤の基本的な仕組みを理解している
- ★ データの分散保存と冗長化の考え方を理解している
🔗 関連記事
- バッチ処理とストリーム処理の違いとは?【DS検定リテラシー】
- データレイクとは?(DWHとの違いも整理)【DS検定リテラシー】
- データトランスフォーメーションとは?(非構造化データの変換)【DS検定】
- データウェアハウス(DWH)とは?データマートとの違いを理解する【DS検定】
- データウェアハウス(DWH)とは?(データレイクとの違いも整理)【DS検定リテラシー】