HDFS（Hadoop分散ファイルシステム）とは？【DS検定リテラシー】

DS検定トップ＞ HDFS（Hadoop分散ファイルシステム）とは？【DS検定リテラシー】

まず結論

HDFSとは、大量データを複数のサーバに分散して保存する仕組みです。
DS検定では「なぜビッグデータを安全に扱えるのか」を判断させる問題で問われます。

1台のパソコンに全部のデータを保存していたら、
壊れた瞬間にすべて失われます。

HDFSは違います。

データを小さなブロックに分割し、複数のサーバに分けて保存します。
さらに同じデータを複数コピーして持たせます。

つまり、

この2つで「壊れても大丈夫」にしている仕組みです。

DS検定では
「耐障害性を高める仕組みはどれか？」と問われることが多いです。

HDFS（Hadoop Distributed File System）は、
Hadoopで使われる分散ファイルシステムです。

① データをブロック単位に分割する
② 複数のデータノードに保存する
③ 同じブロックを複数台にコピー（レプリケーション）する

例えば、レプリケーション係数が3なら、
同じデータを3台に保存します。

1台が故障しても、
残りの2台から読み出せるため、耐障害性が高まります。

ここがDS検定の重要ポイントです。

企業での活用例：

HDFSは「高速検索の仕組み」ではありません。
あくまで「大量データを分散して保存する仕組み」です。

データレイクは「考え方・保存方針」。
HDFSは「実際の保存技術」。

選択肢では
「データレイクが耐障害性を高める」と書かれていたら注意です。

DS検定ではよく、

などを混ぜてきます。

耐障害性を高める直接的な仕組みは
データレプリケーションです。

RDBは整合性やトランザクション管理が強み。
HDFSは大量データの分散保存が強み。

「整合性」「ACID」と出てきたらRDB寄りです。