Hadoopとは？（ビッグデータ分散処理基盤）【DS検定リテラシー】

DS検定トップ＞ Hadoopとは？（ビッグデータ分散処理基盤）【DS検定リテラシー】

まず結論

Hadoopとは、大量データを「分散して保存し、分散して処理する」ための基盤です。
DS検定では「ビッグデータをどうやって扱うのか」を判断させる問題で問われます。

1台のサーバで100TBのデータを処理しようとすると、
時間もかかるし、壊れたら終わりです。

Hadoopは発想が違います。

つまり、

みんなで分けて保存し、みんなで分けて計算する

これがHadoopの考え方です。

DS検定では
「なぜビッグデータを扱えるのか？」という文脈で出題されます。

Hadoopは、ビッグデータを扱うための分散処理フレームワークです。

主な構成は次の2つです。

データを分散して保存する仕組み

データを分散して処理する仕組み

流れとしては、

という形になります。

重要なのは、

ここがDS検定で狙われやすいポイントです。

つまり「データがとにかく大量」な場合です。

Hadoopは万能ではありません。

「大量・分散」がキーワードです。

HDFSは保存の仕組み。
Hadoopは保存＋処理の全体基盤。

DS検定ではこの違いを混同させてきます。

データレイクは概念。
Hadoopは具体的な技術基盤。

「レイク」という言葉が出たら要注意です。

RDBは構造化データの管理が得意。
Hadoopは非構造データも含む大量データ処理が得意。

「ACID」「トランザクション」が出たらRDBです。