HadoopとSparkの違いとは？（分散処理基盤の比較）【DS検定リテラシー】

DS検定トップ＞ HadoopとSparkの違いとは？（分散処理基盤の比較）【DS検定リテラシー】

まず結論

Hadoopは「ディスク中心の分散処理基盤」、Sparkは「メモリ中心の高速分散処理基盤」です。
DS検定では「どちらが高速か」「どの用途に向くか」を判断させる問題が出ます。

イメージで考えましょう。

毎回ノートに書いて、終わったら机にしまう。
次の処理でまた取り出して書く。

→ 安定しているが、やや遅い。

ホワイトボードに書いたまま次の計算を続ける。

→ 速い。特に何度も繰り返す処理に強い。

この「保存場所の違い」が最大のポイントです。

特徴：

特徴：

DS検定では
「高速」「インメモリ」「機械学習」と書いてあればSpark寄りです。

現在も利用されています。
ただし、新規基盤ではSparkが選ばれることが多いです。

実際には組み合わせることもあります。
HDFS上でSparkを動かすことも可能です。

MapReduceはディスク中心。
Sparkはメモリ中心。

DS検定では
「高速な分散処理基盤はどれか？」と聞かれたらSparkを選びます。