Skip to the content.

DS検定トップ > HadoopとSparkの違いとは?(分散処理基盤の比較)【DS検定リテラシー】

まず結論

Hadoopは「ディスク中心の分散処理基盤」、Sparkは「メモリ中心の高速分散処理基盤」です。
DS検定では「どちらが高速か」「どの用途に向くか」を判断させる問題が出ます。

直感的な説明

イメージで考えましょう。

Hadoop(MapReduce)

毎回ノートに書いて、終わったら机にしまう。
次の処理でまた取り出して書く。

→ 安定しているが、やや遅い。

Spark

ホワイトボードに書いたまま次の計算を続ける。

→ 速い。特に何度も繰り返す処理に強い。

この「保存場所の違い」が最大のポイントです。

定義・仕組み

Hadoop(MapReduce)

  • データをHDFSに保存
  • 処理ごとにディスクに書き込み
  • 安価なサーバを多数使う設計

特徴:

  • 安定
  • 大規模バッチ処理向き
  • ディスクI/Oが多い

Spark

  • データをメモリに保持して処理
  • 反復計算が高速
  • 機械学習処理と相性が良い

特徴:

  • 高速
  • インメモリ処理
  • リアルタイム処理にも対応

どんな場面で使う?

Hadoopが向く場面

  • 夜間の大量ログ一括集計
  • バッチ処理
  • コストを抑えた大規模基盤

Sparkが向く場面

  • 機械学習の学習処理
  • 反復計算
  • ストリーミング処理
  • 低レイテンシ処理

DS検定では
「高速」「インメモリ」「機械学習」と書いてあればSpark寄りです。

よくある誤解・混同

① Hadoop=古いから使われない?

現在も利用されています。
ただし、新規基盤ではSparkが選ばれることが多いです。

② HadoopとSparkは競合?

実際には組み合わせることもあります。
HDFS上でSparkを動かすことも可能です。

③ MapReduceとSparkを同じ処理方式と思う

MapReduceはディスク中心。
Sparkはメモリ中心。

DS検定では
「高速な分散処理基盤はどれか?」と聞かれたらSparkを選びます。

まとめ(試験直前用)

  • Hadoop=ディスク中心の分散処理基盤
  • Spark=メモリ中心の高速分散処理基盤
  • 反復計算や機械学習はSpark向き
  • バッチ処理中心ならHadoop
  • 「インメモリ」「高速」→ Spark

対応スキル項目(データエンジニアリング力シート)

  • データ基盤
  • 分散処理基盤
  • ★ 分散処理基盤の基本的な仕組みを理解している
  • ★ 分散処理基盤の代表的な技術の特徴を理解している

🔗 関連記事


🏠 DS検定トップに戻る