ds data-storage data-processing
DS検定トップ
> HadoopとSparkの違いとは?(分散処理基盤の比較)【DS検定リテラシー】
まず結論
Hadoopは「ディスク中心の分散処理基盤」、Sparkは「メモリ中心の高速分散処理基盤」です。
DS検定では「どちらが高速か」「どの用途に向くか」を判断させる問題が出ます。
直感的な説明
イメージで考えましょう。
Hadoop(MapReduce)
毎回ノートに書いて、終わったら机にしまう。
次の処理でまた取り出して書く。
→ 安定しているが、やや遅い。
Spark
ホワイトボードに書いたまま次の計算を続ける。
→ 速い。特に何度も繰り返す処理に強い。
この「保存場所の違い」が最大のポイントです。
定義・仕組み
Hadoop(MapReduce)
- データをHDFSに保存
- 処理ごとにディスクに書き込み
- 安価なサーバを多数使う設計
特徴:
- 安定
- 大規模バッチ処理向き
- ディスクI/Oが多い
Spark
- データをメモリに保持して処理
- 反復計算が高速
- 機械学習処理と相性が良い
特徴:
- 高速
- インメモリ処理
- リアルタイム処理にも対応
どんな場面で使う?
Hadoopが向く場面
- 夜間の大量ログ一括集計
- バッチ処理
- コストを抑えた大規模基盤
Sparkが向く場面
- 機械学習の学習処理
- 反復計算
- ストリーミング処理
- 低レイテンシ処理
DS検定では
「高速」「インメモリ」「機械学習」と書いてあればSpark寄りです。
よくある誤解・混同
① Hadoop=古いから使われない?
現在も利用されています。
ただし、新規基盤ではSparkが選ばれることが多いです。
② HadoopとSparkは競合?
実際には組み合わせることもあります。
HDFS上でSparkを動かすことも可能です。
③ MapReduceとSparkを同じ処理方式と思う
MapReduceはディスク中心。
Sparkはメモリ中心。
DS検定では
「高速な分散処理基盤はどれか?」と聞かれたらSparkを選びます。
まとめ(試験直前用)
- Hadoop=ディスク中心の分散処理基盤
- Spark=メモリ中心の高速分散処理基盤
- 反復計算や機械学習はSpark向き
- バッチ処理中心ならHadoop
- 「インメモリ」「高速」→ Spark
対応スキル項目(データエンジニアリング力シート)
- データ基盤
- 分散処理基盤
- ★ 分散処理基盤の基本的な仕組みを理解している
- ★ 分散処理基盤の代表的な技術の特徴を理解している
🔗 関連記事
- バッチ処理とストリーム処理の違いとは?【DS検定リテラシー】
- データレイクとは?(DWHとの違いも整理)【DS検定リテラシー】
- データトランスフォーメーションとは?(非構造化データの変換)【DS検定】
- データウェアハウス(DWH)とは?データマートとの違いを理解する【DS検定】
- データウェアハウス(DWH)とは?(データレイクとの違いも整理)【DS検定リテラシー】