MapReduceとは？（分散処理の基本モデル）【DS検定リテラシー】

DS検定トップ＞ MapReduceとは？（分散処理の基本モデル）【DS検定リテラシー】

まず結論

MapReduceとは、大量データを「分けて処理し、あとでまとめる」分散処理の仕組みです。
DS検定では「分散処理の流れを理解しているか」を判断させる問題で問われます。

直感的な説明

1億件のデータを1人で集計するのは大変です。

でも、

100人で分担して集計する
最後に結果を合計する

これなら速いですよね。

MapReduceはこの考え方です。

Map：分けて処理する
Reduce：まとめる

シンプルですが、ビッグデータ処理の基本モデルです。

DS検定では
「MapとReduceの役割を逆に書いた選択肢」がよく出ます。

定義・仕組み

MapReduceは、Hadoopで使われる分散処理モデルです。

処理の流れは3段階です。

① Map

データを分割し、それぞれのノードで処理する

例：売上データから「商品ごとの売上」を抽出する

② Shuffle（内部処理）

同じキー（商品名など）をまとめる

③ Reduce

同じキーごとに集計する

例：商品Aの売上を合計する

ポイントは、

分割して並列処理
キー単位でまとめる
最終的に集約する

という流れです。

どんな場面で使う？

使う場面

大量ログの集計
Webアクセス数のカウント
売上集計
キーワード出現回数のカウント

「集計系処理」と相性が良いです。

向かない場面

リアルタイム処理
複雑な反復計算（機械学習の学習処理など）

この点でSparkとの違いが出ます。

よくある誤解・混同

① MapとReduceの役割を逆にする問題

DS検定ではよく、

Mapが集計する
Reduceが分割する

という誤りを混ぜてきます。

正しくは：

Map＝分けて処理
Reduce＝まとめて集計

② Hadoopと同義と思ってしまう

Hadoopは基盤全体。
MapReduceはその中の「処理モデル」。

ここは切り分けておきましょう。

③ Sparkとの混同

Sparkも分散処理基盤ですが、

MapReduceはディスク中心
Sparkはメモリ中心

という違いがあります。

DS検定では
「高速」「インメモリ」という言葉が出たらSpark寄りです。

まとめ（試験直前用）

MapReduceは分散処理モデル
Map＝分割して処理
Reduce＝まとめて集計
集計系処理と相性が良い
Hadoopは基盤、MapReduceは処理方式

対応スキル項目（データエンジニアリング力シート）

データ基盤
分散処理基盤
★ 分散処理基盤の基本的な仕組みを理解している
★ 分散処理の基本的な処理モデルを理解している

🔗 関連記事

🏠 DS検定トップに戻る