Skip to the content.

DS検定トップ > バッチ処理とストリーム処理の違いとは?【DS検定リテラシー】

まず結論

バッチ処理は「まとめて後で処理する方式」、ストリーム処理は「発生と同時に処理する方式」です。
DS検定では「リアルタイム性が必要かどうか」で判断させる問題が出ます。

直感的な説明

バッチ処理

1日分の売上を夜にまとめて集計する。

→ 遅れてもいい。まとめて処理。

ストリーム処理

クレジットカードの不正検知をその場で判断する。

→ 今すぐ判定が必要。

この「今すぐか、後でいいか」が最大の違いです。

定義・仕組み

バッチ処理

  • 一定期間データを蓄積
  • まとめて処理
  • 定期実行(例:毎日深夜)

特徴:

  • 安定
  • 大量処理に向く
  • 即時性は低い

ストリーム処理

  • データが発生するたびに処理
  • リアルタイム処理
  • 連続的に実行

特徴:

  • 即時性が高い
  • 不正検知やアラートに向く
  • システム設計が複雑になりやすい

どんな場面で使う?

バッチ処理が向く場面

  • 売上集計
  • 月次レポート
  • ログ分析

「今すぐでなくてよい」処理。

ストリーム処理が向く場面

  • 不正検知
  • IoT異常検知
  • リアルタイム広告配信
  • 株価監視

「遅れると意味がない」処理。

DS検定では
「リアルタイム性」「即時検知」と書いてあればストリーム処理です。

よくある誤解・混同

① ストリーム処理=高速処理?

高速というより「即時性」がポイントです。
大量一括処理ならバッチのほうが効率的な場合もあります。

② バッチ処理=古い?

現在も広く使われています。
用途が違うだけです。

③ Sparkはストリーム専用?

Sparkはバッチもストリームも対応できます。
ここもDS検定で混同させやすいポイントです。

まとめ(試験直前用)

  • バッチ=まとめて後で処理
  • ストリーム=発生と同時に処理
  • 即時性が必要 → ストリーム
  • 大量一括処理 → バッチ
  • 「リアルタイム」「不正検知」→ ストリーム

対応スキル項目(データエンジニアリング力シート)

  • データ基盤
  • データ処理方式
  • ★ データ処理方式(バッチ処理・ストリーム処理)の違いを理解している
  • ★ リアルタイム処理の必要性を判断できる

🔗 関連記事


🏠 DS検定トップに戻る