Skip to the content.

DS検定トップ > Hadoopとは?(ビッグデータ分散処理基盤)【DS検定リテラシー】

まず結論

Hadoopとは、大量データを「分散して保存し、分散して処理する」ための基盤です。
DS検定では「ビッグデータをどうやって扱うのか」を判断させる問題で問われます。

直感的な説明

1台のサーバで100TBのデータを処理しようとすると、
時間もかかるし、壊れたら終わりです。

Hadoopは発想が違います。

  • データを複数台に分ける
  • 処理も複数台で同時に行う

つまり、

みんなで分けて保存し、みんなで分けて計算する

これがHadoopの考え方です。

DS検定では
「なぜビッグデータを扱えるのか?」という文脈で出題されます。

定義・仕組み

Hadoopは、ビッグデータを扱うための分散処理フレームワークです。

主な構成は次の2つです。

① HDFS

データを分散して保存する仕組み

② MapReduce

データを分散して処理する仕組み

流れとしては、

  1. データをHDFSに保存
  2. 各サーバで同時に処理(Map)
  3. 結果をまとめる(Reduce)

という形になります。

重要なのは、

  • 安価なサーバをたくさん並べる設計
  • レプリケーションで耐障害性を確保

ここがDS検定で狙われやすいポイントです。

どんな場面で使う?

使う場面

  • Webログの分析
  • ECサイトの購買履歴分析
  • IoTデータの蓄積
  • SNSデータ分析

つまり「データがとにかく大量」な場合です。

使わない場面

  • 少量データの高速検索
  • トランザクション処理
  • リアルタイム性が最優先なシステム

Hadoopは万能ではありません。

「大量・分散」がキーワードです。

よくある誤解・混同

① Hadoop=HDFS ではない

HDFSは保存の仕組み。
Hadoopは保存+処理の全体基盤。

DS検定ではこの違いを混同させてきます。

② データレイクとの混同

データレイクは概念。
Hadoopは具体的な技術基盤。

「レイク」という言葉が出たら要注意です。

③ RDBとの混同

RDBは構造化データの管理が得意。
Hadoopは非構造データも含む大量データ処理が得意。

「ACID」「トランザクション」が出たらRDBです。

まとめ(試験直前用)

  • Hadoopは分散保存+分散処理の基盤
  • HDFSは保存、MapReduceは処理
  • ビッグデータ対応が目的
  • 安価なサーバを多数並べる設計
  • 「大量・分散」がキーワード

対応スキル項目(データエンジニアリング力シート)

  • データ基盤
  • 分散処理基盤
  • ★ 分散処理基盤の基本的な仕組みを理解している
  • ★ ビッグデータ処理の基本的な考え方を理解している

🔗 関連記事


🏠 DS検定トップに戻る