ds data-storage data-processing
DS検定トップ
> Hadoopとは?(ビッグデータ分散処理基盤)【DS検定リテラシー】
まず結論
Hadoopとは、大量データを「分散して保存し、分散して処理する」ための基盤です。
DS検定では「ビッグデータをどうやって扱うのか」を判断させる問題で問われます。
直感的な説明
1台のサーバで100TBのデータを処理しようとすると、
時間もかかるし、壊れたら終わりです。
Hadoopは発想が違います。
- データを複数台に分ける
- 処理も複数台で同時に行う
つまり、
みんなで分けて保存し、みんなで分けて計算する
これがHadoopの考え方です。
DS検定では
「なぜビッグデータを扱えるのか?」という文脈で出題されます。
定義・仕組み
Hadoopは、ビッグデータを扱うための分散処理フレームワークです。
主な構成は次の2つです。
① HDFS
データを分散して保存する仕組み
② MapReduce
データを分散して処理する仕組み
流れとしては、
- データをHDFSに保存
- 各サーバで同時に処理(Map)
- 結果をまとめる(Reduce)
という形になります。
重要なのは、
- 安価なサーバをたくさん並べる設計
- レプリケーションで耐障害性を確保
ここがDS検定で狙われやすいポイントです。
どんな場面で使う?
使う場面
- Webログの分析
- ECサイトの購買履歴分析
- IoTデータの蓄積
- SNSデータ分析
つまり「データがとにかく大量」な場合です。
使わない場面
- 少量データの高速検索
- トランザクション処理
- リアルタイム性が最優先なシステム
Hadoopは万能ではありません。
「大量・分散」がキーワードです。
よくある誤解・混同
① Hadoop=HDFS ではない
HDFSは保存の仕組み。
Hadoopは保存+処理の全体基盤。
DS検定ではこの違いを混同させてきます。
② データレイクとの混同
データレイクは概念。
Hadoopは具体的な技術基盤。
「レイク」という言葉が出たら要注意です。
③ RDBとの混同
RDBは構造化データの管理が得意。
Hadoopは非構造データも含む大量データ処理が得意。
「ACID」「トランザクション」が出たらRDBです。
まとめ(試験直前用)
- Hadoopは分散保存+分散処理の基盤
- HDFSは保存、MapReduceは処理
- ビッグデータ対応が目的
- 安価なサーバを多数並べる設計
- 「大量・分散」がキーワード
対応スキル項目(データエンジニアリング力シート)
- データ基盤
- 分散処理基盤
- ★ 分散処理基盤の基本的な仕組みを理解している
- ★ ビッグデータ処理の基本的な考え方を理解している
🔗 関連記事
- バッチ処理とストリーム処理の違いとは?【DS検定リテラシー】
- データレイクとは?(DWHとの違いも整理)【DS検定リテラシー】
- データトランスフォーメーションとは?(非構造化データの変換)【DS検定】
- データウェアハウス(DWH)とは?データマートとの違いを理解する【DS検定】
- データウェアハウス(DWH)とは?(データレイクとの違いも整理)【DS検定リテラシー】