Skip to the content.

DS NotebookLM Export

試験概要:スキルレベル定義

試験概要:スキルレベル定義

スキルレベル定義2023 総まとめ【Assistant Data Scientist(見習い)】

  • Source: pages\ds\skilllevel-2023-summary.md
  • Permalink: /ds/skilllevel-2023-summary/

スキルレベル定義2023 総まとめ

(Assistant Data Scientist:見習いレベル)

このページでは、

スキルレベル定義2023における
④ Assistant Data Scientist(見習い)レベル

の全体像を整理します。(スキルチェックリスト ver5.0)

DS検定(リテラシーレベル)は、
この④レベルを想定した内容にかなり近い水準です。


まず結論

④ Assistant Data Scientist(見習い)は、

「データを使って正しく仕事が進められる人」

を指します。

高度な研究開発者ではなく、

  • 正しく考え
  • 正しく扱い
  • 正しく説明できる

ことが求められます。


全体構造(3つの力)

④レベルは、大きく次の3つの力で構成されています。

  1. ビジネス力
  2. データサイエンス力
  3. データエンジニアリング力

この3つが揃ってはじめて
「データプロフェッショナルの入口」に立てます。


① ビジネス力

(詳細ページ:④ Assistant Data Scientist(見習い)に求められるビジネス力)


本質

目的 → データ → 結論
の流れで考えられること。


できる状態

  • 目的を明確にできる
  • 必要なデータを判断できる
  • データの信頼性を確認できる
  • 分析結果を言語化できる
  • モニタリングの重要性を理解している

DS検定との関係

  • KPIの妥当性
  • データの信頼性判断
  • 仮説検証の流れ
  • 説明責任

などが問われます。


② データサイエンス力

(詳細ページ:④ Assistant Data Scientist(見習い)に求められるデータサイエンス力)


本質

統計・機械学習の基礎を理解し、正しく使えること


できる状態

  • 平均・分散を説明できる
  • 推定と検定の違いがわかる
  • 教師あり/なしの違いを理解している
  • 過学習を説明できる
  • 基本的な分析を実行できる
  • 結果を解釈できる

DS検定との関係

  • 統計概念の意味理解
  • 評価指標の選択
  • 過学習の説明
  • 相関と因果の違い

などが中心です。


③ データエンジニアリング力

(詳細ページ:④ Assistant Data Scientist(見習い)に求められるデータエンジニアリング力)


本質

データを安全に扱い、必要な形に加工できること


できる状態

  • 構造化データを理解できる
  • SQLで基本操作ができる
  • データ結合・集計ができる
  • APIの役割を理解している
  • セキュリティ3要素(CIA)を理解している

DS検定との関係

  • SQL問題
  • データ形式の理解
  • セキュリティの基礎
  • API・クラウドの役割

が出題対象になります。


④レベルの特徴

④ Assistant Data Scientistは、

❌ 高度な研究者
❌ アーキテクト
❌ 戦略コンサル

ではありません。

むしろ、

✅ 正しい進め方ができる
✅ 基礎を理解している
✅ 判断を誤らない
✅ 安全に扱える

という「土台型人材」です。


モデルカリキュラムとの関係

モデルカリキュラムの4本柱:

  1. 社会理解
  2. データ理解
  3. 倫理理解
  4. 技術基礎

これらを横断的に身につけた状態が
④ Assistant Data Scientistレベルです。

つまり、

モデルカリキュラム修了 ≒ ④レベル到達の入り口

と考えると分かりやすいです。


試験直前まとめ

覚えるべき構造:

🔵 ビジネス力(進め方)
🟢 データサイエンス力(分析理解)
🟣 データエンジニアリング力(扱う力)

DS検定は、

この3つをバランスよく理解しているか

を測る試験です。

丸暗記ではなく、

「どう考える人材か」

が問われています。


④ Assistant Data Scientist(見習い)に求められるビジネス力

  • Source: pages\ds\skilllevel-2023-assistant-ds-business.md
  • Permalink: /ds/skilllevel-2023-assistant-ds-business/

④ Assistant Data Scientist(見習いレベル)に求められるビジネス力

(スキルレベル定義2023 まとめ)


まず結論

④ Assistant Data Scientist(見習いレベル)に求められるビジネス力とは、

データを使ってビジネス課題に向き合うための「基本姿勢」と「論理的な進め方」が身についている状態
です。

高度な戦略立案や難しいフレームワーク暗記ではなく、

  • 与えられた課題を正しく理解し
  • 目的を明確にし
  • 必要なデータを集め
  • 結果を言語化できる

ここがまず求められます。
DS検定(リテラシーレベル)は、この④レベルにかなり近い内容を問われます。


直感的な説明

イメージとしては、

「分析ができる人」ではなく、「データを使ってちゃんと仕事が進められる人」
です。

たとえば上司から「売上が落ちている原因を調べて」と言われたときに、

  • 目的を確認する(何を意思決定したいのか)
  • 必要なデータを考える(いつ・どこで・何が変わった?)
  • 取りまとめて説明する(結論→根拠→次の打ち手)

この流れを「基本形として」回せれば④レベルです。

逆に、

  • 目的確認なしで分析を始める
  • 使えるデータをとりあえず全部集める
  • 結果の意味が説明できない

は、④に届きにくい典型パターンです。


定義・仕組み(求められる具体内容)

④レベルのビジネス力は、大きく4つに整理できます。


① データプロフェッショナルとしての行動規範

  • ビジネスにおける論理とデータの重要性を理解している
  • 引き受けたことを逃げずにやり切る(コミットメント)
  • 迅速な報告ができる
  • 指摘をすみやかに理解し、反映できる

DS検定だと「倫理」「説明責任」「データの取り扱い」などがここに近いです。


② データドリブンな分析的アプローチの基本

仮説や既知の問題が与えられた状況で、必要なデータを入手し、分析し、取りまとめる力です。

具体例:

  • データや事象のダブリ・モレを判断できる
  • 分析前に目的・ゴールを設定できる
  • データの出自や引用元の信頼性を判断できる
  • 目的に即したデータ入手ができる
  • 分析結果の意味合いを正しく言語化できる
  • モニタリングの重要性を理解している

DS検定は「分析の順番」「KPIの妥当性」「データの信頼性」などでよく問われます。


③ 担当領域の基本的な課題の枠組みを理解できる

  • 担当する業界・領域の「主要な変数」を理解できる
  • 基本的なビジネスフレームワークを理解できる

ここは、用語暗記よりも
「このケースでは何が重要な変数?」を押さえる感覚が大事です。


④ 新しいデータ・AI時代の基礎素養(マインド・倫理・改善)

  • 新しい技術がもたらす変革の概観を理解し、関心を持つ
  • データ・AIがもたらす新しいリスクや課題を理解し、倫理的に対応する
  • 生成AIサービスを利用して業務改善できる(使いどころを理解している)

最近はここが重要になってきていて、DS検定でも関連トピックが増えています。


どんな場面で使う?

実務では、たとえば次のような場面で効きます。

  • 「何を明らかにしたいか」を先に決めてから分析に入る
  • データの取り方・定義が怪しいことに気づける(信頼性チェック)
  • 結果を“数字の羅列”で終わらせず、意味を言葉にできる
  • 分析結果を継続監視(モニタリング)につなげられる
  • 生成AIを「便利ツール」として適切に使える(倫理も含む)

よくある誤解・混同

❌ ビジネス力=経営戦略を立てられること
→ ④見習いではそこまで求められません。まずは「正しく進める」こと。

❌ 分析スキルがあれば十分
→ 目的設定と結果の言語化ができないと、仕事として成立しにくいです。

❌ データサイエンス力の話と同じ
→ ここは手法ではなく「進め方・判断・姿勢」が中心です。


まとめ(試験直前用)

④ Assistant Data Scientist(見習い)のビジネス力は、次の3点に集約できます。

  • 目的→データ→結論の流れで考えられる
  • データの信頼性妥当性を気にできる
  • 結果を言語化して次の行動につなげられる

DS検定では「正しい進め方・判断」を問う形で出やすいので、
“分析手法”より“プロセスと判断基準”を意識すると解きやすくなります。



④ Assistant Data Scientist(見習い)に求められるデータサイエンス力

  • Source: pages\ds\skilllevel-2023-assistant-ds-datascience.md
  • Permalink: /ds/skilllevel-2023-assistant-ds-datascience/

④ Assistant Data Scientist(見習いレベル)に求められるデータサイエンス力

(スキルレベル定義2023 まとめ)


まず結論

④ Assistant Data Scientist(見習いレベル)に求められるデータサイエンス力とは、

統計・機械学習の基礎を理解し、適切な指示のもとで基本的な分析を実行できる状態
です。

高度な理論構築ではなく、

  • 基礎概念を理解している
  • 基本的な分析を実行できる
  • 結果を正しく解釈できる

ここが求められます。

DS検定(リテラシーレベル)は、ほぼこの水準を想定しています。


直感的な説明

イメージとしては、

「高度な研究者」ではなく、「基礎を理解して正しく使える人」です。

たとえば、

  • 平均・分散の意味を説明できる
  • 推定と検定の違いがわかる
  • 教師あり学習と教師なし学習の違いがわかる
  • 単回帰分析を実行できる

このレベルが④です。

逆に、

  • 数式は覚えているが意味を説明できない
  • 手法名だけ知っていて使い分けできない

では不十分です。


定義・仕組み(求められる具体内容)

④レベルのデータサイエンス力は、大きく6つに整理できます。


① 数学・統計の基礎知識

  • 統計数理
  • 線形代数
  • 微分積分
  • 集合理論

ここでは「厳密な証明」よりも
意味が理解できていることが重要です。


② データ分析の基礎知識

  • 比較対象の適切な選択
  • データが生み出される背景の理解
  • 推定・検定
  • 標本抽出
  • 予測・グルーピング
  • 基本的な評価方法
  • 時系列分析(周期性・トレンド)
  • データ品質の重要性

DS検定では、

  • 「この比較は妥当か?」
  • 「母集団と標本の関係は?」
  • 「時系列データの特徴は?」

といった形で問われます。


③ 機械学習の基本概念

  • 教師あり学習と教師なし学習の違い
  • 過学習の理解
  • 深層学習のメリット理解

重要なのは、

アルゴリズムの内部構造よりも“概念の違い”を理解していることです。


④ 指示のもとでの基礎分析実行

  • 基本統計量の算出
  • 分布の確認
  • 前処理
  • クロス集計
  • 単回帰分析

「自力で研究開発する」ではなく、
与えられた課題を正しく実行できることがポイントです。


⑤ データ可視化の基礎理解

  • 軸出し
  • 不適切なグラフ表現の理解
  • グラフから意味を導く

DS検定では
「不適切な可視化はどれか」といった問題が出ます。


⑥ 生成モデルの基礎理解

  • 生成モデルと識別モデルの違い
  • 利用データに起因する問題の理解

最近は生成AI関連の基礎理解も求められます。


どんな場面で使う?

実務では、

  • 分析の前処理
  • 基本的なモデル構築
  • 仮説検証
  • データの妥当性チェック
  • モデル評価

といった場面で使います。

DS検定では、

  • 推定と検定の違い
  • 過学習とは何か
  • 適切な評価指標の選択
  • データ品質の問題

などが頻出です。


よくある誤解・混同

❌ 数式が解ければOK
→ 意味理解が重要です。

❌ 深層学習を知っていれば上級者
→ 基礎統計が理解できていないと④には届きません。

❌ 実装できれば十分
→ 結果の解釈ができないと不十分です。


まとめ(試験直前用)

④ Assistant Data Scientist(見習い)のデータサイエンス力は、

  • 統計・機械学習の基礎を理解している
  • 基本的な分析を実行できる
  • 結果を正しく解釈できる

DS検定では、

「概念理解」と「正しい使い分け」

が中心に問われます。

高度な証明ではなく、
意味の理解と判断力を意識するのが合格への近道です。



④ Assistant Data Scientist(見習い)に求められるデータエンジニアリング力

  • Source: pages\ds\skilllevel-2023-assistant-ds-dataengineering.md
  • Permalink: /ds/skilllevel-2023-assistant-ds-dataengineering/

④ Assistant Data Scientist(見習いレベル)に求められるデータエンジニアリング力

(スキルレベル定義2023 まとめ)


まず結論

④ Assistant Data Scientist(見習いレベル)に求められるデータエンジニアリング力とは、

データを安全に扱い、必要な形に加工し、正しく取り出せる基礎的なITスキルを持っている状態
です。

大規模システムの設計や高度な分散処理ではなく、

  • データ構造を理解できる
  • 基本的な加工・抽出ができる
  • セキュリティの基礎を理解している

ここが求められます。

DS検定リテラシーレベルでも、この土台の理解は重要です。


直感的な説明

イメージとしては、

「分析ができる人」ではなく、「分析できる状態を作れる人」です。

たとえば:

  • データベースから必要なデータを抽出できる
  • CSVを加工して集計できる
  • APIからデータを取得できる
  • データをクラウドに保存できる

このレベルが④です。

逆に、

  • データの構造が理解できない
  • どこからデータを取ればいいかわからない
  • セキュリティ意識がない

では④には届きません。


定義・仕組み(求められる具体内容)

④レベルのデータエンジニアリング力は、大きく5つに整理できます。


① データ・データベースの基礎理解

  • 構造化データ/非構造化データの判別
  • 論理モデルの理解
  • ER図・テーブル定義書の理解
  • SDK・APIの概要理解
  • クラウドストレージへの保存

DS検定では、

  • 「構造化データとは何か」
  • 「ER図の意味」
  • 「APIの役割」

といった形で問われます。


② 数十万件規模のデータ加工技術

  • ソート
  • 結合(JOIN)
  • 集計(GROUP BY)
  • フィルタリング

さらに、

  • 設計書に基づいたプログラム実装

ここでは「超大規模分散処理」ではなく、
一般的な業務データを扱えるレベルが想定されています。


③ 指示のもとでのDB操作

  • 条件を満たすデータ抽出
  • インポート
  • レコード挿入
  • エクスポート
  • モデルやシステムのテスト実施

DS検定ではSQL問題やデータ抽出の理解がこれに該当します。


④ セキュリティの基礎知識

  • 機密性(Confidentiality)
  • 可用性(Availability)
  • 完全性(Integrity)

いわゆる CIAの3要素 の理解です。

さらに、

  • 暗号化
  • 認証
  • 認可
  • マルウェアや改ざんの脅威理解

近年の試験では、ここは重要分野です。


⑤ AI活用のためのITスキル

  • 学習済みモデルのAPI活用
  • プロンプトエンジニアリング
  • クラウド上の統合開発環境での分析実行

最近は「生成AIをどう使うか」も含まれます。


どんな場面で使う?

実務では、

  • データ抽出
  • データ前処理
  • データ保存
  • API連携
  • セキュリティ対応

といった場面で使います。

DS検定では、

  • データ形式の違い
  • SQLの理解
  • セキュリティ3要素
  • APIの役割
  • クラウド活用

などが問われます。


よくある誤解・混同

❌ データエンジニア=インフラ専門家
→ ④レベルは基礎理解と基本操作が中心です。

❌ Pythonが書ければ十分
→ データ構造・DB理解がなければ不十分です。

❌ セキュリティは別分野
→ データ活用とセットで必須知識です。


まとめ(試験直前用)

④ Assistant Data Scientist(見習い)のデータエンジニアリング力は、

  • データ構造を理解できる
  • 基本的な加工・抽出ができる
  • セキュリティの基礎を理解している
  • APIやクラウドを使える

DS検定では、

「データの扱い方」+「安全性の理解」

が中心に問われます。

高度な分散処理ではなく、
基礎を正しく理解しているかどうかが判断ポイントです。



試験概要:モデルカリキュラム

試験概要:モデルカリキュラム

数理・データサイエンス・AIリテラシーモデルカリキュラム総まとめ【DS検定対応】

  • Source: pages\ds\model-curriculum-summary.md
  • Permalink: /ds/model-curriculum-summary/

数理・データサイエンス・AIリテラシーモデルカリキュラム総まとめ

このページでは、

数理・データサイエンス・AI リテラシーレベル モデルカリキュラムの全体像

を整理します。

DS検定は、このモデルカリキュラムに沿って出題範囲が構成されています。


まず結論

モデルカリキュラムは、次の4つの柱で構成されています。

  1. 社会におけるデータ・AI利活用
  2. データリテラシー
  3. データ・AI利活用における留意事項
  4. 数理・アルゴリズム・データ活用基礎(オプション)

つまり、

社会理解 × データ理解 × 倫理理解 × 技術基礎

のバランス型構成です。


直感的な全体像

イメージとしては、こうなります:

  • ① 社会でどう使われているかを知る
  • ② データを正しく読む力を身につける
  • ③ 倫理・セキュリティを理解する
  • ④ 技術の土台を理解する

単なるAIの知識ではなく、

「社会で安全に使いこなせる人材」を育てる構成

になっています。


4分野の整理


① 社会におけるデータ・AI利活用

  • データ駆動型社会
  • Society 5.0
  • AIができること/できないこと
  • 活用領域(製造・金融・医療など)
  • 最新動向(生成AI・強化学習など)

👉 社会全体の構造を理解する分野


② データリテラシー

  • データの種類(構造化/非構造化)
  • 1次データ/2次データ
  • 可視化
  • 基本統計量
  • 仮説検証
  • 相関と因果

👉 データを正しく読む力を身につける分野


③ データ・AI利活用における留意事項

  • ELSI(倫理・法・社会課題)
  • GDPR
  • 個人情報保護
  • AIバイアス
  • 説明責任
  • 情報セキュリティ(機密性・完全性・可用性)

👉 安全に使うための知識


④ 数理・アルゴリズム・データ活用基礎(オプション)

  • 確率・線形代数
  • アルゴリズム基礎
  • データ構造
  • 時系列解析
  • テキスト解析
  • 画像解析
  • SQL・Python
  • 教師あり/教師なし学習

👉 技術の土台


DS検定との関係

DS検定では、

  • 数式を解かせる問題より
  • 意味を理解しているかを問う問題

が中心です。

問われるのは:

  • 用語の正しい理解
  • 活用場面の理解
  • 誤解の見抜き
  • 社会文脈での判断

つまり、

丸暗記ではなく構造理解が重要

です。


よくある誤解

❌ AI=プログラミング試験
→ 社会理解も重要

❌ 数学が苦手だと無理
→ リテラシーレベルは概念理解中心

❌ 技術だけ覚えれば良い
→ 倫理・法規が必ず出る

❌ データ分析=統計計算
→ 実際は課題設定と解釈が重要


モデルカリキュラムの本質

このカリキュラムが目指しているのは、

AIを作る人材ではなく、AIを理解し使いこなせる人材

です。

だからこそ:

  • 社会構造
  • データ理解
  • 倫理
  • 技術基礎

がバランスよく配置されています。


試験直前まとめ

覚えるべき構造はこれだけ:

① 社会理解
② データ理解
③ 倫理理解
④ 技術基礎

DS検定は、

この4本柱をどれだけ体系的に理解しているか

を測る試験です。


次に読むべきページ

  • 社会におけるデータ・AI利活用
  • データリテラシー
  • データ・AI利活用における留意事項
  • 数理・アルゴリズム・データ活用基礎

この順番で読むと、最も理解しやすくなります。


社会におけるデータ・AI利活用とは?【DS検定リテラシー】

  • Source: pages\ds\social-data-ai-utilization.md
  • Permalink: /ds/social-data-ai-utilization/

社会におけるデータ・AI利活用とは?

(数理・データサイエンス・AI リテラシーレベル モデルカリキュラム対応)


まず結論

「社会におけるデータ・AI利活用」とは、

データとAIが社会のあらゆる領域で活用され、価値創出の中心になっていることを理解することです。

DS検定では、

  • データ駆動型社会とは何か
  • AIは何ができて何ができないか
  • どんな領域で活用されているか

といった「全体像の理解」が問われます。


直感的な説明

今の社会は、

データを持っている人が強い社会です。

  • ネット検索
  • レコメンド
  • キャッシュレス決済
  • 医療AI
  • 自動運転

すべて「データ × AI」で動いています。

重要なのは、

  • データをどう集め
  • どう処理し
  • どう価値に変えるか

という視点です。


定義・仕組み(スキルセット完全整理)


学修目標

  • データ・AIによって、社会および日常生活が大きく変化していることを理解する
  • 「数理/データサイエンス/AI」が、今後の社会における「読み/書き/そろばん」であることを理解する
  • データ・AI活用領域の広がりを理解し、データ・AIを活用する価値を説明できる
  • 今のAIで出来ること、出来ないことを理解する
  • AIを活用した新しいビジネス/サービスは、複数の技術が組み合わさって実現していることを理解する
  • 帰納的推論と演繹的推論の違いと、それらの利点・欠点を理解する

1-1. 社会で起きている変化

  • ビッグデータ、IoT、AI、ロボット
  • データ量の増加
  • 計算機の処理性能の向上
  • AIの非連続的進化
  • 第4次産業革命
  • Society 5.0
  • データ駆動型社会
  • 複数技術を組み合わせたAIサービス
  • 人間の知的活動とAIの関係性
  • データを起点としたものの見方
  • 人間の知的活動を起点としたものの見方

社会で起きている変化を知り、数理・データサイエンス・AIを学ぶことの意義を理解する。
AIを活用した新しいビジネス/サービスを知る。


1-2. 社会で活用されているデータ

  • 調査データ
  • 実験データ
  • 人の行動ログデータ
  • 機械の稼働ログデータ
  • 1次データ
  • 2次データ
  • データのメタ化
  • 構造化データ
  • 非構造化データ(文章、画像/動画、音声/音楽など)
  • データ作成(ビッグデータとアノテーション)
  • データのオープン化(オープンデータ)

どんなデータが集められ、どのように活用されているかを理解する。


1-3. データ・AIの活用領域

  • 生産
  • 消費
  • 文化活動
  • 研究開発
  • 調達
  • 製造
  • 物流
  • 販売
  • マーケティング
  • サービス

活用目的:

  • 仮説検証
  • 知識発見
  • 原因究明
  • 計画策定
  • 判断支援
  • 活動代替
  • 新規生成

さまざまな領域でデータ・AIが活用されていることを理解する。


1-4. データ・AI利活用のための技術

データ解析

  • 予測
  • グルーピング
  • パターン発見
  • 最適化
  • シミュレーション
  • データ同化

データ可視化

  • 複合グラフ
  • 2軸グラフ
  • 多次元の可視化
  • 関係性の可視化
  • 地図上の可視化
  • 挙動・軌跡の可視化
  • リアルタイム可視化

非構造化データ処理

  • 言語処理
  • 画像/動画処理
  • 音声/音楽処理

その他

  • 特化型AIと汎用AI
  • 今のAIで出来ることと出来ないこと
  • AIとビッグデータ
  • 認識技術
  • ルールベース
  • 自動化技術

データ・AIを活用するために使われている技術の概要を理解する。


1-5. データ・AI利活用の現場

データサイエンスのサイクル

  • 課題抽出と定式化
  • データの取得
  • 管理
  • 加工
  • 探索的データ解析
  • データ解析と推論
  • 結果の共有・伝達
  • 課題解決に向けた提案

活用分野

  • 流通
  • 製造
  • 金融
  • サービス
  • インフラ
  • 公共
  • ヘルスケア

データ・AIを活用することで、どのような価値が生まれているかを理解する。


1-6. データ・AI利活用の最新動向

AIを活用した新しいビジネスモデル

  • シェアリングエコノミー
  • 商品のレコメンデーション

AI最新技術の活用例

  • 深層生成モデル
  • 敵対的生成ネットワーク(GAN)
  • 強化学習
  • 転移学習

データ・AI利活用における最新動向(ビジネスモデル・テクノロジー)を理解する。


どんな場面で問われる?

DS検定では:

  • データ駆動型社会とは?
  • AIが得意なことは?
  • 非構造化データとは?
  • 特化型AIと汎用AIの違いは?
  • 帰納法と演繹法の違いは?

という形で出題されます。


よくある誤解

❌ AI=万能
→ できないこともある(汎用AIは未完成)

❌ ビッグデータ=量が多いだけ
→ 活用できてこそ意味がある

❌ AI単体でビジネスが成立する
→ 実際は複数技術の融合

❌ 帰納法=絶対に正しい
→ 確率的推論である


まとめ(試験直前用)

社会におけるデータ・AI利活用の理解ポイント:

  • 社会はデータ駆動型へ移行している
  • AIは複数技術の融合で成り立つ
  • AIには限界がある
  • 技術を社会文脈で理解する

DS検定では、

「全体構造を理解しているか」

が問われます。


データリテラシーとは?データを読み解く力【DS検定】

  • Source: pages\ds\data-literacy.md
  • Permalink: /ds/data-literacy/

まず結論

データリテラシー(Data Literacy)とは、データを理解し、正しく読み取り、意思決定に活用する能力のことです。

DS検定では データ社会で必要な基本的な能力として重要な概念です。

ポイントは

データを「見る」だけでなく「正しく解釈して判断する」こと

です。


直感的な説明

例えば売上データを見たときに

売上が増えている理由は何か

季節要因なのか

新しい施策の効果なのか

を考える力が必要です。

ただ数字を見るだけではなく

データの意味

背景

偏り

を理解して判断する能力が データリテラシー です。


定義・仕組み

データリテラシーには次のような能力が含まれます。

データ理解

グラフ

統計

指標

などを読み取る能力。


データ分析

データを使って

傾向

パターン

を見つける能力。


批判的思考

データをそのまま信じるのではなく

バイアス

誤解

がないかを考える能力。


意思決定

データを使って

経営判断

業務改善

を行う能力。


どんな場面で使う?

ビジネス

企業では

売上データ

顧客データ

をもとに意思決定が行われます。


データ分析

データサイエンスでは

統計

機械学習

を理解するための基礎能力です。


社会

データ社会では

フェイク情報

誤解を招くグラフ

を見抜く力も重要です。


よくある誤解・混同

ITスキルとの違い

概念 内容

ITスキル ツールを使う能力 データリテラシー データを理解し判断する能力

つまり

ツールが使えるだけでは

データリテラシーとは言えません。


データサイエンスとの違い

概念 内容

データリテラシー データを理解する基礎能力 データサイエンス 高度な分析手法


まとめ(試験直前用)

データリテラシーは データを理解し判断する能力

データ理解

データ分析

批判的思考

意思決定

などの能力を含む。

DS検定では

「データを理解し、意思決定に活用する能力」

と書かれていたら

データリテラシーと判断するのがポイントです。


【対応スキル項目(ビジネス力シート)】

ビジネス理解

データ活用

★ データに基づく意思決定を理解している


データ・AI利活用における留意事項とは?【DS検定リテラシー】

  • Source: pages\ds\data-ai-precautions.md
  • Permalink: /ds/data-ai-precautions/

データ・AI利活用における留意事項とは?

(数理・データサイエンス・AI リテラシーレベル モデルカリキュラム対応)


まず結論

データ・AI利活用における留意事項とは、

データやAIを使うときに守るべき倫理・法律・セキュリティの理解です。

DS検定では、

  • 個人情報保護
  • AI倫理
  • データバイアス
  • セキュリティ

が重要テーマです。


直感的な説明

データやAIは便利ですが、

使い方を間違えると社会的リスクになる

ということを理解する分野です。

  • 個人情報の流出
  • 差別的AI
  • 説明できないAI
  • データ改ざん

これらを防ぐ視点が問われます。


定義・仕組み(スキルセット完全整理)


学修目標

  • 個人情報保護法やEU一般データ保護規則(GDPR)など、データを取り巻く国際的な動きを理解する
  • データ・AIを利活用する際に求められるモラルや倫理について理解する
  • データ駆動型社会における脅威(リスク)について理解する
  • 個人のデータを守るために留意すべき事項を理解する

3-1. データ・AIを扱う上での留意事項


ELSI

  • Ethical, Legal and Social Issues

倫理・法的・社会的課題を指します。


個人情報保護・GDPR

  • 個人情報保護法
  • EU一般データ保護規則(GDPR)
  • 忘れられる権利
  • オプトアウト

データ管理

  • データのねつ造
  • 改ざん
  • 盗用
  • プライバシー保護

AI社会原則

  • 公平性
  • 説明責任
  • 透明性
  • 人間中心の判断

バイアス問題

  • データバイアス
  • アルゴリズムバイアス

AIサービスの責任論

  • AIの判断責任は誰が負うのか

負の事例

  • データ・AI利活用における失敗事例

3-2. データを守る上での留意事項


情報セキュリティの三要素

  • 機密性(Confidentiality)
  • 完全性(Integrity)
  • 可用性(Availability)

セキュリティ対策

  • 匿名加工情報
  • 暗号化
  • パスワード管理
  • 悪意ある情報搾取

情報漏洩事例

  • セキュリティ事故の実例理解

どんな場面で問われる?

DS検定では:

  • 相関と因果よりも「倫理問題」が出ることがある
  • 情報セキュリティ三要素は頻出
  • GDPRの内容
  • AIの説明責任
  • バイアスの問題

よくある誤解

❌ データを匿名化すれば安全
→ 再識別リスクがある

❌ AIは中立
→ データ次第で偏る

❌ セキュリティはIT部門の仕事
→ 利用者全員の責任

❌ 法律は海外の話
→ GDPRは日本企業にも影響


まとめ(試験直前用)

データ・AI利活用の留意事項のポイントは:

  • 倫理・法律(ELSI)
  • 個人情報保護・GDPR
  • AIバイアス
  • 情報セキュリティ三要素

DS検定では、

「安全に使えるか?」

という視点が問われます。


数理・アルゴリズム・データ活用基礎(オプション)【DS検定対応】

  • Source: pages\ds\optional-math-algorithm.md
  • Permalink: /ds/optional-math-algorithm/

4. 数理・アルゴリズム・データ活用基礎(オプション)

(数理・データサイエンス・AI リテラシーレベル モデルカリキュラム対応)


まず結論

この章は、

データ・AI利活用を支える「土台の技術」を理解する分野です。

DS検定の出題範囲からは外れていますが、

  • 数学の基礎
  • アルゴリズムの考え方
  • データ処理の流れ

を理解していることが重要です。


直感的な説明

ここは、

AIを“使う側”から“理解できる側”へ一段上がる分野です。

  • なぜ機械学習が動くのか
  • なぜ時系列は難しいのか
  • なぜデータ前処理が重要なのか

を支える基礎部分です。


定義・仕組み(スキルセット完全整理)


学修目標

  • データ・AI利活用に必要な道具としての数学および統計を学ぶ
  • アルゴリズム基礎、データ構造とプログラミング基礎を学ぶ
  • 時系列データがもつトレンド、周期性、ノイズについて理解する
  • 文章(テキスト)や画像がデータとして処理できることを理解する
  • SQLやPython等を使って大規模データを集計・加工できる
  • データ利活用のための簡単な前処理(結合、クレンジング、名寄せ)を理解する
  • 教師あり学習と教師なし学習の違いを理解する
  • データ・AI活用のプロセス全体を理解する
  • 課題設定や分析手法選択に唯一の正解はないことを理解する

4-1. 統計および数理基礎

  • 確率、順列、組み合わせ
  • 線形代数(ベクトル、行列、内積、ノルム)
  • 1変数関数の微分・積分
  • 指数関数、対数関数
  • 集合、ベン図

数学基礎および統計基礎を学ぶ。


4-2. アルゴリズム基礎

  • アルゴリズムの表現(フローチャート、アクティビティ図)
  • 並び替え(ソート)
  • 探索(サーチ)

アルゴリズム基礎を学ぶ。


4-3. データ構造とプログラミング基礎

  • 数と表現、計算誤差
  • データ量の単位
  • 文字コード
  • 配列
  • 変数、代入、繰り返し、条件分岐

データ構造とプログラミング基礎を学ぶ。


4-4. 時系列データ解析

  • トレンド
  • 周期
  • ノイズ
  • 季節調整
  • 移動平均

時系列データ解析の概要を理解する。


4-5. テキスト解析

  • 形態素解析
  • 単語分割
  • ユーザー定義辞書
  • n-gram
  • 文章間類似度
  • かな漢字変換の概要

自然言語処理の概要を理解する。


4-6. 画像解析

  • 画像データの処理
  • 画像認識
  • 画像分類
  • 物体検出

画像解析の概要を理解する。


4-7. データハンドリング

  • リレーショナルデータベース
  • SQL
  • Python、R
  • 外れ値・異常値・欠損値処理
  • データ抽出
  • データ結合
  • 名寄せ

大規模データをハンドリングする力を養う。


4-8. データ活用実践(教師あり学習)

  • 売上予測
  • 離反予測
  • データ収集
  • データ加工
  • 単回帰分析
  • 重回帰分析
  • ロジスティック回帰
  • モデル評価
  • 結果共有・提案

教師あり学習による予測プロセスを理解する。


4-9. データ活用実践(教師なし学習)

  • 顧客セグメンテーション
  • 店舗クラスタリング
  • データ収集
  • データ加工
  • 階層クラスタリング
  • 非階層クラスタリング
  • 結果共有・提案

教師なし学習によるグルーピングを理解する。


どんな場面で問われる?

DS検定では、

  • 確率の基礎問題
  • 時系列の特徴
  • 教師あり/なしの違い
  • SQLの役割
  • クラスタリングの目的

などが出題されます。


よくある誤解

❌ 数学ができないとAIは理解できない
→ 概念理解が重要

❌ アルゴリズムはプログラマだけの知識
→ 思考手順の理解が重要

❌ 前処理は地味で重要でない
→ 実務では最重要

❌ クラスタリングは分類と同じ
→ 教師なし学習である点が違う


まとめ(試験直前用)

この章のポイント:

  • 数学は道具
  • アルゴリズムは手順
  • データ処理は実務の中心
  • 教師あり/なしを区別する

DS検定では、

「技術の基礎を理解しているか」

が問われます。


ビジネス力

ビジネス力

データサイエンス力

データサイエンス力

データエンジニアリング力

データエンジニアリング力

AI利活用スキル

AI利活用スキル

[MISSING] /ds/visualization-purpose/

[MISSING] /ds/bar-line-scatter/

[MISSING] /ds/when-to-use-which-graph/

[MISSING] /ds/misleading-visualization/

モデルカリキュラム

モデルカリキュラム

画像データにおけるメタデータとは?意味と活用を整理【DS検定リテラシー】

  • Source: pages\ds\image-metadata.md
  • Permalink: /ds/image-metadata/

まず結論

画像データにおけるメタデータとは、画像そのもの(ピクセル情報)以外の付随情報のことです。

DS検定では、「画像そのもの」と「画像に関する情報」を区別できるかが問われます。
何が“データ本体”で、何が“メタ情報”なのかを判断できることが重要です。


直感的な説明

写真をスマートフォンで撮ると、画像には次のような情報が一緒に保存されています。

  • 撮影日時
  • 撮影場所(GPS)
  • カメラ機種
  • 画像サイズ(縦横のピクセル数)

私たちが“見る”のは写真そのものですが、
その写真には「いつ・どこで・どんな設定で撮ったか」という情報もついています。

これがメタデータです。

ビジネス現場では、
「いつ撮影された画像か」「どの機器で撮影されたか」などが
分析や品質管理に重要になります。


定義・仕組み

メタデータとは、データに関するデータのことです。

画像データの場合、主に次の2種類があります。

① 技術的メタデータ

  • 解像度(例:1920×1080)
  • ファイル形式(JPEG、PNGなど)
  • カラーモード(RGBなど)
  • 圧縮方式

② 内容に関するメタデータ

  • 撮影日時
  • 撮影場所
  • タグ情報(「猫」「風景」など)
  • 撮影者情報

重要なのは、

ピクセル値そのものは画像データ本体
それ以外の情報がメタデータ

という切り分けです。

DS検定では、この区別を問われることが多いです。


どんな場面で使う?

✅ 使う場面

  • 画像の検索(「◯月に撮影された画像だけ抽出」など)
  • データ品質管理(特定のカメラだけ異常が出ていないか)
  • 学習データの整理(ラベル情報)
  • 不正検知(撮影日時の改ざん確認)

❌ 注意が必要な場面

  • メタデータを消さずに公開してしまう(個人情報漏えい)
  • 学習時に不要なメタ情報が混入している

特にAIモデル学習では、
「意図しないメタ情報」がモデルの判断材料になることがあります。


よくある誤解・混同

① メタデータ=ラベルだと思ってしまう

ラベル(正解情報)はメタデータの一種ですが、
すべてのメタデータがラベルではありません。

DS検定では
「メタデータ=教師データ」と誤解させる選択肢が出ることがあります。


② 解像度は画像そのものだと思ってしまう

解像度は画像の性質ですが、
ピクセル値そのものではありません。

選択肢で

  • 「解像度は画像データそのもの」 と書かれていたら注意です。

③ メタデータは分析に使わないと思ってしまう

実務ではむしろ重要です。

例えば、

  • 画像の不具合が特定の撮影日時に集中していないか
  • 特定機種だけ誤検知していないか

などは、メタデータがないと分析できません。


まとめ(試験直前用)

  • メタデータ=画像に関する付随情報
  • ピクセル値は本体、日時・場所・解像度などはメタ情報
  • DS検定では「本体かメタか」の切り分けが重要
  • ラベルはメタデータの一種だが同義ではない

「何がデータそのものか?」
これを基準に選択肢を切りましょう。


対応スキル項目(AI利活用スキルシート)

  • AIの基礎理解
  • データ理解
  • ★ データの種類や特徴を理解し、適切に扱うことができる
  • ★ AIを活用するために必要なデータの性質を理解している

試験対策

試験対策

DS検定 リテラシー|ビジネス力

  • Source: pages\ds\business-skillcheck.md
  • Permalink: /ds/business-skillcheck/

このページについて

このページは、
DS検定(リテラシーレベル)で求められている「ビジネス力」に関するスキル項目
一覧で確認するためのページです。

分析手法や数値計算そのものではなく、
データを使って意思決定する力・考え方が求められます。


行動規範|ビジネスマインド

スキルレベル チェック項目
ビジネスにおける「論理とデータの重要性」を認識し、分析的でデータドリブンな考え方に基づき行動できる
「目的やゴールの設定がないままデータを分析しても、意味合いが出ない」ことを理解している
課題や仮説を言語化することの重要性を理解している
現場に出向いてヒアリングするなど、一次情報に接することの重要性を理解している
様々なサービスが登場する中で直感的にわくわくし、その裏にある技術に興味を持ち、リサーチできる

行動規範|データ・AI倫理

スキルレベル チェック項目
データを取り扱う人間として相応しい倫理を身に着けている(データのねつ造、改ざん、盗用を行わないなど)
データ、AI、機械学習の意図的な悪用(真偽の識別が困難なレベルの画像・音声作成、フェイク情報の作成、Botによる企業・国家への攻撃など)があり得ることを勘案し、技術に関する基礎的な知識と倫理を身につけている

行動規範|コンプライアンス

スキルレベル チェック項目
データ分析者・利活用者として、データの倫理的な活用上の許容される範囲や、ユーザサイドへの必要な許諾について概ね理解している(直近の個人情報に関する法令:個人情報保護法、EU一般データ保護規則、データポータビリティなど)

論理的思考|MECE

スキルレベル チェック項目
データや事象の重複に気づくことができる

論理的思考|構造化能力

スキルレベル チェック項目
与えられた分析課題に対し、初動として様々な情報を収集し、大まかな構造を把握することの重要性を理解している

論理的思考|言語化能力

スキルレベル チェック項目
対象となる事象が通常見受けられる場合において、分析結果の意味合いを正しく言語化できる

論理的思考|ストーリーライン

スキルレベル チェック項目
一般的な論文構成について理解している (序論⇒アプローチ⇒検討結果⇒考察や、序論⇒本論⇒結論 など)

論理的思考|ドキュメンテーション

スキルレベル チェック項目
データの出自や情報の引用元に対する信頼性を適切に判断し、レポートに記載できる
1つの図表〜数枚程度のドキュメントを論理立ててまとめることができる(課題背景、アプローチ、検討結果、意味合い、ネクストステップ)

論理的思考|説明能力

スキルレベル チェック項目
報告に対する論拠不足や論理破綻を指摘された際に、相手の主張をすみやかに理解できる

着想・デザイン|AI活用検討

スキルレベル チェック項目
既存の生成AIサービスやツールを活用し、自身の身の回りの業務・作業の効率化ができる

課題の定義|KPI

スキルレベル チェック項目
担当する分析プロジェクトにおいて、当該事業の収益モデルと主要な変数を理解している

課題の定義|スコーピング

スキルレベル チェック項目
担当する事業領域について、市場規模、主要なプレーヤー、支配的なビジネスモデル、課題と機会について説明できる
主に担当する事業領域であれば、取り扱う課題領域に対して基本的な課題の枠組みが理解できる(調達活動の5フォースでの整理、CRM課題のRFMでの整理など)
既知の事業領域の分析プロジェクトにおいて、分析のスコープが理解できる

アプローチ設計|データ入手

スキルレベル チェック項目
仮説や既知の問題が与えられた中で、必要なデータにあたりをつけ、アクセスを確保できる

アプローチ設計|分析アプローチ設計

スキルレベル チェック項目
スコープ、検討範囲・内容が明確に設定されていれば、必要な分析プロセスが理解できる(データ、分析手法、可視化の方法など)

アプローチ設計|生成AI活用

スキルレベル チェック項目
大規模言語モデルにおいては、事実と異なる内容がさも正しいかのように生成されることがあること(Hallucination)、これらが根本的に避けることができないことを踏まえ、利用に際しては出力を鵜呑みにしない等の注意が必要であることを知っている
Hallucinationが起きていることに気づくための適切なアクションをとることができる(検索等によるリサーチ結果との比較や、他LLMの出力結果との比較、正確な追加情報を入力データに付与することによる出力結果の変化比較など)

データ理解|統計情報への正しい理解

スキルレベル チェック項目
単なるローデータとしての実数だけを見ても判断出来ない事象が大多数であり、母集団に占める割合などの比率的な指標でなければ数字の比較に意味がないことがわかっている
ニュース記事などで統計情報に接したときに、数字やグラフの不適切な解釈に気づくことができる

データ理解|ビジネス観点での理解

スキルレベル チェック項目
ビジネス観点で仮説を持ってデータをみることの重要性と、仮に仮説と異なる結果となった場合にも、それが重大な知見である可能性を理解している

データ理解|意味合いの抽出、洞察

スキルレベル チェック項目
分析結果を元に、起きている事象の背景や意味合い(真実)を見抜くことができる

事業への実装|評価・改善の仕組み

スキルレベル チェック項目
結果、改善の度合いをモニタリングする重要性を理解している

契約・権利保護|契約

スキルレベル チェック項目
二者間で交わされる一般的な契約の概念を理解している(請負契約と準委任契約の役務や成果物の違いなど)

契約・権利保護|権利保護

スキルレベル チェック項目
AI・データを活用する際に、組織で規定された権利保護のガイドラインを説明できる

PJマネジメント|プロジェクト発足

スキルレベル チェック項目
プロジェクトにおけるステークホルダーや役割分担、プロジェクト管理・進行に関するツール・方法論が理解できる

PJマネジメント|リソースマネジメント

スキルレベル チェック項目
指示に従ってスケジュールを守り、チームリーダーに頼まれた自分の仕事を完遂できる
担当するタスクの遅延や障害などを発見した場合、迅速かつ適切に報告ができる

使い方のおすすめ

  • 学習前:
    ビジネス観点で何が問われるかを確認
  • 学習中:
    記事がどのチェック項目に対応しているかを意識
  • 試験前:
    「説明できるか?」を基準に自己確認

※ 技術系スキルは
データサイエンス力シート を参照してください。


DS検定 リテラシー|データサイエンス力シート

  • Source: pages\ds\skillcheck.md
  • Permalink: /ds/skillcheck/

このページについて

このページは、
DS検定(リテラシーレベル)で求められているスキル・チェック項目
一覧で確認するためのページです。

ブログ内の各記事は、
ここに記載されたチェック項目を 1つずつ確実にカバーする ことを目的に作成しています。

  • 試験範囲の全体像を把握する
  • どこまで学習できているかを確認する
  • 記事と試験要件をひも付けて理解する

ための 基準ページ として使ってください。


数学的理解|線形代数基礎

スキルレベル チェック項目
ベクトルの内積に関する計算方法を理解し、線形式をベクトルの内積で表現できる
行列同士、および行列とベクトルの計算方法を正しく理解し、複数の線形式を行列の積で表現できる
逆行列の定義、および逆行列を求めることにより行列表記された連立方程式が解けることを理解している
固有ベクトルおよび固有値の意味を理解している

数学的理解|微分・積分基礎

スキルレベル チェック項目
微分により計算する導関数が傾きを求めるための式であることを理解している
微分により計算する導関数が傾きを求めるための式であることを理解している
積分と面積の関係を理解し、確率密度関数を定積分することで確率が得られることを説明できる

数学的理解|集合論基礎

スキルレベル チェック項目
和集合、積集合、差集合、対称差集合、補集合についてベン図を用いて説明できる
論理演算と集合演算の対応を理解している(ANDが積集合に対応するなど)

科学的解析の基礎|統計数理基礎

スキルレベル チェック項目
順列や組合せの式 nPr, nCr を理解し、適切に使い分けることができる
確率に関する基本的な概念の意味を説明できる(確率、条件付き確率、期待値、独立など)
平均、中央値、最頻値の算出方法の違いを説明できる
与えられたデータにおける分散、標準偏差、四分位、パーセンタイルを理解し、目的に応じて適切に使い分けることができる
母(集団)平均と標本平均、不偏分散と標本分散がそれぞれ異なることを説明できる
標準正規分布の平均と分散の値を知っている
相関関係と因果関係の違いを説明できる
名義尺度、順序尺度、間隔尺度、比例尺度の違いを説明できる
ピアソンの相関係数の分母と分子を説明できる
5つ以上の代表的な確率分布を説明できる
二項分布は試行回数が増えていくとどのような分布に近似されるかを知っている
変数が量的、質的どちらの場合でも関係の強さを算出できる
指数関数とlog関数の関係を理解し、片対数グラフ、両対数グラフ、対数化されていないグラフを適切に使いわけることができる
ベイズの定理を説明できる

科学的解析の基礎|洞察

スキルレベル チェック項目
分析、図表から直接的な意味合いを抽出できる(バラツキ、有意性、分布傾向、特異性、関連性、変曲点、関連度の高低など)
想定に影響されず、数量的分析結果を客観的に解釈できる

科学的解析の基礎|性質・関係性

スキルレベル チェック項目
適切なデータ区間設定でヒストグラムを作成し、データのバラつき方を把握できる
適切な軸設定でクロス集計表を作成し、属性間のデータの偏りを把握できる
量的変数の散布図を描き、2変数の関係性を把握できる

科学的解析の基礎|推定・検定

スキルレベル チェック項目
点推定と区間推定の違いを説明できる
統計的仮説検定において帰無仮説と対立仮説の違いを説明できる
第1種の過誤、第2種の過誤、p値、有意水準の意味を説明できる
片側検定と両側検定の違いを説明できる
検定する対象となるデータの対応の有無を考慮した上で適切な検定手法(t検定, z検定など)を選択し、適用できる

科学的解析の基礎|アソシエーション分析

スキルレベル チェック項目
条件Xと事象Yの関係性を信頼度、支持度、リフト値を用いて評価できる

科学的解析の基礎|因果推論

スキルレベル チェック項目
ある特定の処置に対して、その他の変数や外部の影響を除いた効果を測定するためには、処置群(実験群)と対照群に分けて比較・分析する必要があることを知っている
ある変数が他の変数に与える影響(因果効果)を推定したい場合、その双方に影響を与える共変量(交絡因子)の考慮が重要であると理解している(喫煙の有無と疾病発症の双方に年齢が影響している場合など)
分析の対象を定める段階で選択バイアスが生じる可能性があることを理解している(途中離脱者の除外時、欠損データの除外時など)

データの理解・検証|データ確認

スキルレベル チェック項目
単独のグラフに対して、集計ミスや記載ミスなどがないかチェックできる
データ項目やデータの量・質について、指示のもと正しく検証し、結果を説明できる

データの理解・検証|俯瞰・メタ思考

スキルレベル チェック項目
データが生み出される経緯・背景を考え、データを鵜呑みにはしないことの重要性を理解している

データの理解・検証|データ理解

スキルレベル チェック項目
どのような知見を得たいのか、目的に即して集計し、データから事実を把握できる
データから事実を正しく浮き彫りにするために、集計の切り口や比較対象の設定が重要であることを理解している
普段業務で扱っているデータの発生トリガー・タイミング・頻度などを説明でき、また基本統計量や分布の形状を把握している
時系列データとは何か、その基礎的な扱いについて説明できる(時系列グラフによる周期性やトレンドの確認、移動平均、回帰や相関計算における注意点など)

データ準備|サンプリング

スキルレベル チェック項目
標本誤差およびサンプリングバイアス、およびそれぞれの違いについて説明できる
実験計画法の基本的な3原則(局所管理化、反復、無作為化)について説明できる

データ準備|データクレンジング

スキルレベル チェック項目
外れ値・異常値・欠損値とは何かを理解し、指示のもと適切に検出と除去・変換などの対応ができる

データ準備|データ加工

スキルレベル チェック項目
標準化とは何かを理解し、適切に標準化が行える
名義尺度の変数をダミー変数に変換できる

データ準備|特徴量エンジニアリング

スキルレベル チェック項目
数値データの特徴量化(二値化/離散化、対数変換、スケーリング/正規化、交互作用特徴量の作成など)を行うことができる

データ可視化|方向性定義

スキルレベル チェック項目
データの性質を理解するために、データを可視化し眺めて考えることの重要性を理解している
可視化における目的の広がりについて概略を説明できる(単に現場の作業支援する場合から、ビッグデータ中の要素間の関連性をダイナミックに表示する場合など)

データ可視化|軸出し

スキルレベル チェック項目
散布図などの軸出しにおいて、目的やデータに応じて縦軸・横軸の候補を適切に洗い出せる
積み上げ縦棒グラフでの属性の選択など、目的やデータに応じて適切な層化(比較軸)の候補を出せる

データ可視化|データ加工

スキルレベル チェック項目
サンプリングやアンサンブル平均によって適量にデータ量を減らすことができる
読み取りたい特徴を効果的に可視化するために、統計量を使ってデータを加工できる

データ可視化|表現・実装技法

スキルレベル チェック項目
データ解析部門以外の方に、データの意味を可視化して伝える重要性を理解している
情報提示の相手や場に応じて適切な情報濃度を判断できる(データインク比の考え方など)
不必要な誇張をしないための軸表現の基礎を理解できている(コラムチャートのY軸の基準点は「0」からを原則とし軸を切らないなど)
強調表現がもたらす効果と、明らかに不適切な強調表現を理解している(計量データに対しては位置やサイズ表現が色表現よりも効果的など)
1~3次元の比較において目的(比較、構成、分布、変化など)に応じ、BIツール、スプレッドシートなどを用いて図表化できる
端的に図表の変化をアニメーションで可視化できる(人口動態のヒストグラムが経年変化する様子を表現するなど)
1~3次元の図表を拡張した多変量の比較を適切に可視化できる(平行座標、散布図行列、テーブルレンズ、ヒートマップなど)

データ可視化|意味抽出

スキルレベル チェック項目
外れ値を見出すための適切な表現手法を選択できる
データの可視化における基本的な視点を挙げることができる(特異点、相違性、傾向性、関連性を見出すなど)

モデル化|回帰・分類

スキルレベル チェック項目
単回帰分析において最小二乗法、回帰係数、標準誤差、決定係数を理解し、モデルを構築できる
重回帰分析において偏回帰係数と標準偏回帰係数、重相関係数、自由度調整済み決定係数について説明できる
線形回帰分析とロジスティック回帰分析のそれぞれが予測する対象の違いを理解し、適切に使い分けられる

モデル化|統計的評価

スキルレベル チェック項目
ROC曲線、AUC(Area under the curve)を用いてモデルの精度を評価できる
混同行列(正誤分布のクロス表)、Accuracy、Precision、Recall、F値、特異度を理解し、精度を評価できる
RMSE(Root Mean Square Error)、MAE(Mean Absolute Error)、MAPE(Mean Absolute Percentage Error)、決定係数といった評価尺度を理解し、精度を評価できる

モデル化|機械学習

スキルレベル チェック項目
機械学習のモデルを使用したことがあり、どのような問題を解決できるか理解している(回帰・分類、クラスター分析の用途など)
「教師あり学習」「教師なし学習」の違いを理解している
過学習とは何か、それがもたらす問題について説明できる
次元の呪いとは何か、その問題について説明できる
教師あり学習におけるアノテーションの必要性を説明できる
観測されたデータにバイアスが含まれる場合や、学習した予測モデルが少数派のデータをノイズと認識してしまった場合などに、モデルの出力が差別的な振る舞いをしてしまうリスクを理解している
機械学習における大域的(global)な説明(モデル単位の各変数の寄与度など)と局所的(local)な説明(予測するレコード単位の各変数の寄与度など)の違いを理解している
ホールドアウト法、交差検証(クロスバリデーション)法の仕組みを理解し、訓練データ、パラメータチューニング用の検証データ、テストデータを作成できる
時系列データの場合は、時間軸で訓練データとテストデータに分割する理由を理解している
機械学習モデルは、データ構成の変化(データドリフト)により学習完了後から精度が劣化していくため、運用時は精度をモニタリングする必要があることを理解している
過学習とは何か、それがもたらす問題について説ニューラルネットワークの基本的な考え方を理解し、入力層、隠れ層、出力層の概要と、活性化関数の重要性を理解している明できる
決定木をベースとしたアンサンブル学習(Random Forest、勾配ブースティング[Gradient Boosting Decision Tree:GBDT]、 その派生形であるXGBoost、LightGBMなど)による分析を、ライブラリを使って実行でき、変数の寄与度を正しく解釈できる
連合学習では、データは共有せず、モデルのパラメータを共有して複数のモデルを統合していることを理解している
モデルの性能を改善するためには、モデルの改善よりもデータの質と量を向上させる方が効果的な場合があることを理解している

モデル化|深層学習

スキルレベル チェック項目
深層学習(ディープラーニング)モデルの活用による主なメリットを理解している(特徴量抽出が可能になるなど)
データサイエンスやAIの分野におけるモダリティの意味を説明できる(データがどのような形式や方法で得られるか、など)

モデル化|時系列分析

スキルレベル チェック項目
時系列分析を行う際にもつべき視点を理解している(長期トレンド、季節成分、周期性、ノイズ、定常性など)

モデル化|クラスタリング

スキルレベル チェック項目
教師なし学習のグループ化(クラスター分析)と教師あり学習の分類(判別)モデルの違いを説明できる
階層クラスター分析と非階層クラスター分析の違いを説明できる
階層クラスター分析において、デンドログラムの見方を理解し、適切に解釈できる

モデル化|ネットワーク分析

スキルレベル チェック項目
ネットワーク分析におけるグラフの基本概念(有向・無向グラフ、エッジ、ノード等)を理解している。

モデル利活用|レコメンド

スキルレベル チェック項目
レコメンドアルゴリズムにおけるコンテンツベースフィルタリングと協調フィルタリングの違いを説明できる

非構造化データ処理|自然言語処理

スキルレベル チェック項目
テキストデータに対する代表的なクリーニング処理(小文字化、数値置換、半角変換、記号除去、ステミングなど)を目的に応じて適切に実施できる
形態素解析や係り受け解析のライブラリを適切に使い、基本的な文書構造解析を行うことができる
自然言語処理を用いて解けるタスクを理解し、各タスクの入出力を説明できる(GLUEタスクや固有表現抽出、機械翻訳など)

非構造化データ処理|画像認識

スキルレベル チェック項目
画像のデジタル表現の仕組みと代表的な画像フォーマットを知っている
画像に対して、目的に応じた適切な色変換や簡単なフィルタ処理などを行うことができる
画像データに対する代表的なクリーニング処理(リサイズ、パディング、正規化など)を目的に応じて適切に実施できる
画像認識を用いて解けるタスクを理解し、入出力とともに説明できる(識別、物体検出、セグメンテーションなどの基本的タスクや、姿勢推定、自動運転などの応用的タスク)

非構造化データ処理|映像認識

スキルレベル チェック項目
動画のデジタル表現の仕組みと代表的な動画フォーマットを理解しており、動画から画像を抽出する既存方法を使うことができる

非構造化データ処理|音声認識

スキルレベル チェック項目
wavやmp3などの代表的な音声フォーマットの特徴や用途、基本的な変換処理について説明できる(サンプリングレート、符号化、量子化など)

生成|大規模言語モデル

スキルレベル チェック項目
大規模言語モデル(LLM)でHallucinationが起こる理由を学習に使われているデータの観点から説明できる(学習用データが誤りや歪みを含んでいる場合や、入力された問いに対応する学習用データが存在しない場合など)

使い方のおすすめ

  • 学習前:
    どんな項目があるかをざっと確認
  • 学習中:
    該当する記事を読んだらチェック項目を見返す
  • 試験前:
    ★がすべて説明できるかを自己確認

このページを「軸」にして、
各ブログ記事を積み上げていく想定です。


DS検定 リテラシー|データエンジニアリング力シート

  • Source: pages\ds\engineering-skillcheck.md
  • Permalink: /ds/engineering-skillcheck/

このページについて

このページは、
DS検定(リテラシーレベル)で求められている「データエンジニアリング力」
一覧で確認するためのページです。

高度な実装スキルではなく、
「データを正しく扱うための考え方・前提理解」が重視されます。


環境構築|システム企画

スキルレベル チェック項目
オープンデータを収集して活用する分析システムの要件を整理できる

環境構築|システム設計

スキルレベル チェック項目
サーバー1~10台規模のシステム構築、システム運用を手順書を元に実行できる
オンプレミス環境もしくはIaaS上のデータベースに格納された分析データのバックアップやアーカイブ作成などの定常運用ができる

環境構築|アーキテクチャ設計

スキルレベル チェック項目
ノーコード・ローコードツールを組み合わせ、要件に応じたアプリやツールを設計できる
コンテナ技術の概要を理解しており、既存のDockerイメージを活用して効率的に分析環境を構築できる
分析環境を提供するクラウド上のマネージドサービス(Amazon SageMaker、Azure Machine Learning、Google Cloud Vertex AI、IBM Watson Studioなど)を利用して、機械学習モデルを開発できる

データ収集|クライアント技術

スキルレベル チェック項目
対象プラットフォーム(クラウドサービス、分析ソフトウェア)が提供する機能(SDKやAPIなど)の概要を説明できる
Webクローラー・スクレイピングツールを用いてWebサイト上の静的コンテンツを分析用データとして収集できる

データ収集|通信技術

スキルレベル チェック項目
システムやネットワーク機器に用意された通信機能(HTTP、FTPなど)を用い、データを収集先に格納するための機能を実装できる

データ収集|データ抽出

スキルレベル チェック項目
データベースから何らかのデータ抽出方法を活用し、小規模なExcelのデータセットを作成できる

データ収集|データ収集

スキルレベル チェック項目
既存のサービスやアプリケーションに対して、分析をするためのログ出力の仕様を整理することができる

データ構造|基礎知識

スキルレベル チェック項目
扱うデータが、構造化データ(顧客データ、商品データ、在庫データなど)か非構造化データ(雑多なテキスト、音声、画像、動画など)なのかを判断できる
ER図を読んでテーブル間のリレーションシップを理解できる

データ構造|テーブル定義

スキルレベル チェック項目
正規化手法(第一正規化~第三正規化)を用いてテーブルを正規化できる

データ蓄積|DWH

スキルレベル チェック項目
DWHアプライアンス(Oracle Exadata Database Machine、IBM Integrated Analytics Systemなど)に接続し、複数テーブルを結合したデータを抽出できる

データ蓄積|分散技術

スキルレベル チェック項目
HadoopやSparkの分散技術の基本的な仕組みと構成を理解している
NoSQLデータストア(HBase、Cassandra、Mongo DB、CouchDB、Amazon DynamoDB、Azure Cosmos DB、Google Cloud Firestoreなど)にAPIを介してアクセスし、新規データを登録できる

データ蓄積|クラウド

スキルレベル チェック項目
クラウド上のオブジェクトストレージサービス(Amazon S3、Azure Blob Storage、Google Cloud Storage、IBM Cloud Object Storageなど)に接続しデータを格納できる

データ加工|フィルタリング処理

スキルレベル チェック項目
表計算ソフトのデータファイルに対して、条件を指定してフィルタリングできる(特定値に合致する・もしくは合致しないデータの抽出、特定範囲のデータの抽出、部分文字列の抽出など)
正規表現を活用して条件に合致するデータを抽出できる(メールアドレスの書式を満たしているか判定をするなど)

データ加工|ソート処理

スキルレベル チェック項目
表計算ソフトのデータファイルに対して、目的の並び替えになるように複数キーのソート条件を設定ができる

データ加工|統合処理

スキルレベル チェック項目
表計算ソフトのデータファイルに対して、単一条件による内部結合、外部結合、自己結合ができ、UNION処理ができる

データ加工|前処理

スキルレベル チェック項目
表計算ソフトのデータファイルに対して、NULL値や想定外・範囲外のデータを持つレコードを取り除く、または既定値に変換できる

データ加工|マッピング処理

スキルレベル チェック項目
表計算ソフトのデータファイルに対して、規定されたリストと照合して変換する、都道府県名からジオコードに変換するなど、ある値を規定の別の値で表現できる

データ加工|サンプリング処理

スキルレベル チェック項目
表計算ソフトのデータファイルに対して、ランダムまたは一定間隔にレコードを抽出できる

データ加工|集計処理

スキルレベル チェック項目
表計算ソフトのデータファイルのデータを集計して、合計や最大値、最小値、レコード数を算出できる

データ加工|変換・演算処理

スキルレベル チェック項目
表計算ソフトのデータファイルのデータに対する四則演算ができ、数値データを日時データに変換するなど別のデータ型に変換できる
変換元データと変換先データの文字コードが異なる場合、変換処理のコードがかける

データ共有|データ出力

スキルレベル チェック項目
加工・分析処理結果をCSV、XML、JSON、Excelなどの指定フォーマット形式に変換してエクスポートできる
加工・分析処理結果を、接続先DBのテーブル仕様に合わせてレコード挿入できる

データ共有|データ展開

スキルレベル チェック項目
RESTやSOAPなどのデータ取得用Web APIを用いて、必要なデータを取得できる

データ共有|データ連携

スキルレベル チェック項目
FTPサーバー、ファイル共有サーバーなどから必要なデータファイルをダウンロードして、Excelなどの表計算ソフトに取り込み活用できる
BIツールからデータベース上のDBテーブルを参照して新規レポートやダッシュボードを作成し、指定のユーザグループに公開できる
BIツールの自由検索機能を活用し、必要なデータを抽出して、グラフを作成できる

プログラミング|基礎プログラミング

スキルレベル チェック項目
小規模な構造化データ(CSV、RDBなど)を扱うデータ処理(抽出・加工・分析など)を、設計書に基づき、プログラム実装できる
プログラム言語や環境によって、変数のデータ型ごとに確保するメモリサイズや自動型変換の仕様が異なることを理解し、プログラムの設計・実装ができる
データ処理プログラミングのため分岐や繰り返しを含んだフローチャートを作成できる
オブジェクト指向言語の基本概念を理解し、スーパークラス(親クラス)を継承して、スーパークラスのプロパティやメソッドを適切に活用できる
ホワイトボックステストとブラックボックステストの違いを理解し、テストケースの作成とテストを実施できる

プログラミング|拡張プログラミング

スキルレベル チェック項目
JSON、XMLなど標準的なフォーマットのデータを受け渡すために、APIを使用したプログラムを設計・実装できる
外部ライブラリが提供する関数の引数や戻り値の型や仕様を調べて、適切に呼び出すことができる

プログラミング|AIサービス活用

スキルレベル チェック項目
他サービスが提供する分析機能や学習済み予測モデルをWeb API(REST)で呼び出し分析結果を活用することができる
目的に応じ音声認識関連のAPIを選択し、適用できる(Speech to Text など)

プログラミング|コーディング支援

スキルレベル チェック項目
AIを用いたソースコードのレビュー機能・チェック機能を活用してプログラムのバグ修正や性能改善を実現できる

プログラミング|アルゴリズム

スキルレベル チェック項目
入れ子の繰り返し処理(二重ループ)など計算負荷の高いロジックを特定しアルゴリズムの改善策を検討できる

プログラミング|分析プログラム

スキルレベル チェック項目
Jupyter Notebook(Pythonなど)やRStudio(R)などの対話型の開発環境を用いて、データの分析やレポートの作成ができる
クラウド上の統合開発環境(AWS SageMaker Studio Lab、Google Colab、Azure Data Studio、IBM Watson Studioなど)で提供されるNotebookを用いてPythonやRのコードを開発して実行できる

プログラミング|SQL

スキルレベル チェック項目
SQLの構文を一通り知っていて、記述・実行できる(DML・DDLの理解、各種JOINの使い分け、集計関数とGROUP BY、CASE文を使用した縦横変換、副問合せやEXISTSの活用など)

ITセキュリティ|基礎知識

スキルレベル チェック項目
セキュリティの3要素(機密性、完全性、可用性) について具体的な事例を用いて説明できる

ITセキュリティ|攻撃と防御手法

スキルレベル チェック項目
マルウェアなどによる深刻なリスクの種類(消失・漏洩・サービスの停止など)を理解している
OS、ネットワーク、アプリケーション、データなどの各レイヤーに対して、ユーザーごとのアクセスレベルを設定する必要性を理解している

ITセキュリティ|暗号化技術

スキルレベル チェック項目
暗号化されていないデータは、不正取得された際に容易に不正利用される恐れがあることを理解し、データの機密度合いに応じてソフトウェアを使用した暗号化と復号ができる
なりすましや改ざんされた文書でないことを証明するために、電子署名が用いられることを理解している
公開鍵暗号化方式において、受信者の公開鍵で暗号化されたデータを復号化するためには受信者の秘密鍵が必要であることを知っている
ハッシュ関数を用いて、データの改ざんを検出できる

ITセキュリティ|認証

スキルレベル チェック項目
OAuthに対応したデータ提供サービスに対して、認可サーバから取得したアクセストークンを付与してデータ取得用のREST APIを呼び出すことができる

AIシステム運用|AutoML

スキルレベル チェック項目
AutoMLを用いて予測対象を判定するために最適な入力データの組み合わせと予測モデルを抽出できる

AIシステム運用|MLOps

スキルレベル チェック項目
GitやSubversionなどのバージョン管理ソフトウェアを活用して、開発した分析プログラムのソースをリポジトリに登録しチームメンバーと共有できる
MLOpsの概要を理解し、AIモデル性能の維持管理作業の基本的な流れを説明できる
AIシステムのモニタリング項目を理解し、AIモデルの劣化状況や予測対象データの不備、AIシステムの異常を検知できる

AIシステム運用|AIOps

スキルレベル チェック項目
ITシステムの運用におけるAIOpsの概要とメリットを説明できる

生成AI|プロンプトエンジニアリング

スキルレベル チェック項目
生成AIを活用する際、出力したい要件に合わせ、Few-shot PromptingやChain-of-Thoughtなどのプロンプト技法の利用や、各種APIパラメーター(Temperatureなど)の設定ができる
画像生成AIに組み込まれた標準機能の利用(モデル選択)や、画像生成プロンプトルール(強調やネガティブプロンプトなど)を理解し、適切に入力することで、意図した画像を生成できる

生成AI|コーディング支援

スキルレベル チェック項目
LLMを利用して、データ分析やサービス、システム開発のためのコードを作成、修正、改良できる
LLMを利用して、開発した機能のテストや分析検証用のダミーデータを生成できる

使い方のおすすめ

  • 学習前:
    データを扱う前提知識として確認
  • 学習中:
    分析記事の前後関係を意識
  • 試験前:
    「なぜ必要か」を説明できるかで自己チェック

※ 数理・分析面は
データサイエンス力シート
ビジネス面は
ビジネス力シート
を参照してください。


DS検定 リテラシー|AI利活用スキル

  • Source: pages\ds\ai-utilization-skillcheck.md
  • Permalink: /ds/ai-utilization-skillcheck/

このページについて

このページは、
DS検定(リテラシーレベル)で求められている「AI利活用スキル」
一覧で確認するためのページです。

モデルを作る力ではなく、
AIを理解し、正しく使い、過信しない力が重視されます。


①使う

スキルレベル チェック項目
LLMを利用して、データ分析やサービス、システム開発のためのコードを作成、修正、改良できる
LLMを利用して、開発した機能のテストや分析検証用のダミーデータを生成できる
画像生成AIに組み込まれた標準機能の利用(モデル選択)や、画像生成プロンプトルール(強調やネガティブプロンプトなど)を理解し、適切に入力することで、意図した画像を生成できる
既存の生成AIサービスやツールを活用し、自身の身の回りの業務・作業の効率化ができる
生成AIを活用する際、出力したい要件に合わせ、Few-shot PromptingやChain-of-Thoughtなどのプロンプト技法の利用や、各種APIパラメーター(Temperatureなど)の設定ができる

⑤企画

スキルレベル チェック項目
モデルの性能を改善するためには、モデルの改善よりもデータの質と量を向上させる方が効果的な場合があることを理解している

⑥技術的理解

スキルレベル チェック項目
様々なサービスが登場する中で直感的にわくわくし、その裏にある技術に興味を持ち、リサーチできる

人間の関与と⑦技術課題対応責任

スキルレベル チェック項目
大規模言語モデルにおいては、事実と異なる内容がさも正しいかのように生成されることがあること(Hallucination)、これらが根本的に避けることができないことを踏まえ、利用に際しては出力を鵜呑みにしない等の注意が必要であることを知っている大規模言語モデルにおいては、事実と異なる内容がさも正しいかのように生成されることがあること(Hallucination)、これらが根本的に避けることができないことを踏まえ、利用に際しては出力を鵜呑みにしない等の注意が必要であることを知っている
大規模言語モデル(LLM)でHallucinationが起こる理由を学習に使われているデータの観点から説明できる(学習用データが誤りや歪みを含んでいる場合や、入力された問いに対応する学習用データが存在しない場合など)
Hallucinationが起きていることに気づくための適切なアクションをとることができる(検索等によるリサーチ結果との比較や、他LLMの出力結果との比較、正確な追加情報を入力データに付与することによる出力結果の変化比較など)

⑧倫理課題対応

スキルレベル チェック項目
データ、AI、機械学習の意図的な悪用(真偽の識別が困難なレベルの画像・音声作成、フェイク情報の作成、Botによる企業・国家への攻撃など)があり得ることを勘案し、技術に関する基礎的な知識と倫理を身につけている
データ分析者・利活用者として、データの倫理的な活用上の許容される範囲や、ユーザサイドへの必要な許諾について概ね理解している(直近の個人情報に関する法令:個人情報保護法、EU一般データ保護規則、データポータビリティなど)
AI・データを活用する際に、組織で規定された権利保護のガイドラインを説明できる

使い方のおすすめ

  • 学習前:
    AIに何を期待してよいか/期待しすぎないかを確認
  • 学習中:
    記事がどのAI利活用スキルに対応しているかを意識
  • 試験前:
    「なぜ人の判断が必要か」を説明できるかで確認

※ 数理・分析面は
データサイエンス力シート
ビジネス面は
ビジネス力シート
エンジニアリング面は
データエンジニアリング力シート
を参照してください。


未分類

未分類

A/Bテストとは?データで施策を比較する方法【DS検定】

  • Source: pages\ds\ab-test.md
  • Permalink: /ds/ab-test/

まず結論

A/Bテスト(ABテスト)とは、2つ以上の施策を同時に試し、どちらがより良い結果を出すかをデータで比較する実験手法です。

DS検定では データドリブンな意思決定の代表的な手法として出題されます。

ポイントは

勘や経験ではなく「データ」で判断する

という点です。


直感的な説明

例えばECサイトのボタンの色を変えると

売上

クリック率

が変わる可能性があります。

そこで次の2つを同時に試します。

パターンA

青い購入ボタン

パターンB

赤い購入ボタン

ユーザーをランダムに分けて

Aを表示するグループ

Bを表示するグループ

を作ります。

そして

クリック率

購入率

を比較します。

もし

Bの方が成果が高い

なら

Bを採用する

という判断をします。

これが A/Bテスト です。


定義・仕組み

A/Bテストは

統計的な実験手法です。

基本的な流れは次の通りです。

① 仮説を立てる

ボタンの色を変えるとクリック率が上がる


② ユーザーをランダムに分ける

グループA

グループB

ランダムに分けることで

公平な比較ができます。


③ 結果を測定

クリック率

購入率

滞在時間


④ 統計的に判断

差が偶然なのか

それとも

本当に効果があるのか

を判断します。


どんな場面で使う?

Webサービス

最もよく使われる分野です。

ボタンの色

ページデザイン

レコメンド表示


マーケティング

広告やキャンペーンの効果検証に使われます。

メールのタイトル

クーポン内容


プロダクト改善

アプリやサービスの改善に使われます。


よくある誤解・混同

アンケートとの違い

手法 内容

アンケート 意見を聞く A/Bテスト 実際の行動データを比較

A/Bテストは

実際のユーザー行動で評価する

点が重要です。


PoCとの違い

概念 内容

PoC 技術の実現可能性を検証 A/Bテスト 施策の効果を比較


まとめ(試験直前用)

A/Bテストは 施策を比較する実験手法

ユーザーをランダムに分ける

データで効果を判断

Webサービスやマーケティングで多用

DS検定では

「2つの施策を比較して効果を検証する実験」

と書かれていたら

A/Bテストと判断するのがポイントです。


【対応スキル項目(ビジネス力シート)】

ビジネス理解

データ活用

★ データを活用した意思決定の重要性を理解している


アクセス制御リスト(ACL)とは?ファイル権限の基本を整理【DS検定】

  • Source: pages\ds\access-control-list.md
  • Permalink: /ds/access-control-list/

まず結論

  • アクセス制御リスト(ACL)とは、ファイルやプログラムごとに「誰が何をしてよいか」を定めた一覧表のこと。
  • DS検定では「OSレベルでのアクセス管理の仕組み」を正しく理解できているかを問われる。

直感的な説明

ACLは、いわばファイルごとの入室名簿です。

あるフォルダに対して、

  • Aさん → 読み取りOK
  • Bさん → 読み取り・書き込みOK
  • Cさん → アクセス不可

といったように、
対象ごとに細かく許可を設定する仕組みです。

企業では、

  • 顧客データは営業部のみ閲覧可能
  • 給与データは人事部のみ編集可能

といった管理が必要です。
このような制御を実現する基本技術がACLです。


定義・仕組み

アクセス制御リスト(Access Control List, ACL)とは、

特定のリソース(ファイル・フォルダ・プログラムなど)に対して、
どのユーザーやグループが、どの操作を許可されているかを記録した一覧

のことです。

一般的に、次のような情報を持ちます。

  • 対象ユーザー/グループ
  • 許可内容(読み取り・書き込み・実行など)

ポイントは、

  • 「リソース単位」で管理すること
  • ネットワークではなく「OS内部の権限管理」であること

DS検定では、「アクセス制御」という言葉だけで
ファイアウォールを選ばせる問題が出やすいので注意です。


どんな場面で使う?

使う場面

  • 社内サーバーのフォルダ権限管理
  • データベースのテーブルアクセス管理
  • OS上のファイル権限設定

使わない(誤解しやすい)場面

  • ネットワーク通信の遮断 → これはファイアウォール
  • 不正侵入の検知 → これはIDS(侵入検知システム)
  • ウイルスの検出 → これはアンチウイルスソフト

「アクセス制御」という言葉が広いため、
どのレイヤーの話かを判断することが重要です。


よくある誤解・混同

① ファイアウォールとの混同

  • ファイアウォール → ネットワークの出入りを制御
  • ACL → ファイルやプログラムの操作権限を制御

DS検定では、

「OSレベル」「個々のファイルへのアクセス」

と書いてあれば、ACLが正解です。


② IDSとの混同

  • IDS → 不正アクセスを「検知」する仕組み
  • ACL → あらかじめ「許可・拒否を設定」する仕組み

検知と制御は別物です。


③ RBACとの違い

  • ACL → リソース単位で細かく設定
  • RBAC(役割ベースアクセス制御) → 役割単位でまとめて管理

DS検定では「リソース単位」という言葉がヒントになります。


まとめ(試験直前用)

  • ACLは「誰が何をできるか」をリソース単位で管理する仕組み
  • OS内部のファイル・プログラム権限の話
  • ネットワーク制御ならファイアウォール
  • 検知ならIDS
  • 問題文に「OSレベル」「ファイル単位」とあればACLを疑う

対応スキル項目

【対応スキル項目(データエンジニアリング力シート)】

  • IT・データ基盤理解
  • セキュリティ
  • ★ 情報セキュリティの基本的な概念(認証・認可・アクセス制御など)を理解している

中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】

  • Source: pages\ds\activation-functions-hidden-layer.md
  • Permalink: /ds/activation-functions-hidden-layer/

まず結論

中間層で使用される活性化関数とは、ニューラルネットワークに「非線形性」を与えるための関数です。
DS検定では「どの関数が中間層向きか」を判断させる問題がよく出ます。


直感的な説明

ニューラルネットワークは、

入力 → 中間層 → 出力層

という構造になっています。

ここで中間層の役割は、
単純な直線では表せない複雑なパターンを表現することです。

もし中間層がすべて「線形(直線)」の変換だけなら、

  • 何層あっても
  • 深くしても

結局は「1回の直線変換」と同じになります。

だからこそ、中間層には
曲がった関数(非線形関数)が必要になります。


定義・仕組み

活性化関数(Activation Function)とは、
各層の出力をどのように変換するかを決める関数です。

中間層でよく使われるもの

  • ReLU(レルー)
  • シグモイド関数(現在は減少傾向だが歴史的に使用)

これらは「非線形」なので、
モデルに複雑な表現力を持たせることができます。

中間層で基本的に使わないもの

  • ソフトマックス関数

ソフトマックスは、
出力を確率(合計1)に変換する関数です。

そのため、通常は
多クラス分類の出力層で使われます。


どんな場面で使う?

中間層

  • ReLUが現在の主流
  • 以前はシグモイドも利用されていた

出力層

  • 二値分類 → シグモイド
  • 多クラス分類 → ソフトマックス
  • 回帰問題 → 線形関数

DS検定では、

「どの層でどの関数が使われるか」

を整理しておくことが重要です。


よくある誤解・混同

① 線形関数は中間層では使えない?

理論上は使えます。
しかしすべて線形にすると、層を重ねる意味がなくなります。

そのため、実質的には非線形が必要です。

② シグモイドは中間層では不適切?

現在はReLUが主流ですが、
歴史的には中間層でも使われてきました。

DS検定では
「絶対に使われないもの」を選ばせる問題が多いです。

この場合、より明確に不適切なのは
ソフトマックス(出力層専用)です。

③ ソフトマックスは万能な活性化関数?

違います。
確率に変換するための関数なので、中間層には通常使いません。

選択肢では
「中間層でも一般的に使われる」と書かれていたら注意です。


まとめ(試験直前用)

  • 中間層には「非線形関数」が必要
  • ReLUは現在の主流
  • シグモイドも歴史的に使用されてきた
  • ソフトマックスは基本的に出力層専用
  • 「最も不適切」を選ばせる問題では、役割の違いで切る

【対応スキル項目(AI利活用スキルシート)】

  • AIを理解する力
  • モデルの基本構造を理解している
  • ★ AIの仕組みや基本構造を理解している

アジャイル開発とは?ウォーターフォール開発との違いを整理【DS検定】

  • Source: pages\ds\agile-development.md
  • Permalink: /ds/agile-development/

まず結論

  • アジャイル開発とは、短い開発サイクルを繰り返しながらシステムを改善していく開発手法です。
  • DS検定では ウォーターフォール開発との違い(反復開発・柔軟な仕様変更)を理解しているかが問われます。

直感的な説明

従来のシステム開発では

  1. 分析
  2. 設計
  3. 実装
  4. テスト

という順番で開発を進めます。

これが ウォーターフォール開発です。

一方でアジャイル開発では

  • 小さな機能を作る
  • 実際に動かして確認する
  • フィードバックをもらう
  • 改善する

というサイクルを 何度も繰り返します。

つまり

少しずつ作りながら改善していく開発方法

と考えると理解しやすいです。


定義・仕組み

アジャイル開発(Agile Development)とは

短い期間で開発・評価・改善を繰り返しながら
システムを段階的に完成させる開発手法

です。

特徴は次の3つです。

① 短い開発サイクル(反復開発)

アジャイル開発では

  • 1週間〜1か月程度

の短い期間で

  • 開発
  • テスト
  • 改善

を繰り返します。

このサイクルを イテレーションスプリントと呼びます。


② フィードバックを重視する

アジャイルでは

  • 顧客
  • ユーザー

のフィードバックを取り入れながら開発します。

そのため

実際のニーズに合ったシステムを作りやすい

という特徴があります。


③ 仕様変更に強い

アジャイル開発では

  • 要求の変更
  • 機能追加

に柔軟に対応できます。

DS検定では

不確実性の高いプロジェクトに向く

という特徴を理解しておくと良いです。


どんな場面で使う?

① 新しいサービス開発

新規サービスでは

  • ユーザーのニーズ
  • 市場の状況

が変わりやすいため

アジャイル開発がよく使われます。


② データ分析プロジェクト

データ分析では

  • データを見てから課題が変わる
  • 分析結果によって方針が変わる

ことがよくあります。

そのため

小さく試して改善するアジャイル型の進め方

が有効です。


③ スタートアップ開発

スタートアップでは

  • 仮説検証
  • MVP開発

などを短期間で繰り返す必要があります。

そのため

アジャイル開発が広く採用されています。


よくある誤解・混同

① ウォーターフォール開発との違い

DS検定ではこの違いが頻出です。

開発手法 特徴
ウォーターフォール開発 工程を順番に進める
アジャイル開発 短いサイクルを繰り返す

つまり

  • ウォーターフォール → 計画重視
  • アジャイル → 柔軟性重視

です。


② 計画が不要なわけではない

アジャイル開発は

計画を立てない開発

ではありません。

むしろ

  • スプリント計画
  • タスク管理

などの管理が重要になります。


③ 手法とフレームワークの違い

アジャイル開発の具体的な方法として

  • スクラム
  • XP(エクストリームプログラミング)
  • FDD(Feature Driven Development)

などがあります。

DS検定では

スクラムがアジャイルの代表例

として出題されることがあります。


まとめ(試験直前用)

  • アジャイル開発=短い開発サイクルを繰り返す開発手法
  • フィードバックを取り入れて改善する
  • 仕様変更に強い
  • ウォーターフォールは 工程を順番に進める開発
  • DS検定では ウォーターフォールとの違いがよく問われる

【対応スキル項目(ビジネス力シート)】

  • プロジェクト推進
  • リソースマネジメント
  • ★ 指示に従ってスケジュールを守り、チームリーダーに頼まれた自分の仕事を完遂できる

AIOpsとMLOpsの違いを一発整理【DS検定チートシート】

  • Source: pages\ds\aiops-mlops-cheatsheet.md
  • Permalink: /ds/aiops-mlops-cheatsheet/

まず結論

  • AIOpsは「IT運用にAIを使う」概念
  • MLOpsは「機械学習モデルを運用する」仕組み

DS検定では、この2つを混同させる問題が非常に出やすいです。
判断基準は「何を運用しているか」です。


直感的な説明

同じ「〜Ops」でも、対象がまったく違います。

  • AIOps → システムやインフラを賢く運用する
  • MLOps → 機械学習モデルを安定して回し続ける

たとえると、

  • AIOpsは「病院の設備管理をAIで効率化」
  • MLOpsは「診断AIモデルを安全に使い続ける仕組み」

のような違いです。


定義・仕組み

AIOps

  • ログ・メトリクス・イベントをAIで分析
  • 異常検知
  • 障害予測
  • 根本原因分析
  • 自動復旧

対象:ITインフラ・システム


MLOps

  • データ管理
  • モデル学習
  • モデル評価
  • デプロイ
  • モデル監視
  • 再学習

対象:機械学習モデル


どんな場面で使う?

状況 どちら?
サーバーログの異常検知 AIOps
モデルの再学習自動化 MLOps
システム障害の原因分析 AIOps
モデルのバージョン管理 MLOps
精度劣化の監視 MLOps

DS検定では、
「ログ」「インフラ」「障害」ならAIOps
「モデル」「再学習」「デプロイ」ならMLOps

と判断できます。


よくある誤解・混同

❌ どちらもAIを使うから同じ

→ 違います。
AIを「使う対象」が違います。


❌ モデル監視=AIOps

→ モデルの精度監視はMLOpsです。


❌ AIOpsはAIを開発する仕組み

→ AIOpsはAIを使って「運用を改善する」考え方です。


まとめ(試験直前用)

  • AIOps=AI × IT運用
  • MLOps=モデルの継続運用
  • 運用対象が「IT基盤」ならAIOps
  • 運用対象が「機械学習モデル」ならMLOps
  • DS検定では「何を運用しているか」で切る

迷ったら、

インフラか?
モデルか?

この2択で考えれば正解に近づけます。


【対応スキル項目(AI利活用スキルシート)】

  • AIの利活用
  • AI導入・運用
  • ★ AIを活用した業務改善・効率化の事例を理解している
  • ★ AI導入における運用上の課題を理解している

AIOpsとは?MLOpsとの違いを整理【DS検定リテラシー】

  • Source: pages\ds\aiops.md
  • Permalink: /ds/aiops/

まず結論

  • AIOpsとは、AIを使ってIT運用(システム監視・障害対応など)を効率化・自動化する考え方です。
  • DS検定では「AIをどこに使っているのか」を判断できるかが問われます。

特に、MLOpsと混同させる問題が出やすいので注意が必要です。


直感的な説明

会社のシステムには、サーバー、ネットワーク、ログ、アプリなど大量の監視データがあります。

人間がすべてのログを目視で確認するのは不可能です。

そこで、

  • 異常なログパターンをAIが検知する
  • 障害の原因を自動推定する
  • アラートの優先順位をつける

といった仕組みを作るのが AIOps です。

つまり、

「AIを使ってシステム運用を賢くする」

これが本質です。


定義・仕組み

AIOps(Artificial Intelligence for IT Operations)は、

  • ITインフラやアプリケーションの運用データ
  • ログ、メトリクス、イベント情報

などをAIで分析し、

  • 異常検知
  • 根本原因分析(Root Cause Analysis)
  • 障害予測
  • 自動復旧

を行う運用手法です。

ポイントは、

  • 対象は「IT運用」
  • AIは「運用改善のための手段」

であることです。

DS検定では、
AIの活用領域を正しく理解しているかを問われます。


どんな場面で使う?

使う場面

  • 大規模クラウド環境の監視
  • 24時間稼働システムの障害予測
  • ログが膨大で人手対応が限界な環境

使わない場面

  • モデルの学習管理そのもの
  • データサイエンスプロジェクトの実験管理

ここで重要なのが、

AIOpsは「システム運用」の話
MLOpsは「機械学習モデル運用」の話

という切り分けです。


よくある誤解・混同

❌ AIOps=AIを開発する仕組み

→ これは違います。
AIOpsは「AIを使う側」の仕組みです。


❌ AIOpsとMLOpsは同じ

ここが最大のひっかけです。

用語 何を運用する?
AIOps ITシステム運用
MLOps 機械学習モデル運用

DS検定では、

  • 「モデルの継続的デプロイ」
  • 「学習データのバージョン管理」

と書かれていたら → MLOps

  • 「ログの異常検知」
  • 「障害予測」

と書かれていたら → AIOps

と判断します。


まとめ(試験直前用)

  • AIOpsは「AI × IT運用」
  • 目的は障害予測・自動化・効率化
  • モデル管理はMLOps
  • DS検定では「何を運用しているか」で切る

迷ったら、

運用対象が「IT基盤」ならAIOps
運用対象が「機械学習モデル」ならMLOps

この基準で判断できます。


【対応スキル項目(AI利活用スキルシート)】

  • AIの利活用
  • AI導入・運用
  • ★ AIを活用した業務改善・効率化の事例を理解している
  • ★ AI導入における運用上の課題を理解している

分析アプローチ設計とは?(分析プロジェクトを成功させる設計プロセス)【DS検定】

  • Source: pages\ds\analysis-approach-design.md
  • Permalink: /ds/analysis-approach-design/

まず結論

分析アプローチ設計とは、分析プロジェクトの目的に合わせて「必要なデータ・分析手法・可視化方法」を事前に設計することです。

DS検定では、
「目的 → 必要データ → 分析手法 → 可視化」 の流れを適切に決められるかが問われます。


直感的な説明

データ分析は、
とりあえずデータを集めて分析すればよいというものではありません。

例えば、ある小売店で

「売上を増やしたい」

という目的があったとします。

このとき分析アプローチ設計では次のように考えます。

  1. 目的を明確にする
    → 売上を増やすには何を知る必要があるか?

  2. 仮説を立てる
    → 売上は「天候」「曜日」「プロモーション」に影響されるのでは?

  3. 必要なデータを決める
    • 売上データ
    • 天候データ
    • 曜日
    • プロモーション実施情報
  4. 分析手法を決める
    • 回帰分析
    • 時系列分析
  5. 可視化方法を決める
    • 時系列グラフ
    • 散布図

このように
分析の進め方をあらかじめ設計しておくこと
これが分析アプローチ設計です。


定義・仕組み

分析アプローチ設計とは、

分析の目的に基づいて、以下を整理するプロセスです。

① スコープ(分析範囲)

分析プロジェクトの対象範囲を決めます。

  • 対象データ
  • 対象期間
  • 対象顧客

スコープが曖昧だと
分析がどんどん拡大してしまう問題が起きます。


② 必要なデータ

仮説を検証するためのデータを決めます。

  • 売上
  • 天候
  • 曜日
  • プロモーション

DS検定では

「仮説に対して必要なデータを選択できるか」

が重要なポイントになります。


③ 分析手法

データの性質に応じて分析手法を選びます。

例えば

  • 売上予測 → 回帰分析
  • 時系列データ → 時系列分析(ARIMAなど)

重要なのは

データの種類に合った分析手法を選ぶこと

です。


④ 可視化方法

分析前にも可視化を行います。

  • 時系列グラフ
  • ヒストグラム
  • 散布図

これは

データの特徴や異常値を確認するため

です。

DS検定では

分析前の可視化(EDA:探索的データ分析)

が重要な考え方として出題されます。


どんな場面で使う?

① データ分析プロジェクトの開始時

データサイエンスでは

最初に分析設計をすることが非常に重要です。

理由

  • 無駄な分析を防ぐ
  • 目的と手法のズレを防ぐ
  • 必要なデータを早期に把握できる

② ビジネス課題の分析

例えば

  • 売上予測
  • 顧客分析
  • マーケティング効果分析
  • 不正検知

などのビジネス分析でも
必ずこの設計プロセスを通ります。


よくある誤解・混同

誤解①

「データを集めてから分析方法を考える」

これはよくある失敗です。

正しくは

目的 → 仮説 → 必要データ → 分析手法

の順で決めます。


誤解②

「分析手法から決める」

例えば

「機械学習を使おう」

という発想です。

DS検定ではこれは誤りです。

正しくは

課題 → 仮説 → 手法

の順になります。


誤解③

「分析=モデル作成」

実際のデータ分析では

  • 問題定義
  • データ理解
  • 可視化
  • 前処理
  • モデル
  • 解釈

など多くの工程があります。

分析アプローチ設計は
その最初の設計段階です。


まとめ(試験直前用)

  • 分析アプローチ設計とは
    目的に基づいて分析の進め方を設計すること

  • 設計する内容
    • スコープ
    • 必要データ
    • 分析手法
    • 可視化方法
  • DS検定では
    目的 → 仮説 → データ → 手法

の順で考えることが重要。

  • 「とりあえずデータ分析」や
    手法先行の分析は誤りとして出題されやすい。

対応スキル項目

【対応スキル項目(ビジネス力シート)】

  • スキルカテゴリ名
    ビジネス課題把握

  • サブカテゴリ名
    課題設定

  • ★ ビジネス課題を整理し、データ分析の目的やスコープを明確に設定できる


記述的・診断的・予測的・処方的分析の違いとは?4分類を整理【DS検定】

  • Source: pages\ds\analytics-4types.md
  • Permalink: /ds/analytics-4types/

まず結論

データ分析は「何を知りたいか」によって
記述的・診断的・予測的・処方的の4種類に分かれます。

DS検定では、「どの分析が何を目的にしているか」を正しく判断できるかが問われます。


直感的な説明

この4つは、質問のレベルが違います。

  • 記述的分析:何が起きた?
  • 診断的分析:なぜ起きた?
  • 予測的分析:これから何が起きる?
  • 処方的分析:どう行動すべき?

つまり、

過去 → 原因 → 未来 → 行動

と、レベルが上がっていきます。

DS検定では、この順番を混同させる問題がよく出ます。


定義・仕組み

① 記述的分析(Descriptive)

過去データを整理・可視化する分析。
例:売上の平均、グラフ表示。

👉 事実の把握。


② 診断的分析(Diagnostic)

なぜそうなったのか原因を探る分析。
例:売上低下の要因分析、相関分析。

👉 原因の特定。


③ 予測的分析(Predictive)

将来の結果を予測する分析。
例:来月の売上予測、故障予測、レコメンド。

👉 未来の推定。


④ 処方的分析(Prescriptive)

最適な行動を提案する分析。
例:価格最適化、在庫最適化、ルート最適化。

👉 「どうすべきか」の提示。

DS検定では
「予測」と「処方」を混同させる選択肢がよく出ます。


どんな場面で使う?

ビジネスの流れで見ると

  1. 売上を集計(記述)
  2. 原因を分析(診断)
  3. 来月を予測(予測)
  4. 値引き施策を決定(処方)

実務ではこの順番で使われることが多いです。

DS検定では、「行動提案があるかどうか」が判断ポイントになります。


よくある誤解・混同

❌ 予測と処方の混同

  • 予測:売上が下がると予測する
  • 処方:価格を下げるべきと提案する

「最適な行動を提示する」と書いてあれば処方的分析です。


❌ 診断と予測の混同

  • 診断:原因を探る
  • 予測:未来を推定する

「なぜ?」か「これから?」かで判断します。


❌ AIが関わると全部予測になる

AIはどの段階でも使われます。

DS検定では
「AI=予測的分析」と決めつける選択肢は誤りです。


まとめ(試験直前用)

  • 記述:何が起きた
  • 診断:なぜ起きた
  • 予測:これから何が起きる
  • 処方:どう行動すべき

👉 「質問の種類」で判断する
👉 行動提案があれば処方


対応スキル項目(AI利活用スキルシート)

  • AI利活用スキル
  • AIの活用理解
  • ★ AIの特性(得意・不得意)を理解し、適切に活用できる

  • AI利活用スキル
  • AIのリスク理解
  • ★ AIの出力結果を鵜呑みにせず、妥当性を判断できる

アンカリング効果とは?最初の情報に判断が引きずられる心理【DS検定】

  • Source: pages\ds\anchoring-effect.md
  • Permalink: /ds/anchoring-effect/

まず結論

  • アンカリング効果とは、最初に提示された情報(特に数字)が基準となり、その後の判断が影響を受けてしまう認知バイアスです。
  • DS検定では、最初の情報が人の意思決定に影響する心理を理解しているかが問われます。

直感的な説明

例えば、次のような場面を考えてみます。

ある商品について、

「この商品は 定価10,000円 です」

と言われた後に、

「今日は 5,000円 で販売します」

と言われると、多くの人は

「かなり安い」

と感じます。

しかし、もし最初に

「この商品は 6,000円くらいが相場 です」

と聞いていたら、
5,000円はそこまで安く感じないかもしれません。

つまり、人は

最初に見た数字を基準(アンカー)にして判断してしまう

のです。

これを アンカリング効果(Anchoring Effect) と呼びます。


定義・仕組み

アンカリング効果とは、

最初に提示された情報(アンカー)が、その後の判断の基準になってしまう認知バイアス

のことです。

人間は完全に客観的に判断しているつもりでも、

  • 最初に見た数字
  • 最初に聞いた価格
  • 最初に提示された予測

などに 無意識に影響されます。

例えば次のような場面です。

  • 商品の「定価」
  • 不動産の「希望価格」
  • 年収交渉の「最初の提示額」
  • 売上予測の「最初の仮説」

DS検定では、

人の意思決定は完全に合理的ではない

という理解が重要になります。


どんな場面で使う?

価格設定

小売やマーケティングでは、

  • 定価を高く設定する
  • 割引を強調する

ことで

「お得に見せる」

という戦略が使われます。

これはアンカリング効果を利用した例です。


予測や見積もり

例えば売上予測をするとき、

最初に

「売上は1000万円くらいでは?」

という仮説が出ると、その後の議論でも

1000万円を基準に考えてしまう

ことがあります。


ビジネス意思決定

会議や分析の場でも、

  • 最初に出た意見
  • 最初の数値

に引きずられてしまうことがあります。

そのためデータ分析では、

最初の仮説に引きずられないよう注意すること

が重要になります。


よくある誤解・混同

① アンカリング効果=価格の話だけではない

価格の例がよく使われますが、

アンカリング効果は

  • 予測
  • 判断
  • 意思決定

など、さまざまな場面で起きます。


② 認知バイアスとの関係

用語 意味
認知バイアス 思考の偏りの総称
アンカリング効果 認知バイアスの一種

つまり、

アンカリング効果は認知バイアスの具体例

です。


③ 確証バイアスとの違い

DS検定では、この2つを混同させる問題が出ることがあります。

用語 意味
確証バイアス 自分の考えを支持する情報だけ集める
アンカリング効果 最初の情報に判断が引きずられる

選択肢では

  • 「最初の数字に影響される」
  • 「最初の情報が基準になる」

と書かれていたら アンカリング効果 です。


まとめ(試験直前用)

  • アンカリング効果 = 最初の情報が判断の基準になる認知バイアス
  • 特に 最初の数字 が影響を与えやすい
  • 価格、予測、意思決定などで起きる
  • DS検定では
    「最初の情報に引きずられる判断」
    が出てきたらアンカリング効果

覚え方:

アンカー(Anchor)=船のいかり
→ 最初の情報に思考が固定される


【対応スキル項目(ビジネス力シート)】

  • 問題解決力
  • 課題の構造化
  • ★ 課題を構造的に整理し、論理的に解決することができる

アノテーションとは?(AI学習データを作る重要な作業)【DS検定】

  • Source: pages\ds\annotation.md
  • Permalink: /ds/annotation/

まず結論

アノテーション(annotation)とは、データに意味を付けるための「正解ラベル」を付ける作業のことです。

DS検定では 「AIが学習するための教師データを作る作業」として理解しているかが問われます。

特に試験では

アノテーション

教師データ

教師あり学習

この3つの関係を理解しているかがポイントになります。

アノテーション ↓ 教師データ ↓ 教師あり学習


直感的な説明

AIは、そのままのデータだけでは

何が正しいのか分かりません。

例えば画像認識を考えてみます。

犬と猫を判別するAIを作りたい場合、

画像 正解

犬の写真 犬 猫の写真 猫 犬の写真 犬

このように

画像に「これは犬」「これは猫」と正解を書き込む作業

が必要になります。

この

データに意味を付ける作業

アノテーションです。

つまり

AIに「これは何か」を教えるための下準備

と言えます。


定義・仕組み

アノテーションとは

データに対してラベル(正解情報)を付与する作業

のことです。

AIでは特に以下のようなデータに対して行われます。

画像データのアノテーション

画像AIでは、単に「犬」「猫」と書くだけではなく

画像のどこに対象があるのか

を指定する必要があります。

そのときに使われる代表的な方法が

バウンディングボックス(Bounding Box)

です。

バウンディングボックスとは

バウンディングボックスとは

対象物を四角形で囲んで位置を示す方法です。

例えば自動運転AIでは

自転車

信号

などを画像から検出します。

その際、アノテーションでは次のようにラベルを付けます。

画像 ┌─────────────┐ │ │ │ □ 車 │ │ │ │ □ 人 │ │ │ └─────────────┘

四角で囲んだ部分が

バウンディングボックスです。

そしてデータとしては

ラベル(例:car)

四角の位置

が保存されます。

car : (x1, y1, x2, y2) person : (x1, y1, x2, y2)

これは

物体検出(Object Detection)AI

で使われる重要なアノテーションです。

DS検定では

画像AI → バウンディングボックスでラベル付け

という関係が理解できているかが問われます。


テキストデータのアノテーション

例:感情分析

「この映画は最高だった」 → ポジティブ

「この店はもう行きたくない」 → ネガティブ

このように

文章に意味ラベルを付けるのもアノテーションです。


音声データのアノテーション

音声データ → 「こんにちは」

音声認識AIでは

音声 → 正しい文字

を対応させることで学習します。


どんな場面で使う?

① 教師あり学習

最も代表的な用途です。

画像分類

スパムメール判定

感情分析

教師あり学習では

データ + 正解ラベル

が必要になります。

そのため

アノテーションが必須の工程になります。


② 半教師あり学習

すべてのデータにラベルを付けるのは

非常にコストが高いです。

そのため

一部だけアノテーション

残りは未ラベル

というデータで学習する方法があります。

これが

半教師あり学習(Semi‑supervised learning)です。

DS検定では

アノテーションコスト削減の方法

として出題されることがあります。


③ アダプティブラーニング

教育AIでは

学習履歴

正解 / 不正解

理解度

などの情報をデータに付与して分析します。

このような

データに意味情報を付ける処理

も広い意味ではアノテーションと考えられます。


よくある誤解・混同

① アノテーション=AIが自動で付ける

これは誤りです。

多くの場合

人間が手作業で行います。

実際には

クラウドソーシング

専門チーム

社内作業

などで大量に作られます。


② アノテーション=データ前処理

完全には同じではありません。

用語 内容

前処理 欠損値処理、正規化など アノテーション 正解ラベル付与

ラベル付けがあるかどうかが違いです。


③ アノテーション=教師あり学習

これも誤りです。

正しくは

アノテーション ↓ 教師データ作成 ↓ 教師あり学習

という関係です。

DS検定では

「教師あり学習の前工程」

と理解しているかがよく問われます。


まとめ(試験直前用)

アノテーション=データに正解ラベルを付ける作業

教師あり学習では 必須工程

画像AIでは バウンディングボックスで物体位置を指定

ラベル作成コストが大きいため 半教師あり学習が使われる

DS検定では

「教師データを作る工程は何か」

と問われたら

アノテーション

を思い出すと判断しやすくなります。


対応スキル項目(AI利活用スキルシート)

AI利活用

AIの基礎理解

★ AIで利用するデータの特徴(学習データ・教師データなど)を理解している ★ AIを活用するためのデータ準備(データ収集・アノテーションなど)の重要性を理解している


匿名加工情報とは?個人情報との違いをわかりやすく整理【DS検定】

  • Source: pages\ds\anonymized-information.md
  • Permalink: /ds/anonymized-information/

まず結論

  • 匿名加工情報とは、個人を特定できないように加工された個人情報のことです。
  • DS検定では 「個人情報との違い」「仮名加工情報との違い」 を判断できるかがよく問われます。

ポイントは次の一行です。

匿名加工情報は「元の個人を特定できない状態」にしたデータです。


直感的な説明

例えば、あるECサイトが次のような顧客データを持っているとします。

名前 住所 年齢 購入額
山田太郎 東京都渋谷区 32 12000

このデータは明らかに
個人を特定できる情報です。

そこで次のように加工します。

地域 年代 購入額
東京都 30代 12000

このように

  • 名前を削除
  • 住所を大まかに
  • 個人識別できない形に

加工すると、
匿名加工情報になります。

つまり

「誰のデータか分からない状態」にしたデータ

です。


定義・仕組み

匿名加工情報とは

特定の個人を識別できないように加工し、
元の個人情報に戻せないようにしたデータ

のことです。

日本の個人情報保護法で定義されています。

特徴は次の2つです。

① 個人を特定できない

  • 名前
  • 住所
  • ID
  • 顔画像

などを削除・加工して
誰のデータか分からない状態にします。


② 元の個人情報に戻せない

重要なのはここです。

復元できないように加工する

必要があります。

つまり

  • 元データとの対応表
  • ID対応表

などを残してはいけません。

これが

仮名加工情報との大きな違い

です。


どんな場面で使う?

匿名加工情報は主に次の場面で使われます。

データ分析

企業が

  • 購買データ
  • 行動データ
  • 位置データ

を分析する場合です。

個人を特定しない形にすれば
統計分析などに利用できます。


データ共有

企業が

  • 研究機関
  • 他企業
  • 公共機関

などとデータを共有する場合です。

匿名加工情報にすることで
プライバシーリスクを下げることができます。

DS検定では

「データ活用とプライバシー保護の両立」

という文脈で出題されます。


よくある誤解・混同

誤解①

匿名加工情報 = 個人情報

これは誤りです。

匿名加工情報は

個人を特定できない状態

なので
通常の個人情報とは扱いが異なります。


誤解②

匿名加工情報は復元できる

これは誤りです。

復元できる場合は
仮名加工情報になります。

ここはDS検定でよく問われます。


誤解③

仮名加工情報との違い

種類 特徴
匿名加工情報 元の個人に戻せない
仮名加工情報 対応表があれば戻せる

DS検定では

「復元できるかどうか」

が判断ポイントになります。


まとめ(試験直前用)

  • 匿名加工情報は 個人を特定できないよう加工したデータ
  • 元の個人情報に戻せないこと が重要
  • データ分析やデータ共有で利用される
  • 仮名加工情報との違いは 復元可能かどうか

DS検定では

匿名加工情報 → 復元不可
仮名加工情報 → 復元可能

という整理ができれば
選択肢を切ることができます。


【対応スキル項目(ビジネス力シート)】

  • ビジネスにおけるデータ活用
  • 法律・倫理

★ 個人情報保護やプライバシー保護に関する法制度を理解している


アソシエーション分析とは?購買データの関係性を見つける分析【DS検定】

  • Source: pages\ds\association-analysis.md
  • Permalink: /ds/association-analysis/

まず結論

アソシエーション分析(Association Analysis)とは、データの中にある「同時に起こりやすい事象の関係」を見つける分析手法です。

DS検定では「商品Aを買う人は商品Bも買う傾向がある」のような 購買履歴の関係性分析として問われることが多いです。

DS検定では特に

クラスタ分析

RFM分析

と 役割の違いを判断できるか がよく問われます。


直感的な説明

スーパーの購買データを考えてみます。

例えば、

パンを買った人の多くが牛乳も買っている

おむつを買った人がビールも買う傾向がある

このような

「一緒に起こりやすい組み合わせ」

を見つけるのが アソシエーション分析です。

この分析は特に

レコメンデーション

商品配置

セット販売

などのマーケティングで活用されます。

例えばECサイトでは

「この商品を買った人はこんな商品も買っています」

という表示があります。 これはアソシエーション分析の典型例です。


定義・仕組み

アソシエーション分析は、

データ内の事象の共起(同時発生)関係を分析する手法

です。

代表的な利用データは

購買履歴

行動ログ

サービス利用履歴

などです。

この分析では、例えば

パン → 牛乳

のような

ルール(関連ルール)

を見つけます。

このような分析は

バスケット分析(Market Basket Analysis)

とも呼ばれます。

DS検定では数式よりも、

「同時購入関係を見つける分析」

と理解しておくことが重要です。


どんな場面で使う?

主に次のような場面で使われます。

小売・EC

商品レコメンド

セット販売

商品配置最適化

パンを買う人 → 牛乳を買う

なら

パン売り場の近くに牛乳を置く

という戦略が考えられます。


Webサービス

コンテンツ推薦

閲覧行動分析

ある動画を見る人 → 別の動画も見る


マーケティング

クロスセル

顧客行動分析


よくある誤解・混同

DS検定では次の分析と混同させる問題がよく出ます。

クラスタ分析との違い

分析 目的

クラスタ分析 似たデータをグループ分けする アソシエーション分析 同時に起こる関係を見つける

クラスタ分析 → 顧客グループ分け

アソシエーション分析 → 商品の同時購入


RFM分析との違い

RFM分析は

Recency(最近購入したか)

Frequency(購入頻度)

Monetary(購入金額)

顧客を評価する分析です。

つまり

分析 見ている対象

アソシエーション分析 商品同士の関係 RFM分析 顧客の価値

DS検定では

購買履歴から商品の関連性を分析する

と書かれていたら アソシエーション分析です。


まとめ(試験直前用)

アソシエーション分析は 同時に起こる事象の関係を見つける分析

典型例は 購買履歴の分析(バスケット分析)

「Aを買う人はBも買う」という関係を見つける

クラスタ分析はグループ分け

RFM分析は顧客評価

DS検定では

「商品の同時購入関係」

と書かれていたら アソシエーション分析と判断するのがポイントです。


【対応スキル項目(データサイエンス力シート)】

データ分析

データ分析手法

★ データの特徴や関係性を把握するための基本的な分析手法を理解している


共起頻度・支持度・信頼度・リフト値の違いとは?【DS検定】

  • Source: pages\ds\association-metrics.md
  • Permalink: /ds/association-metrics/

直感的な説明

通販サイトを例に考えます。

「パンを買う人は牛乳も買う」

というルールを見つけたいとします。

そのとき次のような指標を使います。

支持度(Support)

パンと牛乳を 両方買った人の割合

→ どれくらい頻繁に起きるか


信頼度(Confidence)

パンを買った人の中で 牛乳も買った割合

パン → 牛乳のルールの強さ


リフト値(Lift)

パンを買う人は 普通よりどれくらい牛乳を買いやすいか

偶然ではないかを判断

イメージ

支持度 = 一緒に起きる割合 信頼度 = Xが起きたときYが起きる割合 リフト = Yの通常確率と比べてどれくらい強いか

DS検定ではこの 3つの役割の違いを理解しておくことが重要です。


定義・仕組み

X → Y というルールを考えます。

X = パン購入 Y = 牛乳購入


共起頻度

X と Y が 同時に起きた回数

共起頻度 = X ∩ Y の件数

データ件数の 絶対数です。


支持度(Support)

X と Y が 同時に起きる割合

Support = P(X ∩ Y)

つまり

共起回数 ÷ 全データ数

になります。


信頼度(Confidence)

X が起きたとき Y が起きる確率

Confidence = P(Y X)

つまり

XとYの共起回数

Xが起きた回数

です。


リフト値(Lift)

信頼度を Yの通常確率と比較した指標

Lift = Confidence / P(Y)

意味は

Xが起きたとき Yは普通よりどれだけ起きやすいか

になります。


リフト値の解釈

リフト値 意味
1 関係なし(独立)
>1 正の関係
<1 負の関係

つまり

リフト値が1より大きいと意味のあるルール

と考えます。


どんな場面で使う?

代表的なのは レコメンド(推薦)です。

ビール → おつまみ スマホ → ケース カレー → 福神漬

こうした

一緒に買われやすい商品

を見つけるために使います。

この分析を

アソシエーション分析(Association Analysis)

と呼びます。

DS検定でも

  • レコメンド
  • 購買分析
  • マーケットバスケット分析

の文脈で出題されます。


よくある誤解・混同

誤解①

共起回数が多い=強い関係

これは誤りです。

牛乳は誰でもよく買う

この場合

牛乳との共起回数は増えます。

しかし

関係があるとは限りません。

そのため

支持度 → データ量 信頼度 → 条件付き確率 リフト → 偶然補正

という 役割分担があります。


誤解②

信頼度が高い=意味のあるルール

これも誤りです。

X → 牛乳

牛乳は誰でもよく買うので 信頼度は高くなりやすいです。

そこで

リフト値

を使って

偶然かどうか

を判断します。

DS検定では

信頼度が高い → 強いルール

という選択肢が出たら 注意です。


誤解③

X→Y と Y→X は同じ

これは違います。

信頼度は

P(Y X)

なので

X → Y Y → X

では値が変わります。

つまり

方向性がある指標

です。


まとめ(試験直前用)

  • 支持度 → 一緒に起きる割合
  • 信頼度 → Xが起きたときYが起きる確率
  • リフト値 → Yの通常確率と比較した強さ
  • リフト値 > 1 で意味のあるルール
  • DS検定では 信頼度とリフト値の違いがよく問われる

【対応スキル項目(データサイエンス力シート)】

  • データ分析基礎
  • データの関係性理解
  • ★ データ間の関係性を分析する基本的な手法を理解している

認証と認可の違いとは?アクセス制御を一発で整理【DS検定】

  • Source: pages\ds\authentication-authorization.md
  • Permalink: /ds/authentication-authorization/

まず結論

  • 認証(Authentication)は「その人が誰なのかを確認すること」
  • 認可(Authorization)は「その人に何をしてよいかを決めること」

DS検定では、「本人確認」と「権限付与」を混同していないかを問う問題がよく出ます。


直感的な説明

会社のオフィスに入る場面を想像すると分かりやすいです。

  1. 受付で社員証を見せる
    その人が誰か確認する(認証)

  2. 社員証の種類によって入れる部屋が決まる
    どこまで入れるか決める(認可)

つまり

  • 認証:あなたは誰?
  • 認可:あなたは何ができる?

という役割の違いがあります。

この順番も重要で、

認証 → 認可

の順で処理されます。

本人確認ができていない状態では、権限を与えることができないためです。


定義・仕組み

認証(Authentication)

認証とは、

ユーザーが「本人であること」を確認する仕組み

です。

代表的な方法には次のものがあります。

  • IDとパスワード
  • ワンタイムパスワード
  • 指紋・顔認証などの生体認証
  • ICカード

つまり、

「あなたは誰ですか?」を確認する処理

です。


認可(Authorization)

認可とは、

認証されたユーザーに対して、どこまで操作を許可するかを決めること

です。

例えば次のような制御があります。

ユーザー できること
一般社員 データ閲覧のみ
マネージャー 閲覧 + 更新
管理者 閲覧 + 更新 + 削除

このように、

  • データ閲覧
  • データ更新
  • 機能利用

などのアクセス権限を管理する仕組みが認可です。


アクセス制御のレベル

DS検定では、アクセス権管理が複数のレベルで行われることも理解しておく必要があります。

代表的な例は次の3つです。

① OSレベル

  • ファイルの閲覧
  • 書き込み
  • 実行

などをユーザーごとに制御します。


Linuxのファイル権限など


② ネットワークレベル

ネットワーク機器でアクセス元を制御します。

  • ファイアウォール
  • VPN
  • IP制限

③ アプリケーションレベル

アプリケーション内部で権限を制御します。

  • 管理者だけ設定変更できる
  • 一般ユーザーは閲覧のみ

実際のシステムでは

OS / ネットワーク / アプリ

の複数の層でアクセス制御が行われます。


どんな場面で使う?

認証と認可は、ほぼすべての情報システムで使われています。

例えば次のような場面です。

社内データベース

  • 社員ログイン → 認証
  • 部署ごとに閲覧できるデータ制限 → 認可

クラウドサービス

  • Googleアカウントログイン → 認証
  • 編集者 / 閲覧者の権限設定 → 認可

社内システム

  • VPN接続時のログイン → 認証
  • システム管理画面の操作権限 → 認可

データサイエンスの実務でも

  • 顧客データ
  • 個人情報
  • 機密データ

を扱うため、

適切なアクセス制御は非常に重要です。


よくある誤解・混同

誤解①

認証=アクセス権管理

これは誤りです。

認証は

「誰か確認する」

だけです。

その後に

認可(アクセス権管理)

が行われます。


誤解②

ログイン=認可

これも誤りです。

ログインは

認証の一部

です。

ログイン後に

  • 閲覧権限
  • 編集権限
  • 管理権限

などが決まります。


DS検定の典型ひっかけ

DS検定では次のような形で出題されます。

例:

「ユーザーがデータベースにアクセスできるかを判断する仕組み」

ここで

  • 本人確認 → 認証
  • アクセス許可 → 認可

を正しく区別できるかが問われます。

選択肢では

  • 認証
  • 認可
  • 暗号化
  • アクセス制御

などが混ざることが多いので注意が必要です。


まとめ(試験直前用)

  • 認証:その人が誰か確認する
  • 認可:その人に何を許可するか決める
  • 順序は 認証 → 認可
  • アクセス制御は OS / ネットワーク / アプリの複数層で行われる
  • DS検定では 本人確認と権限管理の違いを問う問題がよく出る

【対応スキル項目(データエンジニアリング力シート)】

  • スキルカテゴリ名:ITセキュリティ
  • サブカテゴリ名:攻撃と防御手法

★ OS、ネットワーク、アプリケーション、データに対するユーザーごとのアクセスレベルを手順に従い設定できる


認証と認可の違いとは?一発で整理【DS検定リテラシー】

  • Source: pages\ds\authentication-vs-authorization.md
  • Permalink: /ds/authentication-vs-authorization/

まず結論

認証(Authentication)は「あなたは誰かを確認すること」、
認可(Authorization)は「あなたに何を許可するかを決めること」です。

DS検定では、この2つを明確に切り分けられるかがよく問われます。


直感的な説明

会社のオフィスをイメージしてください。

  • 受付で社員証を見せて本人確認 → 認証
  • 会議室に入れるかどうかを判断 → 認可

つまり、

認証=本人確認
認可=アクセス権の判断

順番も重要で、
認証 → 認可 の流れになります。


定義・仕組み

認証(Authentication)

  • ID・パスワード
  • 生体認証
  • ワンタイムパスワード

などを使い、

「その人が本人かどうか」を確認する仕組み。


認可(Authorization)

本人確認ができたあと、

「どのデータ・機能にアクセスできるか」を決める仕組み。

例:

  • 一般社員は閲覧のみ
  • 管理者は編集可能

OAuthはこの「認可」の仕組みです。


どんな場面で使う?

ビジネス現場での例

  • 社内システムのアクセス制御
  • クラウドサービスの権限設定
  • API利用制御

データ活用の文脈

データサイエンス業務では、

  • 誰がデータを見られるのか
  • 誰が編集できるのか

を明確に分けることが重要です。

セキュリティ設計やガバナンスの基礎知識として出題されやすいポイントです。


よくある誤解・混同

① OAuth=認証だと思ってしまう

DS検定では
「OAuthは認証の仕組みである」という選択肢が出やすいです。

→ 正しくは「認可の仕組み」です。


② ログイン=認可と考えてしまう

ログインは基本的に認証です。

その後に、 「この人はどの画面を見られるか」 が決まるのが認可です。


③ セキュリティ全般をごちゃ混ぜにする

  • 暗号化
  • 公開鍵
  • セッション管理

これらは技術要素であり、
認証・認可そのものではありません。


まとめ(試験直前用)

  • 認証=本人確認
  • 認可=アクセス許可
  • 順番は「認証 → 認可」
  • OAuthは認可の仕組み

迷ったら、

「これは“誰か”を確認しているのか?」
「それとも“何ができるか”を決めているのか?」

と考えると切り分けられます。


【対応スキル項目(AI利活用スキルシート)】

  • AI利活用基礎
  • AIを活用するための技術理解
  • ★ AIを活用したサービスの仕組みやリスクを理解している
  • ★ データの取り扱いに関するセキュリティや倫理的配慮の重要性を理解している

利用可能性ヒューリスティックとは?思い出しやすい情報で判断してしまう心理【DS検定】

  • Source: pages\ds\availability-heuristic.md
  • Permalink: /ds/availability-heuristic/

まず結論

  • 利用可能性ヒューリスティックとは、思い出しやすい情報をもとに物事の頻度や重要性を判断してしまう思考の傾向です。
  • DS検定では、実際のデータではなく「印象に残る出来事」によって判断してしまう人間の心理を理解しているかが問われます。

直感的な説明

例えば、ニュースで

  • 飛行機事故
  • 大きな地震
  • 有名人のトラブル

などが大きく報道されると、

「飛行機は危険なのでは?」 「最近は事故が多いのでは?」

と感じることがあります。

しかし実際には、

  • 飛行機は交通手段の中でも安全性が高い
  • 大きな事故の頻度はそれほど高くない

ことも多いです。

それでも危険に感じるのは、

印象に残る出来事が思い出しやすいから

です。

人は

思い出しやすい出来事 = よく起きる

と無意識に判断してしまいます。

これが 利用可能性ヒューリスティック です。


定義・仕組み

利用可能性ヒューリスティック(Availability Heuristic)とは、

思い出しやすい情報や印象に残っている出来事を基準に、物事の頻度や確率を判断してしまう思考の近道(ヒューリスティック)

のことです。

人間の脳は、すべての情報を正確に計算して判断しているわけではありません。

その代わりに、

  • 最近見た出来事
  • 印象の強いニュース
  • 強い感情を伴う体験

などを使って、素早く判断する仕組みを持っています。

この判断の近道が ヒューリスティック(heuristic) です。

日常生活では便利ですが、

  • データ分析
  • リスク評価
  • ビジネス判断

では 誤った判断の原因になることがあります。


どんな場面で使う?

リスクの判断

事故や災害などのニュースを多く見ると、

実際の確率よりも

「頻繁に起きている」

と感じることがあります。

これは利用可能性ヒューリスティックの典型例です。


ビジネス意思決定

例えば、

  • 最近ヒットした商品
  • 最近成功した企業

の事例だけを見て

「このビジネスは成功する」

と判断してしまうことがあります。

しかし実際には

  • 失敗事例
  • 市場データ
  • 長期トレンド

を確認する必要があります。


データ分析

データ分析の場面でも、

  • 最近のデータだけを重視する
  • 印象的な事例だけを見る

といった判断ミスが起きることがあります。

データサイエンスでは、

印象ではなくデータ全体を見ること

が重要になります。


よくある誤解・混同

① 認知バイアスとの関係

用語 意味
認知バイアス 思考の偏りの総称
利用可能性ヒューリスティック 認知バイアスの一種

つまり、

利用可能性ヒューリスティックは認知バイアスの具体例です。


② 確証バイアスとの違い

DS検定では、この2つを混同させる問題が出ることがあります。

用語 意味
確証バイアス 自分の考えを支持する情報だけ集める
利用可能性ヒューリスティック 思い出しやすい情報で判断する

選択肢では

  • 「印象に残る出来事」
  • 「思い出しやすい情報」

と書かれていたら 利用可能性ヒューリスティック の可能性が高いです。


③ アンカリング効果との違い

これもDS検定で混同されやすい概念です。

用語 意味
アンカリング効果 最初の情報に引きずられる
利用可能性ヒューリスティック 思い出しやすい情報に影響される

つまり、

  • 最初の情報 → アンカリング
  • 思い出しやすさ → 利用可能性ヒューリスティック

です。


まとめ(試験直前用)

  • 利用可能性ヒューリスティック = 思い出しやすい情報で判断してしまう心理
  • 印象に残る出来事ほど頻繁に起きるように感じる
  • ニュース・体験・最近の出来事に影響されやすい
  • DS検定では
    「印象に残る出来事を基準に判断する」
    という選択肢が出たらこの概念を疑う

覚え方:

思い出しやすい(Available)情報で判断してしまう


【対応スキル項目(ビジネス力シート)】

  • 問題解決力
  • 課題の構造化
  • ★ 課題を構造的に整理し、論理的に解決することができる

マクロ平均・マイクロ平均・重み付き平均の違いとは?【DS検定】

  • Source: pages\ds\average-methods-comparison.md
  • Permalink: /ds/average-methods-comparison/

まず結論

マクロ平均・マイクロ平均・重み付き平均とは、分類モデルの評価指標をどのように平均するかの違いです。
DS検定では「不均衡データのとき、どの平均を使うと何が見えるか」を判断させる問題が出ます。


直感的な説明

クラスAが100件、クラスBが10件あるとします。

モデルがAばかり当てて、Bをほとんど当てられなかった場合、

  • 全体では「よく当たっている」ように見える
  • でもBだけ見ると「ほぼ失敗している」

このズレをどう扱うかが、平均手法の違いです。


定義・仕組み

分類では、クラスごとに再現率などを計算できます。
その「クラスごとの値」をどうまとめるかがポイントです。

マクロ平均

  • 各クラスで指標を計算
  • 単純に平均する
  • クラス数で割るだけ

👉 データ数の多さは考慮しない


マイクロ平均

  • 全体をまとめて集計
  • 正解数や誤分類数を合算してから計算

👉 件数の多いクラスの影響が大きい


重み付き平均

  • 各クラスの指標に
  • そのクラスのデータ数を掛けて平均

👉 クラス割合を反映する


実際の計算例(再現率で比較)

次のような2クラス分類を考えます。

  予測A 予測B
実際A(100件) 90 10
実際B(10件) 8 2

① 各クラスの再現率

  • Aの再現率:90 / 100 = 0.9
  • Bの再現率:2 / 10 = 0.2

👉 少数派Bはほとんど当てられていない


② マクロ平均

(0.9 + 0.2) ÷ 2 = 0.55

👉 少数派Bの低さがしっかり反映される


③ マイクロ平均

全体の正解数は
90 + 2 = 92

全体のデータ数は
110

92 ÷ 110 ≒ 0.836

👉 Aが多いため、高く見える


④ 重み付き平均

(0.9 × 100 + 0.2 × 10) ÷ 110
= (90 + 2) ÷ 110
= 0.836

👉 今回はマイクロ平均と同じ値になる

※ ただし、常に同じになるわけではありません。


どんな場面で使う?

マクロ平均

  • 不均衡データ
  • 少数クラスも重要な場合
  • 医療・不正検知など

マイクロ平均

  • 全体性能を見たい場合
  • データ量が多く、全体精度が重要な場合

重み付き平均

  • 実際のクラス割合を反映した評価をしたい場合
  • ビジネス上の出現頻度が重要な場合

よくある誤解・混同

① 「精度が高い=良いモデル」

不均衡データでは誤り。

DS検定では
「精度が高いからバランスが良い」と書かれていたら注意。


② マクロ平均=全体平均

違います。

選択肢で
「全データをまとめて平均」とあれば、それはマイクロ平均。


③ 重み付き平均とマイクロ平均は常に同じ?

誤り。

2クラス・再現率では一致することがありますが、
常に同じになるわけではありません。


まとめ(試験直前用)

  • マクロ平均:各クラスを平等に扱う
  • マイクロ平均:全体をまとめて評価
  • 重み付き平均:件数で調整

不均衡データでは
「どの平均か?」を必ず確認する。

DS検定では
評価方法の選び方が問われる。


【対応スキル項目(データサイエンス力シート)】

  • データ理解
  • モデル評価
  • ★ モデルの評価指標を理解し、適切に解釈できる

バスケット分析とは?(リフト値まで整理)【DS検定】

  • Source: pages\ds\basket-analysis.md
  • Permalink: /ds/basket-analysis/

まず結論

バスケット分析とは、「一緒に買われやすい商品」を確率で分析する手法です。
DS検定では「支持度・信頼度・リフト値の意味を理解し、どの関係が強いかを判断できるか」が問われます。


直感的な説明

スーパーやECサイトで、

  • 「この商品を買った人は、こちらも買っています」
  • 「Aを買った人の50%がBも買っている」

と表示されることがありますよね。

これは偶然ではなく、購買履歴データから“同時に買われる傾向”を分析しているのです。

重要なのは、

  • ただ「一緒に買われた回数が多い」だけでは不十分
  • もともと人気商品なら当然多くなる

という点です。

そこで使われるのが:

  • 支持度(Support)
  • 信頼度(Confidence)
  • リフト値(Lift)

です。

DS検定では、
「どの指標が“本当に関係が強い”ことを示すか?」
という判断問題がよく出ます。


定義・仕組み

ある商品Aと商品Bがあるとします。

① 支持度(Support)

AとBが同時に買われる割合

\[P(A∩B)\]

意味:
「全体の中で、AとBが一緒に出現した割合」

→ どれくらい“頻繁に”出てくるかを見る指標


② 信頼度(Confidence)

Aを買った人のうち、Bも買った割合

\[P(B|A) = P(A∩B) ÷ P(A)\]

意味:
「Aが起きたとき、Bがどれくらい起きやすいか」

→ 条件付き確率

DS検定では
信頼度=条件付き確率 と理解しておけばOKです。


③ リフト値(Lift)

\[Lift = P(B|A) ÷ P(B)\]

意味:
「Aがあることで、Bがどれだけ“増えているか”」

  • Lift = 1 → 無関係
  • Lift > 1 → 正の関係(AがあるとBが増える)
  • Lift < 1 → 負の関係

これが最重要です。

DS検定では
「本当に関連が強いのはどれか?」という問いでリフトを見る
というパターンが頻出です。


どんな場面で使う?

✔ 使う場面

  • 小売の購買履歴分析
  • ECのレコメンド
  • クロスセル施策
  • セット販売戦略

✔ ビジネス上の意味

  • 商品配置の最適化
  • 同時購入キャンペーン
  • 在庫戦略

単なる統計問題ではなく、
売上向上のための分析手法 です。


よくある誤解・混同

❌ 支持度が高い=関係が強い

違います。

支持度が高いのは「よく売れている」だけかもしれません。


❌ 信頼度が高い=因果関係がある

違います。

Aが原因でBが起きたとは言えません。

DS検定では
「相関と因果を混同させる」問題がよく出ます。


❌ リフト値を見ない

選択肢で

  • 「最も関連が強い組み合わせはどれか」

と問われたら、リフト値を見る

支持度や信頼度だけで判断しないこと。


まとめ(試験直前用)

  • バスケット分析=同時購入の関係を見る手法
  • 支持度=同時出現の割合
  • 信頼度=条件付き確率
  • リフト値=本当に関連が強いかを示す指標
  • DS検定では「どの指標で判断するか」が問われる

迷ったら:

“関連の強さ”ならリフト値


対応スキル項目(データサイエンス力シート)

  • 数理・統計基礎力
  • 確率・統計基礎
  • ★ 確率・統計の基礎概念を理解し、ビジネス課題に適用できる

バッチ処理とストリーム処理の違いとは?【DS検定リテラシー】

  • Source: pages\ds\batch-vs-stream.md
  • Permalink: /ds/batch-vs-stream/

まず結論

バッチ処理は「まとめて後で処理する方式」、ストリーム処理は「発生と同時に処理する方式」です。
DS検定では「リアルタイム性が必要かどうか」で判断させる問題が出ます。


直感的な説明

バッチ処理

1日分の売上を夜にまとめて集計する。

→ 遅れてもいい。まとめて処理。


ストリーム処理

クレジットカードの不正検知をその場で判断する。

→ 今すぐ判定が必要。

この「今すぐか、後でいいか」が最大の違いです。


定義・仕組み

バッチ処理

  • 一定期間データを蓄積
  • まとめて処理
  • 定期実行(例:毎日深夜)

特徴:

  • 安定
  • 大量処理に向く
  • 即時性は低い

ストリーム処理

  • データが発生するたびに処理
  • リアルタイム処理
  • 連続的に実行

特徴:

  • 即時性が高い
  • 不正検知やアラートに向く
  • システム設計が複雑になりやすい

どんな場面で使う?

バッチ処理が向く場面

  • 売上集計
  • 月次レポート
  • ログ分析

「今すぐでなくてよい」処理。


ストリーム処理が向く場面

  • 不正検知
  • IoT異常検知
  • リアルタイム広告配信
  • 株価監視

「遅れると意味がない」処理。

DS検定では
「リアルタイム性」「即時検知」と書いてあればストリーム処理です。


よくある誤解・混同

① ストリーム処理=高速処理?

高速というより「即時性」がポイントです。
大量一括処理ならバッチのほうが効率的な場合もあります。


② バッチ処理=古い?

現在も広く使われています。
用途が違うだけです。


③ Sparkはストリーム専用?

Sparkはバッチもストリームも対応できます。
ここもDS検定で混同させやすいポイントです。


まとめ(試験直前用)

  • バッチ=まとめて後で処理
  • ストリーム=発生と同時に処理
  • 即時性が必要 → ストリーム
  • 大量一括処理 → バッチ
  • 「リアルタイム」「不正検知」→ ストリーム

【対応スキル項目(データエンジニアリング力シート)】

  • データ基盤
  • データ処理方式
  • ★ データ処理方式(バッチ処理・ストリーム処理)の違いを理解している
  • ★ リアルタイム処理の必要性を判断できる

ベイズの定理とは?(条件付き確率の逆算)【DS検定リテラシー】

  • Source: pages\ds\bayes-theorem.md
  • Permalink: /ds/bayes-theorem/

まず結論

  • ベイズの定理とは「結果から原因の確率を逆算する」ための公式です。
  • DS検定では「条件付き確率の向きを正しく判断できるか」を問われます。

「P(A|B) と P(B|A) を混同していないか」が最大のチェックポイントです。


直感的な説明

例えば、次のような場面を考えます。

  • ある病気の検査で「陽性」と出た
  • 本当に病気である確率はどれくらいか?

多くの人は
「検査が当たる確率が高いなら、ほぼ病気だろう」と考えがちです。

しかし実際に知りたいのは

  • 陽性が出たときに病気である確率

これは

  • 病気の人に陽性が出る確率
    とは別物です。

ここで使うのがベイズの定理です。


定義・仕組み

① 条件付き確率の基本

まず基本式です。

\[P(A|B) = \frac{P(A ∩ B)}{P(B)}\]

意味は、

  • Bが起きたという条件のもとで
  • Aも同時に起きている割合

です。


② 乗法の定理

上の式を変形すると

\[P(A ∩ B) = P(B)P(A|B)\]

これを 乗法の定理 と呼びます。

「同時に起こる確率」は
「先にBが起きる × その後Aが起きる」と考えられる、という意味です。


③ ベイズの定理の導出

同時確率は順番を変えても同じなので、

\[P(A ∩ B) = P(A)P(B|A)\]

これと乗法の定理を組み合わせると、

\[P(B)P(A|B) = P(A)P(B|A)\]

これを整理すると

\[P(A|B) = \frac{P(B|A)P(A)}{P(B)}\]

これが ベイズの定理 です。


④ 式の意味(ここが重要)

  • P(A) → もともとの確率(事前確率)
  • P(B|A) → AのときBが起こる確率
  • P(A|B) → Bが起きたあとにAである確率(更新後)

つまり、

新しい情報Bを得たことで、Aの確率を更新する

という考え方です。

DS検定では、式そのものより
「確率を更新する」という意味を理解しているか が重要です。


どんな場面で使う?

使う場面

  • 医療検査の信頼性評価
  • スパムメール判定
  • 故障診断
  • 異常検知
  • リスク評価

ビジネスでは

  • 「新しい情報を得たときに判断を更新する」

という意思決定の考え方として使われます。


注意すべき場面

  • 事前確率が極端に小さい場合
  • 母集団の割合を無視している場合

DS検定では

「検査精度が高い=本当にその状態である確率も高い」

という思い込みを狙ってきます。


よくある誤解・混同

① P(A|B) と P(B|A) の混同

DS検定ではここが最頻出です。

  • P(B|A):原因があるときに結果が出る確率
  • P(A|B):結果が出たときに原因である確率

向きが逆です。

選択肢で
「陽性のとき病気である確率」と
「病気のとき陽性になる確率」
が入れ替わっていたら要注意です。


② 乗法の定理との混同

  • 乗法の定理 → 同時確率を表す
  • ベイズの定理 → 条件を逆にする

役割が違います。


③ 事前確率を無視する誤り

母集団にほとんど存在しない事象は
検査が高精度でも確率は低くなります。

これを「ベースレートの無視」と呼びます。


まとめ(試験直前用)

  • ベイズの定理は「結果から原因を逆算する」公式
  • P(A|B) と P(B|A) を絶対に混同しない
  • 事前確率を必ず考慮する
  • 乗法の定理は同時確率を表す式

DS検定では
「向き」「更新」「事前確率」
この3点を意識すれば選択肢を切れます。


対応スキル項目

【対応スキル項目(データサイエンス力シート)】

  • 数理・統計基礎
  • 確率
  • ★ 条件付き確率やベイズの定理を理解している

BCP(事業継続計画)とは?災害時でも業務を止めない仕組み【DS検定】

  • Source: pages\ds\bcp.md
  • Permalink: /ds/bcp/

まず結論

BCP(Business Continuity Plan:事業継続計画)とは、災害・事故・システム障害などの非常事態が起きても、企業の重要な業務を継続または早期復旧させるための計画です。

DS検定では、企業がリスクに備えて業務停止を最小化する仕組みを理解しているかが問われます。


直感的な説明

企業の活動は、さまざまな要因によって突然止まる可能性があります。

例えば次のような状況です。

地震や台風などの自然災害

サイバー攻撃

大規模システム障害

パンデミック

もし企業が何の準備もしていなければ

サービス停止

売上の大幅減少

顧客離れ

といった問題が起きます。

そこで企業では

「もし業務が止まったらどう対応するか」

を事前に決めておきます。

これが BCP(事業継続計画) です。


定義・仕組み

BCP(Business Continuity Plan)とは

企業が非常事態でも重要な事業を継続できるようにするための計画

です。

主な目的は次の通りです。

重要業務の継続

早期復旧

被害の最小化

一般的なBCPでは次のような内容を決めておきます。

優先して復旧する業務

代替システム

代替拠点

緊急連絡体制

つまり

災害・事故 ↓ 業務停止 ↓ BCPに基づき復旧

という流れで対応します。


どんな場面で使う?

BCPは次のような場面で重要になります。

自然災害

地震

台風

洪水

IT障害

データセンター停止

クラウド障害

セキュリティ

サイバー攻撃

ランサムウェア

社会的リスク

パンデミック

大規模停電

DS検定では

企業が非常事態でも事業を継続する仕組み

として理解することが重要です。


よくある誤解・混同

混同①:リスクマネジメント

リスクマネジメントは

リスクを特定し、発生確率や影響を管理する活動

です。

一方BCPは

実際に業務が止まった場合の復旧計画

です。


混同②:インシデント管理

インシデント管理は

発生した問題への対応プロセス

です。

BCPは

重大な業務停止への備え

になります。


混同③:IT部門だけの計画

BCPは

IT

業務

経営

すべての部門に関係します。

そのため

企業全体の計画として作られます。


まとめ(試験直前用)

BCP=事業継続計画(Business Continuity Plan)

災害・事故・システム障害に備える

目的:業務継続・早期復旧・被害最小化

リスクマネジメントは 事前管理

BCPは 業務停止時の復旧計画

DS検定では

企業が非常事態でも事業を継続する仕組み

として理解しておくことが重要です。


【対応スキル項目(ビジネス力シート)】

スキルカテゴリ:活動マネジメント

サブカテゴリ:リスクマネジメント

★ 担当するタスクの遅延や障害などを発見した場合、迅速かつ適切に報告ができる


ベルヌーイ試行と二項分布とは?【DS検定リテラシー】

  • Source: pages\ds\bernoulli-binomial.md
  • Permalink: /ds/bernoulli-binomial/

まず結論

ベルヌーイ試行とは「成功か失敗かの2択しかない試行」のこと、
二項分布とは「それを何回か繰り返したときに成功が何回起こるか」を表す分布です。

DS検定では、「これは二項分布で考える問題かどうか」を判断できるかが問われます。


直感的な説明

コイン投げをイメージしてください。

  • 表が出る(成功)
  • 裏が出る(失敗)

結果は必ずどちらかです。

これを1回やるのが「ベルヌーイ試行」。
これを10回やって「表が何回出たか?」を考えるのが「二項分布」です。

ビジネスでも同じです。

  • メールを送ったら「開封された/されない」
  • 広告を出したら「クリックされた/されない」
  • 検査で「不良/正常」

このような「YESかNOか」の世界がベルヌーイ試行です。


定義・仕組み

■ ベルヌーイ試行

  • 結果は2つだけ(成功/失敗)
  • 成功する確率は一定(p)
  • 各試行は互いに影響しない(独立)

成功を1、失敗を0とした確率変数を考えます。

成功確率が p のとき、 失敗確率は 1−p になります。


■ 二項分布

ベルヌーイ試行を n 回行ったとき、
成功回数 X が従う分布が「二項分布」です。

確率は次の式で表されます。

\[P(X=x) = \binom{n}{x} p^x (1-p)^{n-x}\]

式の意味だけ理解しましょう。

  • (\binom{n}{x}):成功がx回起こる「並び方の数」
  • (p^x):成功がx回起こる確率
  • ((1-p)^{n-x}):失敗が残り回起こる確率

つまり、

「成功がx回起こるパターン全部を足し合わせたもの」

が二項分布です。

DS検定では式を展開させるよりも、
「なぜこの形になるのか」が理解できているかが重要です。


どんな場面で使う?

使うべき場面

  • 結果が2択
  • 試行回数が固定
  • 成功確率が一定
  • 各試行が独立

例:

  • 100人にDMを送ったときの成約人数
  • 50個中の不良品数
  • アンケートで「賛成」と答えた人数

使えない場面

  • 成功確率が毎回変わる
  • 試行回数が決まっていない
  • 成功か失敗かの2択でない

ここが試験での判断ポイントです。


よくある誤解・混同

❌ 「2択なら全部二項分布」

→ 試行回数が1回なら、それはベルヌーイ分布です。

❌ 「成功確率が変わっても二項分布」

→ 成功確率が一定であることが条件です。

❌ 「ポアソン分布との混同」

DS検定ではよく

  • 二項分布
  • ポアソン分布

を混同させてきます。

判断基準:

  • 回数が固定 → 二項分布
  • 時間内に何回起きるか → ポアソン分布

選択肢で 「一定時間内の発生回数」と書いてあれば注意です。


まとめ(試験直前用)

  • ベルヌーイ試行=成功/失敗の2択
  • 二項分布=それをn回繰り返した成功回数
  • 成功確率は一定・試行は独立が条件
  • 試行回数が固定かどうかで判断する
  • ポアソン分布との違いに注意

DS検定では「これは二項分布で考える問題か?」を見抜ければ勝ちです。


【対応スキル項目(データサイエンス力シート)】

  • 数理・統計基礎力
  • 確率分布の理解
  • ★ 代表的な確率分布(正規分布、二項分布、ポアソン分布など)の特徴を理解している

BIツール操作チートシート|スライス・ダイス・ドリルダウンの違い【DS検定】

  • Source: pages\ds\bi-operations-cheatsheet.md
  • Permalink: /ds/bi-operations-cheatsheet/

まず結論

BIツールの代表的な操作は次の7つに整理できます。

操作 本質
フィルター 条件でデータを絞る
スライス 1つの条件でデータを切る
ダイス 複数条件でデータを切る
ドリルダウン 集計 → 詳細へ
ドリルアップ 詳細 → 集計へ
ドリルスルー 別の詳細レポートへ移動
ピボット 行と列の軸を入れ替える

DS検定では
これらの違いを理解して選択肢を切れるかが重要になります。


直感的な説明

BIツールでは、大量のデータを分析するために

  • データを絞る
  • データの切り方を変える
  • データの粒度を変える
  • 表の見方を変える

といった操作を行います。

例えば売上分析では

  • 東京の売上だけ見る
  • 年別売上から月別売上を見る
  • 売上表の行と列を入れ替える

といった操作を行います。

これらをまとめたものが
BIツール操作です。


定義・仕組み

BIツールの操作は大きく4種類に分類できます。

① 条件でデータを絞る操作

操作 内容
フィルター 条件でデータを絞る

地域 = 東京


② データを切り出す操作

操作 内容
スライス 1つの条件で切る
ダイス 複数条件で切る

スライス
→ 地域 = 東京

ダイス
→ 地域 = 東京 AND 年 = 2024


③ データの粒度を変える操作

操作 内容
ドリルダウン 集計 → 詳細
ドリルアップ 詳細 → 集計

年別売上

月別売上


④ レポートの見方を変える操作

操作 内容
ピボット 行と列の軸を入れ替える

地域 × 商品

のクロス集計を作る。


⑤ 別の詳細レポートへ移動

操作 内容
ドリルスルー 詳細レポートへ移動

地域別売上

東京の店舗売上ページ


どんな場面で使う?

BIツールでは次のような分析の流れで使われます。

① データを絞る

フィルター


② データを切り出す

スライス
ダイス


③ 詳細を調べる

ドリルダウン


④ 全体の傾向を見る

ドリルアップ


⑤ 表の見方を変える

ピボット


⑥ 詳細ページへ移動

ドリルスルー


よくある誤解・混同

DS検定では次の3つが特に混同されます。


ドリルダウン vs ドリルスルー

操作 意味
ドリルダウン 同じレポート内で詳細へ
ドリルスルー 別のレポートへ移動

スライス vs ダイス

操作 意味
スライス 1つの条件
ダイス 複数条件

フィルター vs スライス

操作 意味
フィルター 表示データを絞る
スライス 多次元データの断面

DS検定では

粒度を変えているのか
条件でデータを切っているのか
表の見方を変えているのか

を判断することが重要です。


まとめ(試験直前用)

BIツール操作は次の3つで判断すると理解しやすくなります。

① 条件でデータを絞る

フィルター


② データを切る

スライス
ダイス


③ 粒度を変える

ドリルダウン
ドリルアップ


④ 表の見方を変える

ピボット


⑤ 別レポートへ移動

ドリルスルー

DS検定では

「粒度」
「条件」
「視点」

の違いで選択肢を切ることがポイントです。


【対応スキル項目(データサイエンス力シート)】

  • データ理解・可視化
  • データ可視化

★ データの特徴を理解し、適切な可視化手法を選択できる


BIツールの基本機能とは?OLAP・データマイニングを整理【DS検定】

  • Source: pages\ds\bi-tool-functions.md
  • Permalink: /ds/bi-tool-functions/

まず結論

  • BIツール(Business Intelligence Tool)とは、企業に蓄積されたデータを分析し、意思決定を支援するツールです。
  • 主な機能は レポーティング、OLAP分析、データマイニング、プランニング の4つです。

DS検定では
「BIツールの機能」と「OLAP操作(スライス・ダイスなど)」の関係を理解しているかが問われます。


直感的な説明

企業には多くのデータがあります。

例えば

  • 売上データ
  • 顧客データ
  • 商品データ
  • 地域別販売データ

これらのデータをそのまま見ても、重要な傾向はなかなか分かりません。

そこでBIツールを使うと

  • グラフやダッシュボードで可視化する
  • データをさまざまな角度から分析する
  • 将来の売上をシミュレーションする

といったことができます。

つまりBIツールは

「企業データを見える化して意思決定を助けるツール」

と考えると理解しやすいです。


定義・仕組み

BIツールには一般的に次のような基本機能があります。

機能 内容
レポーティング 分析結果をグラフや表として可視化し、ダッシュボードとして表示する
OLAP分析 多次元データをさまざまな角度から分析する
データマイニング 蓄積データからビジネス上の有用なパターンや規則を発見する
プランニング 過去データをもとに将来予測やシミュレーションを行う

特にDS検定では
OLAP分析が重要なテーマです。

OLAPでは次のような操作が行われます。

  • スライス
  • ダイス
  • ドリルダウン
  • ドリルアップ
  • ピボット

これらは 多次元データをさまざまな視点から分析する操作です。


どんな場面で使う?

BIツールは企業の意思決定を支援する場面で使われます。

例えば

経営ダッシュボード

  • 売上推移
  • 利益率
  • KPI

を一目で確認できるようにする


売上分析

  • 商品別売上
  • 地域別売上
  • 月別売上

などを分析する


マーケティング分析

  • 顧客の購買傾向
  • 人気商品の傾向
  • キャンペーン効果

などを分析する


よくある誤解・混同

BIツール ≠ AI

BIツールは

データの可視化や分析を支援するツール

です。

AIのように

  • 自動で学習する
  • モデルを作る

わけではありません。


BIツール ≠ 機械学習

BIツールのデータ分析は

  • 集計
  • 可視化
  • 多次元分析

が中心です。

一方、機械学習は

  • 予測モデル
  • 分類モデル

などを作ります。


DS検定のひっかけ

DS検定では

  • BI
  • OLAP
  • データマイニング

を混同させる問題が出ることがあります。

整理すると

用語 役割
BI データ分析による意思決定支援
OLAP 多次元データ分析
データマイニング データから規則やパターンを発見

まとめ(試験直前用)

  • BIツール=企業データを分析して意思決定を支援するツール
  • 主な機能は
    • レポーティング
    • OLAP分析
    • データマイニング
    • プランニング
  • DS検定では OLAP操作(スライス・ダイスなど)との関係を理解しておくことが重要
  • BI=可視化・分析支援、AI=学習・予測と区別する

【対応スキル項目(ビジネス力シート)】

  • データ利活用
  • データ分析の活用

★ データ分析結果をビジネスの意思決定に活用することができる


バイアス・バリアンスのトレードオフとは?過学習との関係【DS検定】

  • Source: pages\ds\bias-variance-tradeoff.md
  • Permalink: /ds/bias-variance-tradeoff/

まず結論

バイアス・バリアンスのトレードオフとは、モデルを複雑にするとバイアスは下がるがバリアンスが上がる、という関係のことです。
DS検定では、「過学習と未学習(アンダーフィット)の違い」を説明できるかが問われます。


直感的な説明

モデルを「ルールの細かさ」と考えてみましょう。

ルールがざっくり(単純すぎる)

  • データの傾向をうまく表せない
  • どのデータでも同じような予測をする → これは バイアスが大きい状態

ルールが細かすぎる

  • 学習データには完璧に合う
  • 新しいデータではブレやすい → これは バリアンスが大きい状態

つまり、

単純すぎてもダメ
複雑すぎてもダメ

このバランスを取る必要があります。


定義・仕組み

バイアス(Bias)

モデルの「思い込みの強さ」

単純なモデルほど、 本来の関係をうまく表せません。

→ アンダーフィットにつながる


バリアンス(Variance)

データの変化に対する「敏感さ」

複雑なモデルほど、 データのわずかな違いに影響されやすくなります。

→ 過学習につながる


トレードオフとは?

モデルを複雑にすると:

  • バイアス ↓
  • バリアンス ↑

モデルを単純にすると:

  • バイアス ↑
  • バリアンス ↓

この逆方向の関係が「トレードオフ」です。


どんな場面で使う?

① 決定木の深さ調整

  • 浅い木 → 高バイアス
  • 深い木 → 高バリアンス

前回の「過学習と分岐の深さ」の話は、
まさにこの理論です。


② 正則化の理解

  • 正則化を強くする → モデルを単純化 → バイアス増、バリアンス減
  • 正則化を弱くする → 複雑化 → バイアス減、バリアンス増

DS検定ではここが狙われます。


よくある誤解・混同

❌ バイアスが小さいほど良い

→ 小さすぎるとバリアンスが大きくなる可能性があります。


❌ バリアンスは分散のこと

→ 数学的な分散とは違い、 「予測のブレやすさ」という意味です。


❌ トレードオフは決定木だけの話

→ すべての機械学習モデルに共通する概念です。


❌ 過学習 = バイアスが大きい

→ 過学習は バリアンスが大きい状態 です。

ここはよく出題されます。


まとめ(試験直前用)

  • バイアス = モデルの単純さによる誤差
  • バリアンス = データ変動への敏感さ
  • 単純すぎる → 高バイアス(未学習)
  • 複雑すぎる → 高バリアンス(過学習)
  • 両者は逆方向に動く(トレードオフ)

対応スキル項目(AI利活用スキルシート)

  • AIの理解
  • 機械学習の基本理解
  • ★ 機械学習モデルの基本的な仕組みを理解している

箱ひげ図とは?四分位数と外れ値の読み取り方【DS検定】

  • Source: pages\ds\boxplot.md
  • Permalink: /ds/boxplot/

まず結論

  • 箱ひげ図とは、データの「ばらつき」と「外れ値」を四分位数で表現する可視化手法です。
  • DS検定では「平均ではなく分布の形を読む力」が問われます。

直感的な説明

例えば、ある店舗の1日の売上を比べるとき、

  • 平均売上だけでは実態が見えない
  • ばらつきが大きいのか小さいのかも重要

という場面があります。

箱ひげ図は、

  • 真ん中の値(中央値)
  • どれくらい散らばっているか
  • 極端に大きい値や小さい値があるか

を一目で見せてくれるグラフです。

ビジネスでは
「安定している店舗か?」「一部の日だけ突出しているのか?」
といった判断に役立ちます。


定義・仕組み

箱ひげ図は、次の5つの値で構成されます。

  1. 最小値
  2. 第一四分位数(Q1)
  3. 第二四分位数(Q2:中央値)
  4. 第三四分位数(Q3)
  5. 最大値

四分位数とは?

データを小さい順に並べて、4等分したときの区切りの値です。

  • Q1:下から25%の位置
  • Q2:真ん中(中央値)
  • Q3:下から75%の位置

四分位範囲(IQR)

IQR = Q3 − Q1

データの真ん中50%がどれくらい広がっているかを示します。

外れ値の決め方(重要)

DS検定でよく問われるのがここです。

外れ値は、次の範囲を超えた値です。

  • 上限:Q3 + 1.5 × IQR
  • 下限:Q1 − 1.5 × IQR

この範囲から外れたデータを「外れ値」とします。

DS検定では
「最大値=ひげの端」とは限らない
という点が重要です。


どんな場面で使う?

使う場面

  • グループ間のばらつきを比較したいとき
  • 外れ値の有無を確認したいとき
  • 分布の偏りをざっくり把握したいとき

例:

  • 部署別の売上分布比較
  • 商品ごとの価格ばらつき
  • センサー値の異常検知前の確認

向いていない場面

  • 正確な平均値を知りたいとき
  • 分布の細かい形(山の数など)を見たいとき

よくある誤解・混同

❌ 平均を表すグラフである

→ 箱ひげ図は中央値が中心です。

❌ 最大値・最小値が必ずひげの端

→ 外れ値がある場合、ひげは
 「Q3+1.5×IQR以内の最大値」までです。

❌ 外れ値=異常値

→ 外れ値は「統計的に離れている値」であって、
 必ずしも間違いとは限りません。

DS検定では
「外れ値はQ3+1.5×IQRを超えた値」と書かれていれば正解
「最大値を外れ値とする」と書かれていたら誤り
という判断が必要です。

❌ 箱ひげ図の中心は平均

→ 中央値(Q2)です


まとめ(試験直前用)

  • 箱ひげ図は「分布のばらつき」を見るグラフ
  • 中心は平均ではなく中央値
  • IQR=Q3−Q1
  • 外れ値は Q3+1.5×IQR を超える値
  • ひげ=最大値とは限らない

「四分位数」「IQR」「外れ値の定義」
この3点を押さえれば、選択肢は切れます。


【対応スキル項目(データサイエンス力シート)】

  • データ理解
  • データの可視化
  • ★ データの分布やばらつきを適切に把握できる

ビジネスにおける「論理とデータの重要性」とは?【DS検定リテラシー】

  • Source: pages\ds\business-logic-and-data-importance.md
  • Permalink: /ds/business-logic-and-data-importance/

まず結論

  • ビジネスにおける「論理とデータの重要性」とは、経験や感覚ではなく、筋道(論理)と根拠(データ)で意思決定する姿勢のことです。
  • DS検定では、「データドリブンとは何か」「なぜデータが必要か」を判断させる問題として問われることが多いです。

直感的な説明

たとえば、売上が下がったときに、

  • 「なんとなく景気が悪いからだろう」
  • 「たぶん競合が増えたからだ」

と考えるのは“感覚”です。

一方で、

  • 本当に売上は下がっているのか?(前年比・月次推移)
  • どの商品が落ちているのか?
  • どの顧客層で減っているのか?

と順番に整理し、数字で確認するのが「論理とデータ」です。

ビジネスでは、
誰かを納得させるためにも、再現性のある判断をするためにも、論理とデータが不可欠です。


定義・仕組み

論理とは何か

論理とは、
「なぜそう言えるのか」を筋道立てて説明できることです。

  • 結論
  • 根拠
  • そのつながり

が一貫している状態を指します。

データとは何か

データとは、
事実を数値や記録として客観的に示したものです。

ビジネスにおいては、

  • 売上
  • 顧客数
  • 解約率
  • 在庫回転率

などが代表例です。

なぜ両方が必要なのか

  • データだけでは「数字の羅列」になる
  • 論理だけでは「思い込み」になる

論理で整理し、データで裏付ける
この組み合わせが重要です。

DS検定では、
「データを使っているから正しい」とは限らない点に注意が必要です。
論理が破綻していれば誤りになります。


どんな場面で使う?

使うべき場面

  • 施策の効果検証
  • 原因分析
  • 経営判断の説明
  • 上司や顧客への報告

特にDS検定では、
「データドリブン経営」「EBPM(証拠に基づく政策立案)」の文脈で問われることがあります。

誤解しやすい場面

  • データが多い=正しい
  • グラフがある=客観的
  • AIが出した結果=正解

これらは誤りです。

論理構造が正しいかどうかが最優先です。


よくある誤解・混同

① データドリブン=データだけで決める

これは誤りです。

正しくは、
データを根拠に、論理的に意思決定することです。

② 経験や勘はすべて否定される

これも誤りです。

経験は「仮説」を立てる材料になります。
ただし、仮説はデータで検証する必要があるという考え方です。

③ 相関がある=原因である

DS検定では、
「データが示している=因果関係がある」と誤解させる選択肢がよく出ます。

選択肢では
「データが示しているため、原因であると断定できる」と書かれていたら注意です。


まとめ(試験直前用)

  • 論理=筋道、データ=根拠
  • データだけでは不十分、論理だけでも不十分
  • 仮説 → データで検証が基本
  • 相関と因果を混同しない
  • 「数字があるから正しい」という選択肢は疑う

対応スキル項目(ビジネス力シート)

  • 行動規範
  • ビジネスマインド
  • ★ ビジネスにおける「論理とデータの重要性」を認識し、分析的でデータドリブンな考え方に基づき行動できる

CAP定理とは?分散システムの基本原則【DS検定】

  • Source: pages\ds\cap-theorem.md
  • Permalink: /ds/cap-theorem/

まず結論

CAP定理とは、分散システムでは「一貫性(Consistency)」「可用性(Availability)」「分断耐性(Partition tolerance)」の3つを同時に完全には満たせないという原則です。

DS検定では
分散データベース(特にNoSQL)の設計思想を理解しているかを問う問題として出題されます。

試験では
「3つすべてを同時に満たせる」とする選択肢が典型的な誤りです。


直感的な説明

CAP定理を理解するには
分散システムをイメージすると分かりやすいです。

例えば

  • 世界中にサーバーがあるSNS
  • 大規模ECサイト
  • クラウドサービス

このようなシステムでは

複数のサーバーに
同じデータを分散して保存しています。

しかし問題があります。

サーバー間の通信が途切れると

  • データの整合性を優先するか
  • サービスを止めないことを優先するか

どちらかを選ばなければならない 場面が出てきます。

このトレードオフを説明したものが
CAP定理です。


定義・仕組み

CAP定理の3要素は次の通りです。

要素 意味
Consistency(一貫性) どのサーバーからデータを読んでも同じ結果になる
Availability(可用性) システムが常にリクエストに応答できる
Partition tolerance(分断耐性) サーバー間通信が分断されてもシステムが動作する

重要なポイントは

この3つを同時に完全には満たせない

ということです。

そのため分散システムでは

次のどれかの設計になります。

タイプ 特徴
CP 一貫性と分断耐性を優先
AP 可用性と分断耐性を優先
CA 一貫性と可用性を優先(分断がない前提)

特にNoSQLでは

AP型やCP型の設計

がよく使われます。


どんな場面で使う?

CAP定理は
分散データベース設計の考え方として使われます。

例えば

金融システム

優先

Consistency

理由

銀行残高がズレると重大な問題になるため


SNS

優先

Availability

理由

多少データのズレがあっても
サービス停止の方が問題になるため


ビッグデータシステム

優先

Partition tolerance

理由

大規模分散環境では
ネットワーク分断が避けられないため


よくある誤解・混同

誤解①

CAP定理は3つを選べる

誤りです。

正しくは

3つを同時に完全には満たせない

という意味です。


誤解②

CAP定理はNoSQL専用の理論

これも誤りです。

CAP定理は

分散システム全体の原則

です。


誤解③

CA型のシステムは存在しない

厳密には

ネットワーク分断が起きない前提なら可能

ですが

大規模分散システムでは
Partition toleranceが必要になるため

実際は

  • CP
  • AP

の設計が多くなります。


DS検定の典型ひっかけ

DS検定では次のような選択肢が出やすいです。

❌ CAP定理では3つの特性を同時に満たせる

❌ CAP定理はNoSQLだけの理論

正しくは

✔ 3つを同時に完全には満たせない
✔ 分散システムの設計原則


まとめ(試験直前用)

  • CAP定理は 分散システムの基本原則
  • Consistency / Availability / Partition tolerance の3要素
  • 3つを同時に完全には満たせない
  • 分散DBは CP型かAP型を選択する
  • DS検定では CAPの意味とトレードオフが重要

対応スキル項目(データエンジニアリング力シート)

  • スキルカテゴリ名
    データ蓄積

  • サブカテゴリ名
    分散技術

  • ★ 分散処理の基本概念(CAP定理など)を理解し、データベースや分散システムの設計におけるトレードオフを説明できる


カテゴリ変数とは?数値データとの違いを整理【DS検定】

  • Source: pages\ds\categorical-variable.md
  • Permalink: /ds/categorical-variable/

まず結論

カテゴリ変数とは、数値ではなく「分類(カテゴリー)」を表すデータです。

DS検定では、カテゴリ変数はそのままでは機械学習で扱えないためエンコーディングが必要という点が問われます。


直感的な説明

例えば次のようなデータがあります。

顧客 性別

A 男性 B 女性 C 男性

この「男性」「女性」は数値ではなく

グループ(分類)を表しています。

このように

性別

商品カテゴリ

都道府県

職業

などの 分類を表すデータを

カテゴリ変数(categorical variable)と呼びます。


定義・仕組み

カテゴリ変数とは、値が数値ではなくカテゴリ(分類)で表される変数です。

データは大きく次の2種類に分けられます。

データの種類 例

数値変数 年齢、売上、温度 カテゴリ変数 性別、地域、商品カテゴリ

数値変数は

計算できる

平均を求められる

という特徴があります。

一方でカテゴリ変数は

計算できない

大小の意味がない

という特徴があります。

そのため機械学習では

エンコーディングによって数値に変換する必要があります。


どんな場面で使う?

① データ分析

カテゴリ変数は次のような分析でよく使われます。

性別ごとの売上

地域ごとの利用率

商品カテゴリ別の人気

この場合

グループごとに比較する分析になります。


② 機械学習

機械学習では

商品カテゴリ

ユーザータイプ

地域

などが特徴量として使われます。

しかしモデルは文字を扱えないため

エンコーディングで数値化します。


よくある誤解・混同

① 数値データとの混同

例えば次のようなデータがあります。

満足度

1 2 3

この数字は

数量

大きさ

を表しているとは限りません。

例えば

1 = 低 2 = 中 3 = 高

のような カテゴリを表す番号 の場合もあります。

この場合は

数値に見えてもカテゴリ変数です。

DS検定ではここを混同させる問題がよく出ます。


② ラベルエンコーディングとの混同

ラベルエンコーディングは

カテゴリ変数を数値に変換する方法です。

つまり

カテゴリ変数 → エンコーディング → 数値データ

という関係になります。


③ 順序カテゴリとの違い

カテゴリ変数には次の2種類があります。

種類 例

名義尺度 性別、血液型 順序尺度 満足度、高・中・低

順序尺度は

順番の意味を持つカテゴリです。

DS検定では

順序があるかどうか

を問われることがあります。


まとめ(試験直前用)

カテゴリ変数 = 分類を表すデータ

性別

地域

商品カテゴリ

数値のように計算できない

機械学習では エンコーディングが必要

DS検定では

「分類データ」や「カテゴリデータ」

と書かれていたら

カテゴリ変数を思い出すと判断しやすくなります。


【対応スキル項目(データサイエンス力シート)】

データ理解・前処理

データ加工

★ データの前処理(欠損値処理、正規化、カテゴリ変数の処理など)を理解している


因果推論とは?相関との違いを整理【DS検定リテラシー】

  • Source: pages\ds\causal-inference.md
  • Permalink: /ds/causal-inference/

まず結論

因果推論とは、「ある要因が本当に結果を生み出しているのか」を見極めるための考え方です。

DS検定では、「相関がある=因果がある」と短絡しない判断力が問われます。


直感的な説明

売上が上がったときに、

「広告を出したから売上が伸びた」と言えるでしょうか?

実はそのとき、

  • 季節要因
  • 景気
  • 他部署のキャンペーン
    など、別の要因も影響しているかもしれません。

因果推論とは、 「本当に広告の効果だったのか?」を考えるための枠組みです。

ビジネスの意思決定では、 “理由を取り違える”ことが最大のリスクになります。


定義・仕組み

因果推論とは、

ある原因(処置)が結果にどの程度影響を与えたかを推定すること

です。

ここで重要な考え方が次の3つです。

① 処置群と対照群

  • 処置群:施策を受けたグループ
  • 対照群:施策を受けていないグループ

この2つを比較することで、 「施策の有無による差」を測ります。

② 交絡(こうらく)因子

原因と結果の両方に影響する第三の要因です。

例: 暑い日 → アイスが売れる
暑い日 → ビールも売れる

アイスとビールは相関があっても、 直接の因果関係とは限りません。

③ ランダム化比較試験(RCT)

処置群と対照群をランダムに割り当てる方法です。

ランダムに割り当てることで、 交絡因子の影響が両群に平均的に分散されます。

これにより、 「処置の効果だけ」を比較しやすくなります。

DS検定では、このランダム化の意味を理解しているかが重要です。


どんな場面で使う?

使う場面

  • マーケティング施策の効果測定
  • 医療や政策の効果検証
  • A/Bテスト

注意が必要な場面

  • 単純な前後比較(施策前 vs 施策後)
  • 観測データのみでの判断

「売上が上がった=施策が成功した」と結論づけるのは危険です。

DS検定では、 「外部環境の変化を排除できているか?」が判断基準になります。


よくある誤解・混同

❌ 相関がある=因果がある

→ 必ずしも成り立たない

❌ 前後比較をすれば因果が分かる

→ 他の要因を排除できない

❌ 対照群は不要

→ 効果を正しく測れない

DS検定では、

「ランダム化」「対照群」「交絡因子」

この3つを理解していない選択肢が誤りになります。

特に、 「観測データから因果関係を直接証明できる」といった表現は要注意です。


まとめ(試験直前用)

  • 因果推論は「本当にそれが原因か」を考える枠組み
  • 相関と因果は別物
  • 処置群と対照群の比較が基本
  • ランダム化は交絡を平均化するための仕組み
  • 前後比較だけでは因果は確定できない

DS検定では
「外部要因を排除できているか?」を常に確認する。


【対応スキル項目(データサイエンス力シート)】

  • 統計的思考
  • 因果関係の理解
  • ★ 相関関係と因果関係の違いを理解している

CCPAとは?GDPRとの違いとプライバシー保護の基本【DS検定】

  • Source: pages\ds\ccpa.md
  • Permalink: /ds/ccpa/

まず結論

  • CCPA(California Consumer Privacy Act)とは、アメリカ・カリフォルニア州の個人情報保護法です。
  • DS検定では 「GDPRとの違い」や「個人データの利用に対する消費者の権利」 が問われることが多いです。

つまり、

「企業は個人データをどう扱うべきか」
を定めた法律の一つです。


直感的な説明

例えば、あるECサイトが

  • 購入履歴
  • 閲覧履歴
  • 位置情報

などのデータを集めていたとします。

このとき消費者は、

  • 自分のデータを どんな目的で使っているのか知る権利
  • 削除してほしいと要求する権利
  • 第三者への販売を拒否する権利

を持っています。

CCPAは、こうした 消費者のプライバシー権利を守るための法律です。

DS検定では

「個人データを企業が自由に使えるわけではない」

という理解が重要です。


定義・仕組み

CCPA(California Consumer Privacy Act)

アメリカ・カリフォルニア州で制定された
消費者の個人情報保護に関する法律です。

2020年から施行されています。

主なポイントは次の通りです。

消費者の主な権利

① 知る権利(Right to Know)

企業が

  • どんな個人情報を
  • どんな目的で
  • 誰に共有しているか

を知ることができます。


② 削除する権利(Right to Delete)

企業が保有する
自分の個人情報の削除を要求できます。


③ 販売拒否の権利(Right to Opt-out)

企業が

個人データを第三者へ販売すること

を拒否できます。


④ 差別されない権利

データ利用を拒否したことを理由に

  • 料金を高くする
  • サービスを拒否する

などの差別をしてはいけません。


GDPRとの関係

CCPAはよく GDPRと比較される法律です。

項目 GDPR CCPA
地域 EU カリフォルニア州
対象 EU居住者のデータ カリフォルニア州消費者
主な目的 個人データ保護 消費者のプライバシー権利
企業義務 非常に厳格 比較的限定的

DS検定では

「GDPR → EU」
「CCPA → アメリカ(カリフォルニア)」

という整理が重要です。


どんな場面で使う?

CCPAは主に次のような場面に関係します。

データビジネス

企業が

  • ユーザーデータ
  • 行動履歴
  • 広告データ

を利用する場合です。

特に

  • 広告
  • EC
  • SNS
  • データ分析

では重要になります。


グローバルサービス

例えば

  • Webサービス
  • ECサイト
  • SaaS

などは、
カリフォルニア州のユーザーが利用する可能性があります。

その場合

アメリカ企業でなくても
CCPAの対象になる可能性があります。

DS検定では

「国をまたぐデータ利用」

という文脈で問われることがあります。


よくある誤解・混同

誤解①

CCPA = GDPR

これは誤りです。

GDPRは

EUの包括的な個人情報保護法

です。

一方CCPAは

カリフォルニア州の消費者プライバシー法

です。


誤解②

個人情報保護はEUだけの問題

これは誤りです。

現在は

  • GDPR(EU)
  • CCPA(アメリカ)
  • 改正個人情報保護法(日本)

など、

世界中で規制が強化されています。

DS検定では

「個人データ保護は世界的な流れ」

という理解が重要です。


誤解③

企業はデータを自由に使える

これも誤りです。

企業は

  • 利用目的
  • 同意
  • 開示

などを考慮する必要があります。

DS検定では

「データ活用とプライバシーのバランス」

が問われます。


まとめ(試験直前用)

  • CCPAはカリフォルニア州の個人情報保護法
  • 消費者には 知る権利・削除権・販売拒否権 がある
  • GDPRはEU、CCPAはアメリカ州法
  • DS検定では データ活用とプライバシー保護のバランス が重要

選択肢では

  • GDPR(EU)
  • CCPA(アメリカ)
  • 個人情報保護法(日本)

地域の違い を混同させてくることが多いので注意しましょう。


【対応スキル項目(ビジネス力シート)】

  • ビジネスにおけるデータ活用
  • 法律・倫理

★ 個人情報保護やプライバシー保護に関する法制度を理解している


グラフの種類と使い分け(可視化の基本)【DS検定】

  • Source: pages\ds\chart-types.md
  • Permalink: /ds/chart-types/

まず結論

  • グラフの種類とは、データの特徴に応じて適切な可視化方法を選ぶための手段です。
  • DS検定では「どのグラフが何を見るためのものか」を判断できるかがよく問われます。

直感的な説明

データを分析するとき、
数字の表だけでは特徴が分かりにくいことがあります。

例えば売上データを見るときでも、

  • 商品ごとの売上比較 → 棒グラフ
  • 月ごとの売上の変化 → 折れ線グラフ
  • 売上の構成割合 → 円グラフ
  • 2つのデータの関係 → 散布図

のように、目的によってグラフを変える必要があります。

もし間違ったグラフを選ぶと、

  • 比較したいのに変化が見えない
  • 割合なのに関係性のグラフを使ってしまう

といった誤解が生まれます。

そのためDS検定では
「どのグラフがどんな分析目的に適しているか」
を理解しているかが問われます。


定義・仕組み

代表的なグラフの種類と目的は次のとおりです。

グラフ 目的
棒グラフ 数量の大小を比較する
積み上げ棒グラフ 内訳の割合を比較する
折れ線グラフ 時系列の変化を見る
円グラフ 構成割合を見る
散布図 2つのデータの関係を見る
バブルチャート 3つのデータを同時に表現する
レーダーチャート 複数項目の特徴を比較する
ヒートマップ 数値の大小を色で表現し、分布やパターンを把握する

ポイントは、
グラフは「何を見たいか」によって決まるということです。

例えば、

  • 比較 → 棒グラフ
  • 時間変化 → 折れ線
  • 割合 → 円グラフ
  • 関係 → 散布図
  • 分布・パターン → ヒートマップ

という対応になります。


どんな場面で使う?

棒グラフ

  • 商品別売上
  • 部門別利益
  • 国別人口

カテゴリ間の比較に向いています。


折れ線グラフ

  • 月別売上
  • 気温の推移
  • 株価の変化

時間による変化(時系列)を見るときに使います。


円グラフ

  • 売上構成比
  • 市場シェア

全体に対する割合を見るときに使います。


散布図

  • 広告費と売上
  • 勉強時間とテスト点数

2つのデータの関係性(相関)を確認するときに使います。


バブルチャート

  • GDP
  • 人口
  • 成長率

など、3つの変数を同時に可視化する場合に使います。


レーダーチャート

  • 商品評価
  • 能力比較
  • スキル分析

複数の指標の特徴を比較するときに使います。


ヒートマップ

ヒートマップは、
数値の大きさを色の濃さで表現する可視化手法です。

例えば

  • 曜日 × 時間帯 の売上
  • 店舗 × 商品 の販売数
  • Webページのクリック分布

などのデータを可視化するときに使われます。

数値をそのまま見るよりも
どこに特徴やパターンがあるかを直感的に把握できます。

また、相関行列を可視化する場合にもよく利用されます。
ただし、ヒートマップ自体は相関専用のグラフではありません。


よくある誤解・混同

棒グラフと折れ線グラフ

DS検定ではよく混同させてきます。

グラフ 用途
棒グラフ 項目の比較
折れ線グラフ 時系列の変化

時間の流れがあるデータは折れ線グラフ
と覚えておくと判断しやすくなります。


円グラフと棒グラフ

選択肢では次のような表現が出ます。

「割合を比較するグラフ」

この場合、

  • 全体の構成 → 円グラフ
  • 数量の比較 → 棒グラフ

となります。


散布図とヒートマップ

ここはDS検定で混同しやすいポイントです。

グラフ 主な目的
散布図 2つの変数の関係(相関)を見る
ヒートマップ 数値の分布やパターンを見る

選択肢で

  • 「相関関係を確認する」

と書かれていた場合は
散布図が正解になるケースが多いです。


まとめ(試験直前用)

  • 棒グラフ → 数量の比較
  • 折れ線グラフ → 時間変化
  • 円グラフ → 割合
  • 散布図 → データの関係(相関)
  • ヒートマップ → 数値の分布やパターン

DS検定では
分析目的に合ったグラフを選べるかが問われます。

特に

  • 棒グラフ vs 折れ線
  • 円グラフ vs 棒グラフ
  • 散布図 vs ヒートマップ

は典型的なひっかけなので注意しましょう。


【対応スキル項目(データエンジニアリング力シート)】

  • スキルカテゴリ名:データ共有
  • サブカテゴリ名:データ連携

★ BIツールの自由検索機能を活用し、必要なデータを抽出して、グラフを作成できる


カイ二乗分布とは?(χ²分布の使いどころを整理)【DS検定】

  • Source: pages\ds\chi-square-distribution.md
  • Permalink: /ds/chi-square-distribution/

まず結論

カイ二乗分布とは、「ズレの大きさ」を評価するための分布です。
DS検定では “観測データと期待値のズレが偶然かどうかを判断できるか” を問われます。


直感的な説明

例えば、コインを100回投げたとします。

  • 本来は「表50回・裏50回」くらいになるはず
  • でも実際は「表70回・裏30回」だった

このズレは
「たまたま起きた誤差」なのか
「コインが偏っている」からなのか

この ズレの大きさを測るために使われるのがカイ二乗分布 です。

ポイントは
👉 「平均との差」ではなく
👉 “期待値との差の合計の大きさ”を見る

ということです。


定義・仕組み

カイ二乗分布は、

  • いくつかの「ズレ(差)」を
  • 二乗して
  • 足し合わせた値

が従う分布です。

なぜ二乗するのか?

  • プラスとマイナスを打ち消さないため
  • 大きなズレをより強調するため

DS検定では数式を覚えるよりも、

「期待値との差を二乗して足したもの」

という構造を理解しておけば十分です。

そしてその値が
「偶然起きる範囲かどうか」を
確率的に判断するのがカイ二乗分布の役割です。


どんな場面で使う?

① 適合度の検定

例:

  • サイコロは公平か?
  • 男女比は理論値と同じか?

👉 理論値(期待値)とのズレを評価する


② 独立性の検定

例:

  • 性別と商品購入は関係ある?
  • 地域と満足度は関係ある?

👉 カテゴリ同士が独立かどうかを判断する


使わない場面(重要)

  • 平均値の比較(→ t検定)
  • 連続値の相関(→ 相関係数)

DS検定では
「カテゴリーデータなのか?」
をまず確認することが大事です。


よくある誤解・混同

❌ 平均の差を見る分布

→ それは t分布です。

❌ 正規分布の仲間

→ 形は似ていません。
右に長く伸びる“非対称な分布”です。

❌ 数値が大きいほど良い

→ 違います。
値が大きいほど“ズレが大きい”=帰無仮説が怪しい


DS検定での典型的なひっかけ

  • 「平均値の比較」と書いてある → カイ二乗ではない
  • 「カテゴリーデータ」と書いてある → カイ二乗の可能性が高い
  • 「独立かどうか」と書いてある → ほぼカイ二乗

選択肢では
「連続値」「平均」「回帰」などの言葉があれば注意です。


まとめ(試験直前用)

  • カイ二乗分布=期待値とのズレを評価する分布
  • カテゴリーデータの検定で使う
  • 独立性の検定・適合度検定が代表例
  • 平均の比較では使わない(t検定と混同注意)
  • 値が大きい=ズレが大きい

👉 まず「データはカテゴリか?」と確認するのが判断基準


対応スキル項目(データサイエンス力シート)

  • 統計解析
  • 仮説検定
  • ★ 仮説検定の基本的な考え方を理解している- 男女比は理論値と同じか?

👉 理論値(期待値)とのズレを評価する


② 独立性の検定

例:

  • 性別と商品購入は関係ある?
  • 地域と満足度は関係ある?

👉 カテゴリ同士が独立かどうかを判断する


使わない場面(重要)

  • 平均値の比較(→ t検定)
  • 連続値の相関(→ 相関係数)

DS検定では
「カテゴリーデータなのか?」
をまず確認することが大事です。


よくある誤解・混同

❌ 平均の差を見る分布

→ それは t分布です。

❌ 正規分布の仲間

→ 形は似ていません。
右に長く伸びる“非対称な分布”です。

❌ 数値が大きいほど良い

→ 違います。
値が大きいほど“ズレが大きい”=帰無仮説が怪しい


t検定との比較(超重要)

DS検定では
カイ二乗検定とt検定を混同させる問題 がよく出ます。

まずは全体像を整理しましょう。

比較項目 カイ二乗検定 t検定
データの種類 カテゴリーデータ 連続データ
何を比べる? 度数(人数・回数) 平均値
主な目的 独立かどうか/理論値とのズレ 2群の平均に差があるか
分布 カイ二乗分布 t分布
性別と購入は関係ある? 男性と女性で平均年収は違う?

判断のコツ(試験用)

  1. 「平均」という言葉が出てきたら → t検定
  2. 「人数・割合・クロス集計表」が出てきたら → カイ二乗
  3. データが「数値そのもの」か「分類ラベル」かを見る

選択肢では

  • 「平均値の差を検定する」→ カイ二乗ではない
  • 「独立性を検定する」→ t検定ではない

と切れるようにしておきましょう。


まとめ(試験直前用)

  • カイ二乗分布=期待値とのズレを評価する分布
  • カテゴリーデータの検定で使う
  • 独立性の検定・適合度検定が代表例
  • 平均の比較では使わない(t検定と混同注意)
  • 判断基準は「データはカテゴリか?平均か?」

👉 「平均ならt、分類ならカイ二乗」
これが最速の切り分け基準です。


対応スキル項目(データサイエンス力シート)

  • 統計解析
  • 仮説検定
  • ★ 仮説検定の基本的な考え方を理解している 👉 カテゴリ同士が独立かどうかを判断する

使わない場面(重要)

  • 平均値の比較(→ t検定)
  • 連続値の相関(→ 相関係数)

DS検定では
「カテゴリーデータなのか?」
をまず確認することが大事です。


よくある誤解・混同

❌ 平均の差を見る分布

→ それは t分布です。

❌ 正規分布の仲間

→ 形は似ていません。
右に長く伸びる“非対称な分布”です。

❌ 数値が大きいほど良い

→ 違います。
値が大きいほど“ズレが大きい”=帰無仮説が怪しい


DS検定での典型的なひっかけ

  • 「平均値の比較」と書いてある → カイ二乗ではない
  • 「カテゴリーデータ」と書いてある → カイ二乗の可能性が高い
  • 「独立かどうか」と書いてある → ほぼカイ二乗

選択肢では
「連続値」「平均」「回帰」などの言葉があれば注意です。


まとめ(試験直前用)

  • カイ二乗分布=期待値とのズレを評価する分布
  • カテゴリーデータの検定で使う
  • 独立性の検定・適合度検定が代表例
  • 平均の比較では使わない(t検定と混同注意)
  • 値が大きい=ズレが大きい

👉 まず「データはカテゴリか?」と確認するのが判断基準


対応スキル項目(データサイエンス力シート)

  • 統計解析
  • 仮説検定
  • ★ 仮説検定の基本的な考え方を理解している「カテゴリーデータなのか?」
    をまず確認することが大事です。

よくある誤解・混同

❌ 平均の差を見る分布

→ それは t分布です。

❌ 正規分布の仲間

→ 形は似ていません。
右に長く伸びる“非対称な分布”です。

❌ 数値が大きいほど良い

→ 違います。
値が大きいほど“ズレが大きい”=帰無仮説が怪しい


DS検定での典型的なひっかけ

  • 「平均値の比較」と書いてある → カイ二乗ではない
  • 「カテゴリーデータ」と書いてある → カイ二乗の可能性が高い
  • 「独立かどうか」と書いてある → ほぼカイ二乗

選択肢では
「連続値」「平均」「回帰」などの言葉があれば注意です。


まとめ(試験直前用)

  • カイ二乗分布=期待値とのズレを評価する分布
  • カテゴリーデータの検定で使う
  • 独立性の検定・適合度検定が代表例
  • 平均の比較では使わない(t検定と混同注意)
  • 値が大きい=ズレが大きい

👉 まず「データはカテゴリか?」と確認するのが判断基準


対応スキル項目(データサイエンス力シート)

  • 統計解析
  • 仮説検定
  • ★ 仮説検定の基本的な考え方を理解している

クラスタ分析とは?似たデータをグループ分けする分析手法【DS検定】

  • Source: pages\ds\cluster-analysis.md
  • Permalink: /ds/cluster-analysis/

まず結論

クラスタ分析(Cluster Analysis)とは、似た特徴を持つデータ同士を自動的にグループ分けする分析手法です。

DS検定では 教師なし学習の代表的な手法として出題され、顧客セグメンテーションなどの例で問われることが多いです。

DS検定では特に

アソシエーション分析

RFM分析

との違いを判断できるかが重要になります。


直感的な説明

例えばECサイトの顧客データを考えます。

顧客には次のような違いがあります。

若い顧客

高額商品をよく買う顧客

セールのときだけ買う顧客

これらを人間が手作業で分類するのは大変です。

そこでデータの特徴から

似ている顧客を自動的にグループ化する

のがクラスタ分析です。

例えば次のようなグループが見つかることがあります。

高頻度購入グループ

高額購入グループ

セール購入グループ

このように

似た行動パターンのデータをまとめる分析がクラスタ分析です。


定義・仕組み

クラスタ分析は

データの特徴の類似度をもとにグループ分けする分析手法

です。

このとき

正解ラベル

教師データ

は存在しません。

そのためクラスタ分析は

教師なし学習(Unsupervised Learning)

に分類されます。

代表的なアルゴリズムには

k-means

階層クラスタリング

などがあります。

DS検定では

データを似たグループに分ける

という理解ができていれば十分です。


どんな場面で使う?

クラスタ分析は次のような場面で使われます。

顧客セグメンテーション

顧客の行動や属性をもとに

若年層

高額購入層

割引志向層

などのグループを作ります。


マーケティング分析

顧客グループごとに

広告

商品

キャンペーン

を変えることができます。


データ探索

データにどのようなパターンがあるかを調べるために使われます。


よくある誤解・混同

DS検定では次の分析との違いがよく問われます。

アソシエーション分析との違い

分析 内容

クラスタ分析 似たデータをグループ分けする アソシエーション分析 事象の関連関係を見つける

クラスタ分析 → 顧客グループ分け

アソシエーション分析 → 商品の同時購入


RFM分析との違い

分析 内容

クラスタ分析 データを自動的にグループ分け RFM分析 3指標で顧客価値を評価

DS検定では

顧客を似た特徴でグループ分けする

と書かれていたら クラスタ分析です。


まとめ(試験直前用)

クラスタ分析は 似たデータをグループ分けする分析

教師なし学習の代表例

顧客セグメンテーションなどに使われる

アソシエーション分析は 商品関係の分析

RFM分析は 顧客価値の評価

DS検定では

「似た特徴を持つデータをグループ化する」

と書かれていたら

クラスタ分析と判断するのがポイントです。


【対応スキル項目(データサイエンス力シート)】

データ分析

データ分析手法

★ データの特徴や関係性を把握するための基本的な分析手法を理解している


CNN(畳み込みニューラルネットワーク)とは?画像認識AIの基本【DS検定】

  • Source: pages\ds\cnn.md
  • Permalink: /ds/cnn/

まず結論

CNN(畳み込みニューラルネットワーク)とは、画像の特徴を自動で抽出して認識するために使われるAIモデルです。

DS検定では

CNNは画像認識に強い

畳み込みによって特徴を抽出する

というポイントが理解できているかが問われます。


直感的な説明

人間が画像を見るとき、次のような順番で認識します。

  1. 輪郭を見る

  2. 形を見る

  3. 物体を判断する

例えば「猫の写真」を見たとき

耳の形

体の輪郭

などの特徴から「猫だ」と判断します。

CNNも同じように

画像の特徴を段階的に抽出して 最終的に物体を識別します。


定義・仕組み

CNN(Convolutional Neural Network)は

畳み込み処理を使って画像の特徴を抽出するニューラルネットワーク

です。

主に次の3つの処理で構成されています。

① 畳み込み(Convolution)

カーネルを使って

エッジ

模様

などの特徴を抽出します。


② プーリング(Pooling)

画像サイズを小さくして

重要な特徴だけを残す処理です。

これにより

計算量が減る

ノイズの影響が減る

というメリットがあります。


③ 全結合層(Fully Connected)

最後に

抽出された特徴を使って

「何の画像か」を分類します。

例えば

といった分類です。


どんな場面で使う?

CNNは

画像認識AIの代表的なモデルです。

例えば次のような場面で使われます。

自動運転

カメラ画像から

歩行者

信号

などを認識します。


医療画像解析

MRIやCT画像から

腫瘍

病変

を検出する研究が進んでいます。


顔認識

スマートフォンの

顔認証

などにもCNNが使われています。


よくある誤解・混同

誤解①

ニューラルネットワークはすべて同じ

実際には

通常のニューラルネット

CNN

RNN

など用途によって構造が違います。

CNNは

画像データに特化した構造です。


誤解②

CNNは画像だけに使われる

主に画像認識で使われますが

音声

時系列データ

などにも応用されています。


DS検定のひっかけ

DS検定では

CNNは画像認識でよく使われる

畳み込みで特徴を抽出する

という理解が重要です。

選択肢で

「CNNは画像のピクセルをそのまま分類する」

と書かれていたら誤りです。

CNNは

畳み込みで特徴を抽出してから分類します。


まとめ(試験直前用)

CNNは 画像認識に強いAIモデル

畳み込みによって画像の特徴を抽出する

主な構造

畳み込み

プーリング

全結合

自動運転・医療画像・顔認識などで利用される

DS検定では

CNN=画像認識AIの代表モデル

と覚えておくと判断しやすくなります。


【対応スキル項目(AI利活用スキルシート)】

スキルカテゴリ名 AIの技術理解

サブカテゴリ名 機械学習

★ 代表的な機械学習手法の概要を理解している


決定係数と寄与率とは?回帰モデルの説明力を理解する【DS検定】

  • Source: pages\ds\coefficient-of-determination-contribution.md
  • Permalink: /ds/coefficient-of-determination-contribution/

まず結論

決定係数(R²)と寄与率は、回帰モデルがどれくらいデータを説明できているかを表す指標です。

DS検定では

決定係数の意味

相関係数との関係

寄与率との違い

がよく問われます。

ポイントは次の通りです。

決定係数 → モデルの説明力

寄与率 → どれくらい説明できたかの割合

実務では

寄与率 = 決定係数

として扱われることが多いです。


直感的な説明

例えば

「売上」を予測するモデルを作ったとします。

説明変数

気温

目的変数

アイス売上

このとき

気温を使って売上を予測するモデルを作った結果

決定係数 = 0.64

だったとします。

これは

売上のばらつきの64%をこのモデルで説明できている

という意味です。

つまり

64% → モデルで説明できる

36% → まだ説明できていない

という状態です。


定義・仕組み

決定係数

決定係数は

回帰モデルの説明力

を表す指標です。

値の範囲

0 〜 1

意味

値 意味

1 完全に説明できる 0 全く説明できない

例えば

R² = 0.8

なら

データのばらつきの80%を説明できている

という意味になります。


寄与率

寄与率は

モデルがどれくらいデータに寄与しているか

を表す指標です。

多くの場合

寄与率 = 決定係数

として扱われます。

DS検定では

寄与率は説明できた割合

と理解しておくと判断しやすくなります。


相関係数との関係

単回帰の場合

決定係数 = 相関係数²

という関係があります。

例えば

相関係数 = 0.8

なら

決定係数 = 0.64

になります。

DS検定ではこの関係を利用した問題がよく出ます。


どんな場面で使う?

決定係数は

回帰モデルの評価

に使われます。

例えば

売上予測

需要予測

機械の故障予測

などです。

データ分析では

モデルを作る

決定係数で評価する

という流れになります。


よくある誤解・混同

決定係数が高い=良いモデル

必ずしもそうとは限りません。

例えば

外れ値

過学習

などがあると

決定係数が高くても実用性が低い場合があります。


相関係数と決定係数の混同

DS検定では

相関係数

決定係数

を混同させる問題がよく出ます。

整理すると

相関係数 → 関係の強さ

決定係数 → 説明力

です。


まとめ(試験直前用)

決定係数と寄与率は

回帰モデルの説明力

を表します。

覚えるポイント

決定係数の範囲は 0〜1

寄与率は説明できた割合

単回帰では

決定係数 = 相関係数²

DS検定では

相関係数と決定係数の意味を区別できるか

が重要になります。


【対応スキル項目(データサイエンス力シート)】

スキルカテゴリ名 データサイエンス基礎

サブカテゴリ名 統計数理基礎

★ 相関や回帰など、複数の変数間の関係性を理解し説明できる


認知バイアスとは?データ分析で判断を誤らせる思い込み【DS検定】

  • Source: pages\ds\cognitive-bias.md
  • Permalink: /ds/cognitive-bias/

まず結論

  • 認知バイアスとは、人間が無意識の思い込みや先入観によって判断を歪めてしまう心理的傾向のことです。
  • DS検定では「データを見るとき、人は思い込みに影響される」という前提を理解しているかが問われます。

直感的な説明

例えば、次のような経験はないでしょうか。

  • 「この店は人気だから美味しいはず」
  • 「この会社の商品だから安心だろう」
  • 「去年売れたから今年も売れるだろう」

実際にはデータを確認していないのに、
過去の経験や印象で判断してしまうことがあります。

これは人間の脳が、

  • すばやく判断する
  • 複雑な情報を単純化する

ために起きる自然な仕組みですが、
データ分析では大きな誤りの原因になります。

そのためデータサイエンスでは、

「人は思い込みで判断する」という前提で分析する

ことが重要になります。


定義・仕組み

認知バイアス(Cognitive Bias)とは、

人間が意思決定を行うときに生じる、体系的な思考の偏り

を指します。

人間の脳は、

  • 情報をすべて正確に処理するのではなく
  • 過去の経験や印象を使って
  • 素早く判断する

という特徴があります。

この仕組みは日常生活では便利ですが、

  • データの解釈
  • ビジネス意思決定
  • 統計分析

では 誤った結論を導く原因になります。

例えばデータ分析では、

  • 自分の仮説に合うデータだけを見る
  • 有名な事例を過大評価する
  • 最初に見た情報に引きずられる

といった形で認知バイアスが現れます。

DS検定では
「人は合理的に判断するとは限らない」

という理解が重要です。


どんな場面で使う?

データ分析の解釈

分析結果を見たとき、

  • 仮説に合う結果だけ強調する
  • 不都合なデータを無視する

といった判断ミスが起きることがあります。

これは 確証バイアス と呼ばれる代表的な認知バイアスです。


ビジネス意思決定

例えば新しい商品を企画するとき、

  • 「この分野は人気だから成功するはず」

と感覚で判断してしまうことがあります。

しかし実際には、

  • 市場規模
  • 顧客データ
  • 競合状況

を客観的に確認する必要があります。


AI・データ活用

データドリブン経営では、

  • 思い込み
  • 経験則
  • 権威

ではなく データに基づく判断 が重要になります。

そのため

人間の認知バイアスを理解しておくこと

が重要になります。


よくある誤解・混同

① 認知バイアス=間違いというわけではない

認知バイアスは

人間の思考の自然な特徴です。

普段の生活では

  • 素早い判断
  • 直感的な意思決定

を助ける役割もあります。

問題になるのは

データを扱う場面で無自覚に使ってしまうこと

です。


② データがあれば認知バイアスは起きない

これは誤解です。

データ分析でも

  • データの選び方
  • 解釈
  • 仮説の立て方

に認知バイアスが入り込みます。

DS検定では
データを扱う人間の側にバイアスがある

という理解が重要です。


③ 認知バイアスとメタ認知の違い

この2つはDS検定で混同されやすい概念です。

用語 意味
認知バイアス 思い込みによる判断の歪み
メタ認知 自分の思考を客観的に見直す力

つまり

メタ認知は認知バイアスを防ぐための思考方法

と言えます。

選択肢では

  • 「メタ認知は思い込みのこと」
  • 「認知バイアスは客観的思考」

のように逆に書かれている場合があるので注意です。


まとめ(試験直前用)

  • 認知バイアス = 思い込みによる判断の偏り
  • 人間は合理的に判断するとは限らない
  • データ分析でも思い込みが入り込む
  • DS検定では
    「人の判断はバイアスの影響を受ける」
    という前提を理解しているかが問われる

判断基準として覚えるポイント:

データの問題ではなく「人間の判断の問題」


【対応スキル項目(ビジネス力シート)】

  • 問題解決力
  • 課題の構造化
  • ★ 課題を構造的に整理し、論理的に解決することができる

コンプライアンスリスクとは?オペレーショナルリスクとの違い【DS検定】

  • Source: pages\ds\compliance-risk.md
  • Permalink: /ds/compliance-risk/

まず結論

コンプライアンスリスクとは、法律・規則・社内ルールを守らないことで発生するリスクのことです。

DS検定では、不正行為・個人情報の不適切利用・規制違反などがコンプライアンスリスクに該当するか判断できるかが問われます。


直感的な説明

企業は自由に活動しているように見えますが、実際には多くのルールの中で活動しています。

例えば次のようなルールがあります。

個人情報保護法

著作権法

金融規制

社内のデータ管理ルール

もしこれらのルールを守らなかった場合、

行政処分

罰金

サービス停止

社会的批判

といった問題が発生します。

このように

法律・規則・ルール違反によって発生するリスク

を コンプライアンスリスク と呼びます。

DS検定では、データやAIの活用でも

法令や倫理を守ることが重要

であると理解しているかが問われます。


定義・仕組み

コンプライアンス(Compliance)

コンプライアンスとは

法律・規則・社会的ルールを守ること

を意味します。

企業活動では次の3つを守る必要があります。

法律(法令)

業界ルール

社内規則

これらを守らなかった場合

ルール違反 ↓ 行政処分・罰則 ↓ 企業活動への影響

という形でリスクが発生します。


データ・AIとコンプライアンス

データサイエンスでは次のような問題がコンプライアンス違反になります。

例:

個人情報の無断利用

著作権データの不正利用

AIの差別的利用

不正なデータ改ざん

そのためデータ活用では

法律

倫理

ガイドライン

を守る必要があります。

DS検定でも

データ利用には法的責任がある

という理解が重要になります。


どんな場面で使う?

コンプライアンスリスクは次のような場面で問題になります。

個人情報の取り扱い

個人データの無断利用

データ漏えい

データ分析

許可されていないデータ利用

不適切なデータ共有

AI活用

差別的AI

不透明な意思決定

企業活動

不正会計

インサイダー取引

DS検定では

法律・規則違反に関するリスク

として理解しておくことが重要です。


よくある誤解・混同

混同①:オペレーショナルリスク

DS検定では次の違いを区別する問題が出ます。

リスク 内容

コンプライアンスリスク 法律・規則違反 オペレーショナルリスク 業務運用の問題

個人情報を不正利用 → コンプライアンスリスク

システム障害 → オペレーショナルリスク


混同②:レピュテーションリスク

レピュテーションリスクは

企業の評判低下のリスク

です。

例えば

個人情報流出 ↓ 法律違反 ↓ 社会批判

この場合

コンプライアンスリスク

レピュテーションリスク

の両方が発生します。


混同③:法律だけ守ればよい

コンプライアンスは

法律

社内ルール

倫理

すべてを含む概念です。

DS検定では

倫理的に問題があるAI利用

などもコンプライアンス問題として扱われます。


まとめ(試験直前用)

コンプライアンスリスク=法律・規則違反によるリスク

例:個人情報違反、著作権違反、不正会計

データ活用では 個人情報・AI倫理が重要

オペレーショナルリスク=業務運用の問題

レピュテーションリスク=企業評判の低下

DS検定では

法律違反か、業務ミスか、評判リスクか

を区別できることが重要になります。


【対応スキル項目(ビジネス力シート)】

スキルカテゴリ:ビジネスコンプライアンス

サブカテゴリ:法令遵守

★ 法令・社会規範・社内規程を遵守して業務を遂行できる


確証バイアスとは?自分に都合のよい情報だけ集めてしまう心理【DS検定】

  • Source: pages\ds\confirmation-bias.md
  • Permalink: /ds/confirmation-bias/

まず結論

  • 確証バイアスとは、自分の考えや仮説を支持する情報だけを集めてしまう認知バイアスのことです。
  • DS検定では、データ分析や意思決定で「都合の良いデータだけ見ていないか」を判断できるかが問われます。

直感的な説明

例えば、ある商品が売れると思って企画したとします。

そのとき、

  • 「SNSで人気だった」
  • 「知り合いも欲しいと言っていた」

といった情報ばかり集めてしまい、

  • 売れていない地域
  • 不満レビュー
  • 市場規模

などの情報を無視してしまうことがあります。

これは

「自分の考えが正しいことを証明する情報だけ探してしまう」

という心理です。

人間は無意識に
自分の考えを否定する情報を避ける傾向があります。

これが 確証バイアス です。

データ分析ではこのバイアスによって
誤った結論を導く危険があります。


定義・仕組み

確証バイアス(Confirmation Bias)とは、

自分の仮説・信念・予想を支持する情報だけを重視し、反対の情報を無視してしまう思考の偏り

を指します。

このバイアスは次の3つの行動として現れます。

① 情報の収集

自分の考えに合う情報だけ探す


「この商品は人気なはず」
→ 好意的レビューだけ見る


② 情報の解釈

同じデータでも都合よく解釈する


売上が少し上がった
→ 「やはり成功だ」


③ 情報の記憶

都合の良い情報だけ覚えてしまう


成功した事例だけ覚える


DS検定では

仮説検証の場面で確証バイアスが起きる

という理解が重要です。


どんな場面で使う?

仮説検証

データ分析では

  1. 仮説を立てる
  2. データで検証する

という流れになります。

しかし確証バイアスがあると

  • 仮説を支持するデータだけ見る
  • 仮説と違うデータを無視する

という問題が起きます。

そのためデータ分析では

仮説を否定する証拠も探す

という姿勢が重要です。


ビジネス意思決定

新しいサービスを企画するとき、

  • 成功事例だけ調べる
  • 失敗事例を調べない

という判断が起きることがあります。

これも確証バイアスです。


AI・データ活用

AIや分析結果を使うときも

  • 自分の期待通りの結果だけ採用する

といった使い方をすると
正しい判断ができなくなります。


よくある誤解・混同

① 認知バイアスとの違い

用語 意味
認知バイアス 思考の偏りの総称
確証バイアス 認知バイアスの一種

つまり

確証バイアスは認知バイアスの代表例です。

DS検定では
この関係を理解しているかが問われます。


② データ分析では起きない

これは誤解です。

むしろ

  • 仮説検証
  • KPI分析
  • A/Bテスト

などでよく起きます。

分析者が

「この仮説は正しいはず」

と思っているほど起きやすくなります。


③ メタ認知との違い

DS検定ではこの2つを混同させる問題が出ることがあります。

用語 意味
確証バイアス 思い込みで情報を選ぶ
メタ認知 自分の思考を客観視する

つまり

メタ認知は確証バイアスを防ぐための思考方法

と言えます。

選択肢では

  • 「メタ認知は思い込みのこと」
  • 「確証バイアスは客観的思考」

のように逆に書かれることがあるので注意です。


まとめ(試験直前用)

  • 確証バイアス = 自分に都合のよい情報だけ集める思考の偏り
  • 認知バイアスの代表例
  • 仮説検証やデータ分析で起きやすい
  • DS検定では
    「仮説に合うデータだけ見る行動」
    が出てきたら確証バイアス

覚え方:

自分の考えを「確証」する情報だけ探す


【対応スキル項目(ビジネス力シート)】

  • 問題解決力
  • 課題の構造化
  • ★ 課題を構造的に整理し、論理的に解決することができる

コンストラクタとは?初期化処理の役割を整理【DS検定リテラシー】

  • Source: pages\ds\constructor.md
  • Permalink: /ds/constructor/

まず結論

  • コンストラクタとは、オブジェクトが生成されるときに自動的に実行される初期化処理のこと。
  • DS検定では「継承」「カプセル化」「通常のメソッド」との違いを判断させる問題としてよく問われる。

直感的な説明

コンストラクタは「生まれた瞬間に動く処理」です。

たとえば社員データを作るとき、

  • 名前
  • 社員番号
  • 所属部署

を最初に必ず設定しますよね。

この「最初に必要な準備」を自動で行う仕組みがコンストラクタです。

業務システムでは、

  • 顧客オブジェクトを作るときにIDをセットする
  • ログ管理クラスを作るときに初期設定を行う

といった場面で使われます。


定義・仕組み

コンストラクタとは、

クラスからオブジェクト(インスタンス)を生成する際に、自動的に呼び出される特別なメソッド

のことです。

Pythonでは __init__ という名前で定義されます。

重要なのは、

  • 自分で呼び出さない
  • オブジェクト作成と同時に実行される

という点です。

DS検定では、

「インスタンス生成時に必ず呼ばれる特別なメソッド」

という表現があれば、コンストラクタを指します。


どんな場面で使う?

使う場面

  • 初期値を設定したいとき
  • オブジェクト生成時に必須の情報があるとき
  • 状態の整合性を保ちたいとき

使うと誤解しやすい場面

  • 単なるメソッドと混同する場合
  • 「クラスを作れば自動で初期化される」と思い込む場合

コンストラクタは「生成時だけ動く」特別な処理です。


よくある誤解・混同

① 通常のメソッドとの違い

  • 自分で呼ぶ → 通常のメソッド
  • 自動で呼ばれる → コンストラクタ

選択肢で

「明示的に呼び出す必要がある」

と書いてあればコンストラクタではありません。


② 継承との混同

  • 親クラスの機能を引き継ぐ → 継承
  • オブジェクト生成時に動く → コンストラクタ

DS検定ではこの2つを同じ問題文に入れて混乱させてきます。


③ カプセル化との混同

  • データを外部から隠す → カプセル化
  • 初期化を行う → コンストラクタ

役割がまったく違う点を押さえておきましょう。


まとめ(試験直前用)

  • コンストラクタ=生成時に自動実行される初期化処理
  • 「インスタンス生成時」と書かれていたらコンストラクタ
  • 明示的に呼ぶなら通常のメソッド
  • 継承やカプセル化とは目的が違う
  • DS検定では“自動実行”というキーワードが判断基準

【対応スキル項目(AI利活用スキルシート)】

  • AIの基礎理解
  • 情報システムの基本構造の理解
  • ★ AIを活用したシステムの基本的な構造を理解している

請負契約と準委任契約の違いとは?成果責任と業務責任を整理【DS検定】

  • Source: pages\ds\contract-ukeoi-juninin.md
  • Permalink: /ds/contract-ukeoi-juninin/

まず結論

  • 請負契約は「成果物の完成」に対して責任を負う契約です。
  • 準委任契約は「業務を適切に遂行すること」に対して責任を負う契約です。

DS検定では
「成果責任なのか、業務遂行責任なのか」
を見分けさせる問題として出題されることがあります。

特に

  • IT開発
  • データ分析
  • AIプロジェクト

では契約形態によって 責任範囲・報酬条件・成果物の扱い が変わるため、理解しておく必要があります。


直感的な説明

一番分かりやすいのは 料理の例です。

請負契約

レストランで料理を注文するイメージです。

  • 注文:ハンバーグ定食
  • 店の責任:完成した料理を出すこと

つまり

完成しなければ報酬は発生しない

これが請負契約です。


準委任契約

コンサルタントやアドバイザーを雇うイメージです。

  • 依頼:データ分析を手伝ってください
  • 責任:専門知識を使って業務を行うこと

つまり

成果が出なくても、適切に業務を行えば報酬は発生する

これが準委任契約です。


定義・仕組み

請負契約

民法上の請負契約は

「仕事の完成」を約束する契約

です。

特徴

  • 成果物の完成が必要
  • 完成しないと報酬は受け取れない
  • 成果物の品質責任を負う

  • ソフトウェア開発
  • システム構築
  • Webサイト制作

準委任契約

準委任契約は

「一定の事務処理を委託する契約」

です。

特徴

  • 成果物の完成は必須ではない
  • 業務を適切に行えば報酬が発生
  • 善管注意義務(専門家としての注意義務)がある

  • データ分析支援
  • AIコンサルティング
  • ITアドバイザー

違いの整理

観点 請負契約 準委任契約
契約目的 成果物の完成 業務の遂行
責任 成果責任 業務遂行責任
報酬 完成しないと原則受け取れない 業務を行えば受け取れる
成果物 原則必要 原則不要
報告義務 原則なし あり

どんな場面で使う?

データサイエンスの現場では 両方使われます。

請負契約が使われる例

  • AIシステム開発
  • 分析システムの構築
  • BIツールの実装

つまり

「完成物」が明確な場合

です。


準委任契約が使われる例

  • データ分析プロジェクト
  • AI導入支援
  • PoC(概念実証)

AIやデータ分析では

  • 正解が事前に分からない
  • 試行錯誤が必要

ため、準委任契約になることも多いです。


よくある誤解・混同

誤解①

データ分析はすべて請負契約

これは誤りです。

分析プロジェクトは

  • 成果が保証できない
  • 探索的分析になる

ため

準委任契約になるケースも多い

です。


誤解②

準委任契約は責任がない

これも誤りです。

準委任契約でも

善管注意義務

があります。

つまり

専門家として適切に業務を行う責任

があります。


DS検定の典型ひっかけ

DS検定では次のように問われます。

選択肢例

  • 請負契約は業務遂行責任の契約である
  • 準委任契約は成果物の完成責任を負う

この2つは 逆なので誤りです。

判断基準はシンプルです。

請負 → 成果責任
準委任 → 業務責任


まとめ(試験直前用)

  • 請負契約 → 成果物の完成責任
  • 準委任契約 → 業務遂行責任
  • 請負は「完成しないと報酬なし」
  • 準委任は「業務を行えば報酬あり」

DS検定では

成果責任か業務責任か

を切り分けられれば正解できます。


対応スキル項目

【対応スキル項目(ビジネス力シート)】

  • ビジネス理解
  • プロジェクト推進
  • ★ データ利活用プロジェクトにおける契約・責任範囲を理解している

畳み込み(Convolution)とは?画像フィルタ処理の基本【DS検定】

  • Source: pages\ds\convolution.md
  • Permalink: /ds/convolution/

まず結論

畳み込み(Convolution)とは、画像の周囲のピクセル値を使って新しいピクセル値を計算する処理で、画像フィルタ処理の基本となる計算方法です。

DS検定では 画像のフィルタ処理が「畳み込み」という計算で実現されている という理解が問われることがあります。


直感的な説明

画像のフィルタ処理は 「周りのピクセルを見て値を決める処理」です。

例えば次のようなイメージです。

あるピクセルの値を決めるとき

周りのピクセル □ □ □ □ ■ □ □ □ □

中央のピクセル(■)の値を

周囲の値を平均する

特定の重みをかける

といった計算で決めます。

この 「周囲の値を使って新しい値を計算する処理」 が畳み込みです。

この計算を画像全体に繰り返すことで

ノイズ除去

エッジ検出

ぼかし処理

などの画像フィルタが実現できます。


定義・仕組み

畳み込みとは

小さな計算用の行列(フィルタ・カーネル)を画像の上でスライドさせながら計算する処理

です。

処理の流れは次の通りです。

① 小さな行列(フィルタ)を用意する

1 1 1 1 1 1 1 1 1

② 画像の一部分と重ねる

③ 対応する値を掛け合わせて合計する

④ その結果を新しいピクセル値にする

⑤ フィルタを1ピクセルずらして繰り返す

このようにして 画像全体を処理していきます。


フィルタによって処理内容が変わる

使うフィルタによって 処理の意味が変わります。

ぼかしフィルタ

→ 周囲を平均して滑らかにする

エッジ検出フィルタ

→ 輪郭を強調する

つまり

フィルタ(カーネル)=画像処理のルール

になります。


どんな場面で使う?

畳み込みは 画像処理やAIの画像認識で非常によく使われます。

画像フィルタ処理

例えば

ノイズ除去

ぼかし

シャープ化

エッジ検出

といった処理の多くは 畳み込みで実装されています。


CNN(畳み込みニューラルネットワーク)

画像認識AIでは CNN(Convolutional Neural Network)

というモデルがよく使われます。

CNNでは

畳み込み

プーリング

全結合

といった処理を通して 画像の特徴を抽出します。

つまり畳み込みは

画像AIの基礎となる計算

です。


よくある誤解・混同

誤解①

畳み込み=画像をぼかす処理

これは誤解です。

ぼかし処理は 畳み込みの一つの使い方にすぎません。

畳み込みは

ぼかし

エッジ検出

シャープ化

など様々な処理に使われます。


誤解②

フィルタ処理と畳み込みは別物

実際には

多くの画像フィルタ処理は畳み込みで実装されます。

つまり

フィルタ処理 ↓ 計算方法 ↓ 畳み込み

という関係です。


DS検定のひっかけ

DS検定では次のような理解が問われます。

選択肢で

「畳み込みはCNNだけで使われる」

と書かれていたら 誤りです。

畳み込みは

画像フィルタ処理

画像解析

CNN

など幅広く使われます。


まとめ(試験直前用)

畳み込みは 周囲のピクセルを使って新しい値を計算する処理

小さな行列(フィルタ・カーネル)を画像にスライドさせて計算する

画像フィルタ処理の多くは畳み込みで実装される

CNN(画像AI)の基本技術でもある

DS検定では フィルタ処理の計算方法=畳み込み という関係を理解しているかが問われます。


【対応スキル項目(AI利活用スキルシート)】

スキルカテゴリ名 AIの技術理解

サブカテゴリ名 画像・音声処理

★ 画像・動画・音声などのデータに対する基本的な処理方法を理解している


相関と因果の違いを一発で整理【DS検定リテラシー】

  • Source: pages\ds\correlation-and-causation.md
  • Permalink: /ds/correlation-and-causation/

まず結論

相関とは「一緒に変化する関係」、因果とは「原因と結果の関係」です。

DS検定では、「相関がある=原因である」と早合点していないかを問われることが多いです。


直感的な説明

例えば、

  • 気温が上がるとアイスクリームの売上が増える

これはよくある例です。

確かにデータを見ると、両者は一緒に増えています。
これが「相関」です。

しかし、

  • 気温が上がることが直接の原因なのか?
  • それとも「夏休み」「人出の増加」など別の要因があるのか?

ここまではデータだけでは分かりません。

ビジネスの現場でも、
「売上と広告費に相関がある」からといって、
必ずしも広告が原因とは限らないのです。


定義・仕組み

相関(correlation)

2つの変数がどれくらい「一緒に変化しているか」を表す関係です。

  • 正の相関:一方が増えると、もう一方も増える
  • 負の相関:一方が増えると、もう一方は減る

重要なのは、

相関は「同時変化」を示すだけで、原因までは示さない

という点です。


因果(causation)

ある出来事が「原因」となり、
別の出来事が「結果」として起こる関係です。

因果を主張するには、

  • 他の要因(交絡因子)を排除する
  • 実験やランダム化で検証する

といった設計が必要になります。

DS検定では、
「観察データから相関が確認された」と書かれているだけなら、
因果を断定するのは危険です。


どんな場面で使う?

使うべき場面

  • データ分析結果を解釈するとき
  • ビジネス施策の効果を議論するとき
  • AIやモデルの説明を行うとき

特にビジネス文脈では、

「相関を因果と誤解していないか」

が非常に重要です。


誤解しやすい場面

  • 回帰分析を行った
  • 交絡因子を調整した

と書いてあると、因果と勘違いしやすいです。

しかし、

  • 観察データのみ
  • ランダム化なし

であれば、基本は「因果の可能性」にとどまります。


よくある誤解・混同

① 相関が高い=原因である

→ これは誤りです。

DS検定では、

「強い相関があるため、AはBの原因である」

と書かれていたら要注意です。


② 交絡因子を入れた=因果と断定できる

→ これも基本は誤りです。

交絡を調整しても、

  • 未知の交絡が残っている可能性
  • サンプル数が十分でない可能性

があります。


③ ランダム化すれば何でも断定できる

→ これも言い過ぎです。

ランダム化は因果を議論する「設計」ですが、

  • サンプル数
  • 統計的有意性

によって結論の強さは変わります。


まとめ(試験直前用)

  • 相関=一緒に変化する関係
  • 因果=原因と結果の関係
  • 観察データのみなら因果断定は危険
  • 「強い相関があるから原因」と書かれていたら切る

DS検定では、
「言い過ぎている選択肢」を見抜けるかが勝負です。


【対応スキル項目(データサイエンス力シート)】

  • データ理解
  • 統計的思考
  • ★ 相関と因果の違いを理解している

相関係数と決定係数の違いとは?回帰分析の基本を理解する【DS検定】

  • Source: pages\ds\correlation-coefficient-determination.md
  • Permalink: /ds/correlation-coefficient-determination/

まず結論

相関係数は「2つのデータの関係の強さ」を表し、決定係数は「その関係でどれくらい説明できるか」を表す指標です。

DS検定では

相関係数と決定係数の違い

決定係数の意味

を理解しているかが問われます。

特に

決定係数 = 相関係数²(単回帰の場合)

という関係はよく出題されます。


直感的な説明

例えば

勉強時間 テスト点数

1時間 50 2時間 60 3時間 70

のようなデータがあるとします。

この場合

勉強時間が増えるほど点数も上がる

という関係があります。

このとき

どれくらい強く関係しているか

を見るのが

相関係数です。

一方で

この関係を使って

点数を予測するモデル

を作ったとき

どれくらいデータを説明できているか

を見る指標が

決定係数です。


定義・仕組み

相関係数

相関係数は

2つのデータの直線的な関係の強さ

を表します。

特徴

値の範囲: -1 〜 1

値 意味

1 完全な正の相関 0 相関なし -1 完全な負の相関

例えば

気温とアイス売上 → 正の相関

気温と暖房使用量 → 負の相関

になります。


決定係数

決定係数は

回帰モデルがどれくらいデータを説明できているか

を表します。

値の範囲

0 〜 1

意味

値 意味

1 完全に説明できる 0 説明できない

例えば

決定係数 = 0.64

の場合

データのばらつきの64%を説明できている

という意味になります。


相関係数との関係

単回帰では

決定係数 = 相関係数²

という関係があります。

例えば

相関係数 = 0.8

なら

決定係数 = 0.64

になります。

DS検定ではこの関係がよく出題されます。


どんな場面で使う?

相関係数は

データ同士の関係があるか

を確認するときに使います。

例えば

広告費と売上

勉強時間とテスト点数

などです。

一方で決定係数は

回帰モデルの評価

で使われます。

例えば

売上予測モデル

需要予測

などです。


よくある誤解・混同

相関が高い=予測できる

これは誤解です。

相関が高くても

外れ値

説明変数不足

などの理由で

予測が当たらないことがあります。


相関係数0=関係なし

相関係数は

直線関係

しか測れません。

例えば

y = x²

のような関係では

相関係数が0になることがあります。

DS検定では

相関係数0は「直線関係がない」ことを意味する

という理解が重要です。


まとめ(試験直前用)

相関係数と決定係数は次のように整理できます。

相関係数 → 関係の強さ

決定係数 → モデルの説明力

覚えるポイント

相関係数の範囲は -1〜1

決定係数の範囲は 0〜1

単回帰では

決定係数 = 相関係数²

DS検定では

相関の意味と決定係数の意味を区別できるか

がよく問われます。


【対応スキル項目(データサイエンス力シート)】

スキルカテゴリ名 データサイエンス基礎

サブカテゴリ名 統計数理基礎

★ 相関や回帰など、複数の変数間の関係性を理解し説明できる


相関と因果の違いを一発で整理【DS検定リテラシー】

  • Source: pages\ds\correlation-vs-causation.md
  • Permalink: /ds/correlation-vs-causation/

まず結論

相関とは「2つのデータが一緒に変化する関係」、因果とは「一方が原因となってもう一方が結果として変化する関係」です。

DS検定では

相関があるからといって因果関係があるとは限らない

という判断ができるかがよく問われます。

つまり

相関 ≠ 因果

という理解が非常に重要です。


直感的な説明

データ分析では、2つのデータの間に関係が見つかることがあります。

例えば

気温

アイスクリームの売上

この2つには強い関係があります。

気温が上がると

アイスの売上が増える

という傾向があるためです。

このように

2つのデータが一緒に変化する関係

を 相関(correlation) といいます。

しかし、すべての相関が

原因と結果の関係(因果関係)

とは限りません。


定義・仕組み

相関

相関とは

2つの変数がどのように一緒に変化するか

を表す関係です。

例えば

気温が上がる → アイス売上が増える

勉強時間が増える → テスト点数が上がる

などです。

相関は

相関係数

という指標で表されることが多くあります。


因果

因果とは

一方が原因となり、もう一方が結果として変化する関係

です。

例えば

勉強時間 → テスト点数

の場合

勉強時間が増えることで

点数が上がる可能性があります。

この場合は

原因(勉強時間) → 結果(点数)

という因果関係があると考えられます。


どんな場面で使う?

データ分析では

まず

相関があるかどうか

を調べることが多くあります。

例えば

広告費と売上

気温と電力消費

利用時間とアプリ課金

などです。

しかしビジネスで重要なのは

本当に原因になっているか(因果)

です。

例えば

広告費と売上に相関があっても

季節

キャンペーン

などの影響で

売上が変わっている可能性もあります。

そのため

相関を見つけた後に因果を検証する

という流れになります。


よくある誤解・混同

相関がある=原因である

これはデータ分析で最もよくある誤解です。

有名な例として

アイスクリームの売上

溺水事故

には相関があります。

しかし

アイスを食べることが

溺水事故の原因ではありません。

実際の原因は

気温が高いこと

です。

このように

第三の要因(交絡要因)が存在することがあります。

DS検定では

相関と因果を区別できるか

という問題がよく出題されます。


相関が強いほど原因である

これも誤解です。

相関が強くても

偶然

外部要因

などで発生している場合があります。

そのため

相関だけでは因果関係は証明できません。


まとめ(試験直前用)

相関と因果は次のように整理できます。

相関 → 一緒に変化する関係

因果 → 原因と結果の関係

覚えるポイント

相関 ≠ 因果

第三の要因(交絡要因)が存在する場合がある

DS検定では

相関関係をそのまま原因と解釈していないか

という視点で選択肢を判断することが重要です。


【対応スキル項目(データサイエンス力シート)】

スキルカテゴリ名 データサイエンス基礎

サブカテゴリ名 データ理解

★ 相関や回帰など、複数の変数間の関係性を理解し説明できる


共分散と相関係数の違いとは?【DS検定リテラシー】

  • Source: pages\ds\covariance-and-correlation.md
  • Permalink: /ds/covariance-and-correlation/

まず結論

共分散は「2つの変数が一緒にどう動くか」を表す指標で、相関係数はそれを「−1〜1に正規化したもの」です。

DS検定では、「共分散と相関係数の違い」を理解しているか、特に“単位の影響”を区別できるかが問われます。


直感的な説明

たとえば、

  • 勉強時間とテストの点数
  • 気温とアイスの売上

このように「一方が増えるともう一方も増える」関係があります。

共分散は何を見る?

「同じ方向に動いているかどうか」を見ます。

  • プラス → 同じ方向に動く
  • マイナス → 逆方向に動く

ただし、値の大きさは単位に左右されます。


相関係数は何を見る?

共分散を“ばらつき”で割って、
単位の影響を取り除いたものが相関係数です。

その結果、

  • 値は −1〜1 の範囲
  • 強さを比較できる

という性質を持ちます。


定義・仕組み

共分散の式

\[\mathrm{Cov}(X, Y) = \frac{1}{n} \sum (x_i - \bar{x})(y_i - \bar{y})\]

意味は、

「Xが平均より大きいとき、Yも平均より大きいか?」

を全体で見ている、ということです。


相関係数の式

\[r = \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y}\]

つまり、

共分散 ÷(それぞれの標準偏差)

です。

標準偏差で割ることで、

  • 単位の影響を除く
  • 値を −1〜1 に収める

という効果があります。

DS検定では、

「相関係数は共分散を正規化したもの」

と理解していれば十分です。


どんな場面で使う?

共分散を使う場面

  • 数学的な理論展開
  • 分散共分散行列の計算
  • 多変量解析の内部処理

ビジネス現場では、共分散単体で解釈することはあまり多くありません。


相関係数を使う場面

  • 変数間の関係の強さを比較したいとき
  • 特徴量の関係を確認したいとき
  • 多重共線性をチェックするとき

実務では、ほとんどの場合「相関係数」を使います。


よくある誤解・混同

① 共分散の値の大きさ=関係が強い?

これは誤りです。

共分散は単位に依存します。

売上(円)と気温(℃)の共分散と、 売上(万円)と気温(℃)の共分散は値が変わります。

DS検定では、

「共分散が大きいほど関係が強い」

という選択肢は注意が必要です。


② 相関係数は単位に依存する?

誤りです。

相関係数は正規化されているため、単位の影響を受けません。


③ 共分散と相関係数の符号の違い

符号(プラス・マイナス)は一致します。

方向性は同じです。


まとめ(試験直前用)

  • 共分散:一緒に動く方向を見る指標(単位に依存)
  • 相関係数:共分散を正規化したもの(−1〜1)
  • 実務で解釈するのは基本的に相関係数
  • 共分散の大きさは比較に使えない
  • 符号は一致する

【対応スキル項目(データサイエンス力シート)】

  • データ理解
  • データの関係性把握
  • ★ 共分散と相関係数の違いを理解している

共分散と相関係数の違いとは?2つのデータの関係を理解する【DS検定】

  • Source: pages\ds\covariance-correlation.md
  • Permalink: /ds/covariance-correlation/

まず結論

共分散と相関係数は、2つのデータがどのような関係で動くかを表す指標です。

DS検定では特に

2つのデータの関係を見る指標は何か

共分散と相関係数の違い

を理解しているかが問われます。

ポイントは次の通りです。

共分散 → 2つのデータが一緒に増減するか

相関係数 → 関係の強さを -1〜1 で表す


直感的な説明

例えば次のようなデータを考えます。

気温 アイス売上

20℃ 100 25℃ 150 30℃ 200

この場合

気温が上がると売上も増えています。

このように

片方が増えるともう片方も増える

という関係を調べるときに使うのが

共分散

相関係数

です。

逆に

気温 暖房使用量

10℃ 多い 20℃ 少ない

のように

片方が増えるともう片方が減る

という関係もあります。

このような関係も統計で表すことができます。


定義・仕組み

共分散と相関係数は

2つのデータの平均からのズレ

を使って計算されます。

共分散

共分散は

2つのデータが同じ方向に動くか

を見る指標です。

共分散の特徴

正の値 → 一緒に増える

負の値 → 片方が増えるともう片方が減る

例えば

気温とアイス売上 → 正の共分散

気温と暖房使用量 → 負の共分散

になります。

ただし共分散には問題があります。

それは

単位の影響を受けること

です。

例えば

身長(cm)

身長(m)

のように単位を変えると

共分散の値も変わってしまいます。


相関係数

この問題を解決した指標が

相関係数です。

相関係数の特徴

値の範囲: -1 〜 1

絶対値が大きいほど関係が強い

意味は次の通りです。

値 意味

1 完全な正の相関 0 相関なし -1 完全な負の相関

相関係数は

共分散を標準化した指標

と考えると理解しやすくなります。


どんな場面で使う?

共分散や相関係数は

データ同士の関係を調べるとき

に使われます。

例えば

広告費と売上

気温と電力消費

勉強時間とテスト点数

などです。

データ分析ではまず

相関があるかどうか

を確認してから

回帰分析

予測モデル

を作ることが多くあります。


よくある誤解・混同

相関がある=因果関係がある

これは非常によくある誤解です。

DS検定でも

相関と因果の違い

はよく問われます。

例えば

アイス売上

溺死事故

には相関があります。

しかし原因は

気温

です。

このように

相関 ≠ 因果

であることに注意が必要です。


相関係数0=関係がない

これも注意が必要です。

相関係数は

直線の関係

しか測れません。

例えば

y = x²

のような関係では

相関係数が0に近くなることがあります。

DS検定では

相関係数0は「直線関係がない」ことを意味する

という理解が重要です。


まとめ(試験直前用)

共分散と相関係数は

2つのデータの関係

を表す指標です。

覚えるポイント

共分散 → 一緒に増減するか

相関係数 → 関係の強さ

相関係数の範囲は -1〜1

DS検定では

相関 ≠ 因果

相関係数0でも関係がある場合がある

という点がよく問われます。


【対応スキル項目(データサイエンス力シート)】

スキルカテゴリ名 データサイエンス基礎

サブカテゴリ名 統計数理基礎

★ 相関や回帰など、複数の変数間の関係性を理解し説明できる


CPS・IoT・デジタルツインの違いを一発整理【DS検定チートシート】

  • Source: pages\ds\cps-iot-digitaltwin-cheatsheet.md
  • Permalink: /ds/cps-iot-digitaltwin-cheatsheet/

まず結論

IoTは「つなぐ」、デジタルツインは「再現する」、CPSは「最適化する」。

DS検定では、この3つの“役割の違い”を見抜けるかが問われます。


直感的な説明

まずイメージで整理します。

  • IoT:モノをインターネットにつなぐ
  • デジタルツイン:現実の分身をデジタル空間に作る
  • CPS:データを使って現実を制御・最適化する

たとえばスマート工場なら:

  1. センサーで機械をネット接続(IoT)
  2. 仮想空間に工場を再現(デジタルツイン)
  3. 最適な制御を現実に反映(CPS)

という関係になります。


定義・仕組み

IoT(Internet of Things)

  • モノがネットワークにつながる仕組み
  • データ収集が中心
  • 制御までは必須ではない

デジタルツイン(Digital Twin)

  • 現実世界をサイバー空間にリアルタイム再現
  • 予測・シミュレーションが目的
  • 制御は必須ではない

CPS(Cyber-Physical System)

  • 現実とサイバーを双方向に連携
  • 分析結果を現実にフィードバック
  • 制御・最適化まで含む

どんな場面で使う?

DS検定でよく問われるパターン

  • 「現実世界を再現する技術はどれか?」 → デジタルツイン
  • 「モノがネットワークにつながる概念は?」 → IoT
  • 「現実世界を最適化する仕組みは?」 → CPS

よくある誤解・混同

① IoT=CPSではない

IoTは接続。
CPSは接続+分析+制御。

「IoTは現実世界を制御する仕組みである」とあれば誤り。


② デジタルツイン=CPSではない

デジタルツインは“再現”。
CPSは“最適化”。

選択肢で
「デジタルツインは現実を自動制御する仕組み」
とあれば注意。


③ スケール感の違い

  • IoT:技術要素
  • デジタルツイン:技術概念
  • CPS:システム全体構造

まとめ(試験直前用)

  • IoT=つなぐ
  • デジタルツイン=再現する
  • CPS=最適化する
  • 「制御まで含むか?」が最大の判断基準
  • DS検定では役割の違いを問われる

迷ったら
接続か?再現か?制御か?
で切り分けましょう。


【対応スキル項目(AI利活用スキルシート)】

  • AIの社会実装
  • AIの活用と社会的影響
  • ★ AIの活用により社会やビジネスがどのように変化するかを理解している

CPS(サイバーフィジカルシステム)とは?Society5.0の中核技術を理解する【DS検定】

  • Source: pages\ds\cps.md
  • Permalink: /ds/cps/

まず結論

CPS(Cyber-Physical System)とは、「現実世界(フィジカル空間)とサイバー空間(データ空間)を連携させる仕組み」です。

DS検定では、Society5.0やIoTの文脈で登場し、
“技術の名前”ではなく“仕組みの概念”であることを理解しているかが問われます。


直感的な説明

イメージはこうです。

  1. センサーで現実世界の情報を集める
  2. データをクラウドやAIで分析する
  3. 分析結果を現実世界に反映する

たとえば、

  • 工場の設備をリアルタイム監視する
  • 自動運転車が周囲の状況を判断する
  • スマート農業で水や肥料を自動調整する

これはすべてCPSの考え方です。

「現実 → データ → 分析 → 現実に戻す」
この循環がポイントです。


定義・仕組み

CPS(Cyber-Physical System)は、

フィジカル空間の情報をセンサーで取得し、サイバー空間で処理・分析し、その結果を再びフィジカル空間に反映する仕組み

と定義されます。

仕組みの流れ

① センシング(データ取得)
② データ蓄積・分析(AI・ビッグデータ)
③ フィードバック(制御・最適化)

重要なのは、双方向性です。

単にデータを集めるだけではCPSとは言えません。
分析結果が現実世界の動きに反映されてはじめてCPSになります。


どんな場面で使う?

使われる場面

  • スマート工場(Industry 4.0)
  • 自動運転
  • スマートシティ
  • エネルギー最適化
  • 医療モニタリング

DS検定での出題文脈

  • Society5.0の実現手段として
  • IoTとの関係性の理解
  • データ活用の仕組み説明

よくある誤解・混同

① IoTとの違い

  • IoT:モノがネットにつながること
  • CPS:つながったデータを活用し、現実を制御する仕組み

IoTは“接続”
CPSは“接続+分析+制御”

選択肢で
「CPSはセンサーでデータを収集する技術」
とあれば、それだけでは不十分なので誤りです。


② AIとの違い

  • AI:分析の手段
  • CPS:仕組み全体

AIはCPSの一部です。


③ Society5.0との関係

  • Society5.0:未来社会のビジョン
  • CPS:それを実現する中核技術

スケールの違いに注意です。


まとめ(試験直前用)

  • CPS=現実世界とサイバー空間を融合する仕組み
  • 「取得 → 分析 → 反映」の循環が本質
  • IoTは接続、CPSは制御まで含む
  • AIはCPSの一部
  • Society5.0を支える技術概念

DS検定では
「データを活用して現実を最適化する仕組みか?」
を判断基準にすると迷いません。


【対応スキル項目(AI利活用スキルシート)】

  • AIの社会実装
  • AIの活用と社会的影響
  • ★ AIの活用により社会やビジネスがどのように変化するかを理解している

クリティカルパスとは?プロジェクト遅延を左右する重要な経路【DS検定】

  • Source: pages\ds\critical-path.md
  • Permalink: /ds/critical-path/

まず結論

クリティカルパス(Critical Path)とは、プロジェクト全体の完了時間を決める最も長い作業経路のことです。

DS検定では 「この経路が遅れるとプロジェクト全体が遅れる」作業の流れを理解しているかが問われます。


直感的な説明

プロジェクトには多くの作業があります。

例えばデータ分析プロジェクトでは

データ取得

データ前処理

分析

モデル評価

レポート作成

といった流れになります。

しかしすべての作業が

同じ重要度でスケジュールに影響するわけではありません。

例えば

データ取得 → 前処理 → 分析 → レポート

この流れが遅れると

プロジェクト全体が遅れます。

このような

最も重要な作業の連続した経路

クリティカルパス

と呼びます。


定義・仕組み

クリティカルパス(Critical Path)とは

プロジェクト完了までに必要な作業の中で 最も長い所要時間となる作業の経路

です。

特徴は次の通りです。

① 最も長い作業経路

複数の作業ルートがある場合

A → B → C A → D → E

それぞれの所要時間を比較して

最も時間がかかるルート

がクリティカルパスになります。


② 遅れるとプロジェクトが遅れる

クリティカルパス上の作業は

余裕時間(バッファ)がありません。

そのため

作業が遅れる

トラブルが発生

すると

プロジェクト全体の納期が遅れます。


③ プロジェクト管理で最も重要

プロジェクトマネージャーは

特に

クリティカルパス上のタスク

を重点的に管理します。


どんな場面で使う?

① プロジェクトスケジュール管理

プロジェクトでは

どの作業が重要か

どこが遅れると危険か

を把握する必要があります。

クリティカルパスを把握すると

優先して管理すべきタスク

が分かります。


② システム開発

システム開発では

要件定義

設計

開発

テスト

などの工程があります。

この中で

最も時間がかかる作業の流れ

がクリティカルパスになります。


③ データ分析プロジェクト

データ分析では

データ取得

前処理

モデル作成

評価

などの工程があります。

データ準備が遅れると

すべての分析工程が遅れます。

このような場合

データ準備が

クリティカルパスの一部

になります。


よくある誤解・混同

① 重要な作業=クリティカルパスではない

クリティカルパスは

重要度ではなく時間で決まります。

つまり

最も長い作業経路

がクリティカルパスです。

DS検定では

時間的に最も長い経路

という表現に注意しましょう。


② WBSとの違い

手法 役割

WBS 作業を分解する ガントチャート スケジュール管理 クリティカルパス 遅延リスクの把握

DS検定では

これらを

プロジェクト管理手法として区別できるか

が問われます。


③ すべての作業が対象ではない

クリティカルパスは

一部の作業経路のみです。

余裕時間がある作業は

遅れても

プロジェクト全体には影響しない場合があります。


まとめ(試験直前用)

クリティカルパス=プロジェクト完了時間を決める作業経路

最も時間がかかるルート

遅れるとプロジェクト全体が遅れる

WBS → 作業分解

ガントチャート → 時間管理

クリティカルパス → 遅延リスク管理


【対応スキル項目(ビジネス力シート)】

プロジェクト推進

リソースマネジメント

★ 指示に従ってスケジュールを守り、チームリーダーに頼まれた自分の仕事を完遂できる


次元の呪いとは?(高次元データで起きる問題)【DS検定】

  • Source: pages\ds\curse-of-dimensionality.md
  • Permalink: /ds/curse-of-dimensionality/

まず結論

次元の呪い(Curse of Dimensionality)とは、
特徴量(変数)の数が増えすぎると、データの解析や機械学習がうまく機能しなくなる問題のことです。

DS検定では、

  • 特徴量が増えるとデータの組み合わせが急増する
  • 距離や密度の概念がうまく働かなくなる
  • 過学習が起きやすくなる

といった 高次元データ特有の問題を理解しているか が問われます。


直感的な説明

例えば、商品の売上を分析するとします。

最初は次のような 少ない特徴量だけを使うとします。

  • 価格
  • 季節

この場合、データの関係は比較的シンプルです。

しかし、次のように特徴量をどんどん増やしていくとどうなるでしょう。

  • 価格
  • 季節
  • 気温
  • 曜日
  • 広告の種類
  • 店舗の場所
  • 顧客の年齢
  • 顧客の職業
  • 購入履歴

このように 変数(特徴量)が増えすぎると、データの組み合わせが爆発的に増えます。

すると

  • データがスカスカになる
  • モデルがうまく一般化できない
  • 距離が意味を持たなくなる

といった問題が起きます。

これを 次元の呪いと呼びます。


定義・仕組み

機械学習では、データを次のような形で扱います。

1つの特徴量 = 1つの次元

例:

特徴量 意味
身長 1次元
身長・体重 2次元
身長・体重・年齢 3次元

この 次元(特徴量)が増えるほど、データ空間は急激に広くなります。

すると次の問題が起きます。

① データが疎(スカスカ)になる

次元が増えると、同じ数のデータでは

空間を埋めることができなくなる

ため、

  • データ密度が低くなる
  • 学習が難しくなる

という問題が発生します。


② 距離が意味を持たなくなる

クラスタリングやk-NNなどでは

データ同士の距離

を使います。

しかし次元が増えると

  • すべての点の距離が似た値になる

という現象が起き、

「近いデータ」と「遠いデータ」の区別が難しくなります。


③ 過学習が起きやすい

特徴量が多すぎると、

モデルが

データのノイズまで学習してしまう

ため、

  • 学習データでは高精度
  • 新しいデータでは低精度

という 過学習(Overfitting) が起きやすくなります。


どんな場面で使う?

次元の呪いは、次のような場面で特に問題になります。

機械学習

  • 特徴量が多すぎる
  • データ数が少ない

ときに発生しやすいです。

例:

  • 画像認識
  • テキスト分析
  • 顧客属性分析

クラスタリング

クラスタリングでは

距離

を使ってデータを分類します。

しかし高次元になると

  • 距離が均一化する

ため、

クラスタを正しく分けられなくなる

ことがあります。


対策

次元の呪いを避けるために、次の方法が使われます。

① 特徴量選択(Feature Selection)

不要な特徴量を削除する

  • 相関が高すぎる特徴量を削除
  • 重要度の低い特徴量を削除

② 次元削減(Dimensionality Reduction)

情報を保ったまま次元を減らす方法

  • PCA(主成分分析)

よくある誤解・混同

誤解①

「特徴量は多いほど良い」

これは必ずしも正しくありません。

特徴量が多すぎると

  • 過学習
  • 計算量増加
  • 次元の呪い

が発生します。


誤解②

「次元の呪い=計算が遅くなること」

計算量の増加も問題ですが、
本質は

データの構造が学習しにくくなること

です。


DS検定の典型的なひっかけ

選択肢でよくある誤り:


「特徴量を増やすほどモデルの性能は必ず向上する」


「特徴量が増えすぎると次元の呪いが発生する」


まとめ(試験直前用)

  • 次元の呪い=特徴量が増えすぎることで学習が難しくなる問題
  • 次元が増えると データ空間が指数的に広がる
  • 結果として
    • データが疎になる
    • 距離が意味を持たなくなる
    • 過学習が起きやすくなる
  • 対策は
    特徴量選択次元削減

DS検定では
「特徴量が多いほど良い」という誤った理解を見抜けるか
が重要なポイントです。


対応スキル項目

【対応スキル項目(データサイエンス力シート)】

  • スキルカテゴリ名
    機械学習

  • サブカテゴリ名
    機械学習

  • ★ 次元の呪いとは何か、その問題について説明できる


カスタマージャーニーとは?顧客体験を理解するフレームワーク【DS検定】

  • Source: pages\ds\customer-journey.md
  • Permalink: /ds/customer-journey/

まず結論

カスタマージャーニー(Customer Journey)とは、顧客が商品やサービスを知ってから購入・利用するまでの一連の体験を時系列で整理したものです。

DS検定では 顧客行動をデータで理解するマーケティング手法として登場します。

ポイントは

顧客が「どのような行動や体験を経て購買に至るのか」を可視化する

という点です。


直感的な説明

例えば、ECサイトで商品を購入する場合を考えてみます。

顧客は次のような流れをたどります。

  1. SNSで商品を知る

  2. Webサイトを訪問する

  3. 商品を比較する

  4. 購入する

  5. レビューを書く

この一連の流れが カスタマージャーニー です。

企業はこの流れを分析することで

どこで顧客が離脱しているのか

どの施策が効果的なのか

を理解できます。


定義・仕組み

カスタマージャーニーでは、顧客の行動を次のような要素で整理します。

フェーズ(段階)

顧客の行動を段階に分けます。

認知

興味

検討

購入

利用


タッチポイント

顧客が企業やサービスと接触する場所です。

SNS

Webサイト

店舗

広告


顧客の行動

その段階で顧客が何をしているのかを整理します。

情報検索

商品比較

レビュー確認


感情

顧客がどのような感情を持っているかも分析します。

興味

不安

満足


どんな場面で使う?

マーケティング

顧客行動を理解することで

広告施策

キャンペーン

を改善できます。


Webサービス改善

ユーザー行動を分析し

UI改善

導線改善

に活用します。


データ分析

アクセスログや購買データを使って

顧客の行動パターンを分析します。


よくある誤解・混同

ファネルとの違い

概念 内容

ファネル 購買までの人数の変化 カスタマージャーニー 顧客体験の流れ

ファネルは

人数の変化を見る分析

カスタマージャーニーは

顧客体験を理解する分析

です。


A/Bテストとの関係

カスタマージャーニーで

改善ポイント

を見つけた後に

A/Bテストで施策を検証します。


まとめ(試験直前用)

カスタマージャーニーは 顧客体験の流れを整理する手法

認知 → 興味 → 検討 → 購入 → 利用

顧客行動や感情を分析する

マーケティングやUX改善に活用

DS検定では

「顧客の行動や体験を時系列で整理する手法」

と書かれていたら

カスタマージャーニーと判断するのがポイントです。


【対応スキル項目(ビジネス力シート)】

ビジネス理解

データ活用

★ データを活用した意思決定の重要性を理解している


データ拡張(Data Augmentation)とは?画像AIの学習データを増やす方法【DS検定】

  • Source: pages\ds\data-augmentation.md
  • Permalink: /ds/data-augmentation/

まず結論

データ拡張(Data Augmentation)とは、既存の画像データを変換して人工的に学習データを増やす手法です。

DS検定では

学習データ不足の対策

過学習の防止

という文脈で出題されることがあります。


直感的な説明

AIを学習させるときは

大量のデータ

が必要になります。

しかし現実の問題では

医療画像

不良品画像

など

データ数が少ない

ケースがよくあります。

このとき

同じ画像を

回転する

左右反転する

拡大する

などの変換を行い

新しいデータとして学習に使う方法

がデータ拡張です。


定義・仕組み

データ拡張とは

既存データを変換して学習データを人工的に増やす方法

です。

画像AIでは次のような変換がよく使われます。

回転(Rotation)

画像を回転させます。

10°回転

20°回転

など。


反転(Flip)

画像を左右または上下に反転します。

左右反転

上下反転


拡大・縮小(Zoom)

画像の一部を拡大して

異なる視点のデータを作ります。


明るさ変更

明るさやコントラストを変え

異なる環境条件を再現します。


どんな場面で使う?

データ拡張は

画像AIの学習で非常に重要な技術です。

データ不足の対策

学習データが少ない場合でも

データ拡張によって

学習用データを増やすことができます。


過学習の防止

同じデータだけで学習すると

AIは

特定の画像に過剰に適合

してしまうことがあります。

これを

過学習(Overfitting)

と呼びます。

データ拡張により

多様なデータを学習させることで

過学習を防ぎやすくなります。


よくある誤解・混同

誤解①

データ拡張=新しいデータ収集

これは違います。

データ拡張は

既存データを変換して作る

方法です。


誤解②

データが多ければデータ拡張は不要

実際には

データ拡張を使うことで

AIの汎化性能が向上する

場合があります。


DS検定のひっかけ

DS検定では

「データ拡張は学習データを人工的に増やす方法」

という理解が重要です。

選択肢で

「データ拡張はテストデータを増やす方法」

と書かれていたら 誤り です。

データ拡張は

学習データに対して行います。


まとめ(試験直前用)

データ拡張は 既存データを変換してデータ数を増やす方法

画像AIでは

回転

反転

拡大

明るさ変更 などが使われる

主な目的

データ不足対策

過学習防止

DS検定では

データ拡張=学習データを人工的に増やす技術

と覚えると判断しやすくなります。


【対応スキル項目(AI利活用スキルシート)】

スキルカテゴリ名 AIの技術理解

サブカテゴリ名 機械学習

★ 代表的な機械学習手法の概要を理解している


データキューブとは?OLAP分析の基本概念を理解する【DS検定】

  • Source: pages\ds\data-cube.md
  • Permalink: /ds/data-cube/

まず結論

  • データキューブとは、多次元データを立体的に整理して分析できるデータ構造です。
  • OLAP分析では、このデータキューブを操作して スライス・ダイス・ドリルダウン などの分析を行います。

DS検定では
「OLAP分析=データキューブを操作する分析」
という関係を理解しているかが問われます。


直感的な説明

例えば売上データを考えます。

商品 地域 売上
A 東京 1月 100
A 大阪 1月 80
B 東京 1月 120

このようなデータは

  • 商品
  • 地域
  • 時間

といった 複数の視点(次元) を持っています。

このデータを立体的に整理すると

時間
     ↑
     |
地域 ← データ → 商品

のような 立体構造になります。

この立体データを

データキューブ(Data Cube)

と呼びます。


定義・仕組み

データキューブとは

複数の次元(dimension)を持つデータを
立体的に整理したデータ構造

です。

例えば売上データの場合

次元
商品 商品A、商品B
地域 東京、大阪
時間

この3つの次元を持つデータは

3次元キューブ

として整理できます。

この構造を使うことで

  • 商品別売上
  • 地域別売上
  • 月別売上

などを さまざまな角度から分析できます。

これが OLAP分析の基本仕組みです。


どんな場面で使う?

データキューブは

BIツールやOLAP分析で使われます。

例えば

売上分析

  • 商品別売上
  • 地域別売上
  • 月別売上

を自由に切り替えて分析できます。

マーケティング分析

  • 顧客属性
  • 商品カテゴリ
  • 購買時期

などを組み合わせて分析します。

経営ダッシュボード

企業のデータを

  • 部門
  • 地域
  • 時間

などの視点から分析します。


よくある誤解・混同

データキューブ ≠ OLAP

DS検定ではここがよく問われます。

用語 意味
データキューブ 多次元データ構造
OLAP そのデータを分析する仕組み

つまり

データキューブは「データ構造」
OLAPは「分析方法」

です。


OLAP操作との関係

データキューブを操作することで

次の分析ができます。

操作 内容
スライス 1つの次元で切る
ダイス 複数条件で範囲抽出
ドリルダウン 詳細データを見る
ドリルアップ 集計レベルを上げる
ピボット 分析軸を入れ替える

DS検定では
これらはすべてデータキューブ操作として出題されます。


まとめ(試験直前用)

  • データキューブ=多次元データを整理した立体構造
  • OLAP分析は データキューブを操作する分析方法
  • スライス・ダイス・ドリルダウンは キューブ操作
  • DS検定では
    データ構造(キューブ)と分析方法(OLAP)の違いがよく問われる

【対応スキル項目(ビジネス力シート)】

  • データ利活用
  • データ分析の活用

★ データ分析結果をビジネスの意思決定に活用することができる


データドリブン経営とは?データにもとづいて意思決定する考え方【DS検定】

  • Source: pages\ds\data-driven-management.md
  • Permalink: /ds/data-driven-management/

まず結論

データドリブン経営(Data Driven Management)とは、経験や勘だけではなく「データにもとづいて意思決定を行う経営手法」です。

DS検定では データ活用による意思決定の考え方として出題されることが多いです。

試験では特に

勘や経験による判断

データにもとづく判断

の違いを理解しているかが問われます。


直感的な説明

例えば、ある商品の売上が落ちているとします。

このとき次のような判断方法があります。

勘や経験による判断

最近売れていない気がする

価格を下げれば売れるのでは


データにもとづく判断

売上データ

顧客データ

アクセスログ

などを分析して

どの地域で売上が落ちているか

どの顧客層の購入が減っているか

を調べて意思決定します。

このように

データを根拠に意思決定する経営スタイルが

データドリブン経営です。


定義・仕組み

データドリブン経営とは

データ分析の結果をもとに企業の意思決定を行う経営アプローチ

です。

企業では次のようなデータが活用されます。

売上データ

顧客データ

行動ログ

センサーデータ

これらのデータを分析することで

市場の変化

顧客の行動

業務の効率

などを客観的に把握できます。

その結果

商品戦略

マーケティング

業務改善

などの意思決定に活用されます。


どんな場面で使う?

データドリブン経営はさまざまな分野で活用されています。

マーケティング

顧客データを分析して

ターゲット顧客

商品戦略

を決めます。


製造業

センサーデータを使って

故障予知

品質改善

などを行います。


ECサイト

アクセスデータを分析して

レコメンド

UI改善

を行います。


よくある誤解・混同

DS検定では次のような誤解を狙った問題が出ることがあります。

勘や経験との違い

データドリブン経営は

勘や経験を完全に否定するものではありません。

ただし

意思決定の根拠としてデータを重視する点が特徴です。


データ分析との違い

概念 内容

データ分析 データを解析すること データドリブン経営 データを意思決定に活用すること

つまり

分析だけでなく経営判断まで含む概念です。


まとめ(試験直前用)

データドリブン経営は データにもとづいて意思決定する経営手法

勘や経験ではなく データを根拠に判断する

売上データ・顧客データ・ログなどを活用

分析だけではなく 経営判断に活用する点が重要

DS検定では

「データにもとづいて意思決定を行う経営」

と書かれていたら

データドリブン経営と判断するのがポイントです。


【対応スキル項目(ビジネス力シート)】

ビジネス理解

データ活用

★ データを活用した意思決定の重要性を理解している


データドリブンとは?勘や経験に頼らない意思決定【DS検定】

  • Source: pages\ds\data-driven.md
  • Permalink: /ds/data-driven/

データドリブンとは?


まず結論

データドリブン(Data Driven)とは、

勘や経験ではなく、データに基づいて意思決定を行う考え方です。

DS検定では、

  • データ分析
  • KPI管理
  • A/Bテスト

などを活用して 合理的に判断する経営・業務スタイルとして登場します。


直感的な説明

例えば新しい広告を出したとき、

勘や経験だけで判断すると

  • 「なんとなく売上が増えた気がする」
  • 「今回の施策は成功だった」

という曖昧な判断になってしまいます。

一方、データドリブンでは

  • 売上データ
  • アクセス数
  • クリック率
  • コンバージョン率

などを分析して

データで効果を確認します。

例えば

  • A広告 → CTR 2%
  • B広告 → CTR 4%

なら

B広告の方が効果が高い

と客観的に判断できます。

これが データドリブン意思決定です。


定義・仕組み

データドリブン意思決定は、次の流れで行われます。


① データ収集

まず必要なデータを集めます。

  • 売上データ
  • 顧客データ
  • 行動ログ
  • センサーデータ

② データ分析

データを分析して

  • 傾向
  • 相関
  • 異常

などを見つけます。

  • 売上と広告の関係
  • 購入率とページ表示時間

③ 意思決定

分析結果をもとに

  • 施策の改善
  • 戦略の変更

などの判断を行います。


④ 改善サイクル

意思決定の結果をもとに

  • PDCA
  • A/Bテスト

などを使って改善を続けます。


どんな場面で使う?


データドリブン経営

企業経営では

  • KPI管理
  • ダッシュボード
  • BIツール

などを使って

データをもとに経営判断を行います。


マーケティング

マーケティングでは

  • A/Bテスト
  • カスタマージャーニー分析
  • 顧客データ分析

などで施策を改善します。


AI・データ分析

AIや機械学習では

  • データ収集
  • モデル評価
  • 予測分析

などを行い

意思決定を支援します。


よくある誤解・混同


データがあれば正しい判断ができる?

❌ データが多ければ正しいとは限らない

重要なのは

  • データ品質
  • 分析方法
  • 解釈

です。


勘や経験は不要?

❌ 完全に不要ではない

実際には

  • ドメイン知識
  • 現場理解

とデータを組み合わせることが重要です。


まとめ(試験直前用)

データドリブンとは

データに基づいて意思決定を行う考え方

です。

特徴

  • 勘や経験だけに頼らない
  • データ分析を活用
  • KPIやA/Bテストで改善

DS検定では

「データに基づく意思決定」

という表現が出たら

データドリブン

と判断できることが重要です。


【対応スキル項目(ビジネス力シート)】

  • データ活用
  • データに基づく意思決定
  • データドリブン経営の理解

データ抽出と集計の違いとは?(SQL・BIで混同しやすい操作)【DS検定】

  • Source: pages\ds\data-extraction-vs-aggregation.md
  • Permalink: /ds/data-extraction-vs-aggregation/

まず結論

データ抽出は「必要なデータを選ぶ操作」、集計は「データをまとめて数値を計算する操作」です。 DS検定では、この2つの役割の違いを理解しているかがよく問われます。


直感的な説明

例えば、次の売上データがあるとします。

日付 店舗 売上

4/1 東京 80万円 4/2 東京 120万円 4/3 大阪 90万円 4/4 東京 150万円

データ抽出

「売上100万円以上の日だけ知りたい」

日付 店舗 売上

4/2 東京 120万円 4/4 東京 150万円

これは 条件に合うデータを取り出しているだけです。

これが データ抽出(フィルタリング) です。


集計

「東京店舗の売上合計を知りたい」

店舗 売上合計

東京 350万円 大阪 90万円

このように

複数のデータをまとめて数値を計算する操作

が 集計(Aggregation) です。


定義・仕組み

データ抽出

データ抽出とは

条件に合うレコード(行)だけを取り出す処理です。

SQLでは主に WHERE句を使います。

SELECT * FROM sales WHERE 売上 >= 1000000;


集計

集計とは

複数のデータをまとめて統計値を計算する処理です。

SQLでは次のような関数を使います。

関数 意味

SUM 合計 AVG 平均 COUNT 件数 MAX 最大 MIN 最小

SELECT 店舗, SUM(売上) FROM sales GROUP BY 店舗;

これは

店舗ごとの売上合計を計算する処理です。


どんな場面で使う?

データ分析ではこの2つはよく組み合わせて使われます。

典型的な流れは次の通りです。

① データ抽出 ② 集計 ③ 可視化

例:

「2024年の売上だけ抽出 → 店舗ごとに売上合計 → グラフ表示」

つまり

抽出はデータを選ぶ作業 集計はデータをまとめて計算する作業

です。


よくある誤解・混同

① 抽出と集計を同じ操作と思ってしまう

DS検定では次のようなひっかけが出ることがあります。

❌ 「データ抽出とは平均や合計を計算する処理である」

これは誤りです。

抽出 → データを選ぶ

集計 → 数値を計算する

役割が全く違います。


② WHEREとGROUP BYの混同

操作 役割

WHERE データ抽出 GROUP BY 集計

DS検定では

「条件によるデータの絞り込み」=WHERE

と理解しておくと選択肢を切りやすくなります。


③ フィルタリング=集計と思う

ExcelでもBIツールでも

フィルターと集計は 別機能です。

この違いは実務でも非常に重要です。


まとめ(試験直前用)

データ抽出 → 条件に合うデータを取り出す

集計 → データをまとめて数値を計算

SQLでは

操作 SQL

データ抽出 WHERE 集計 GROUP BY

DS検定では

「条件でデータを取り出す」=抽出(フィルタリング)

と覚えておくと判断しやすくなります。


対応スキル項目

【対応スキル項目(データエンジニアリング力シート)】

データ加工

データ抽出・加工

★ 数十万レコードのデータに対して、条件を指定してフィルタリングできる(特定値に合致する・もしくは合致しないデータの抽出、特定範囲のデータの抽出、部分文字列の抽出など)


データガバナンスとは?データ活用に必要な管理の仕組み【DS検定】

  • Source: pages\ds\data-governance.md
  • Permalink: /ds/data-governance/

まず結論

データガバナンス(Data Governance)とは、組織がデータを適切に管理・活用するためのルールや仕組みのことです。

DS検定では データ活用を安全かつ効果的に行うための管理体制として出題されます。

ポイントは

データを「自由に使う」だけではなく「適切に管理する」こと

です。


直感的な説明

企業では多くのデータが扱われています。

例えば

顧客情報

売上データ

行動ログ

しかしデータ管理が不十分だと

情報漏洩

誤ったデータ分析

不正利用

などの問題が起きます。

そこで

誰が使えるのか

どのように管理するのか

どこまで利用できるのか

といったルールを決めます。

これが データガバナンス です。


定義・仕組み

データガバナンスは主に次の要素で構成されます。

データ管理ルール

データの取り扱い方法を定めます。

データ保存方法

アクセス権限

セキュリティ


データ品質管理

データが正確で信頼できる状態を保ちます。

データクレンジング

重複データ管理


アクセス管理

誰がどのデータを使えるかを管理します。

権限管理

ログ管理


コンプライアンス

法律や規制を守る仕組みです。

個人情報保護

GDPR対応


どんな場面で使う?

データ活用企業

企業がデータ分析を行う場合

データ管理

セキュリティ

が重要になります。


AI・データ分析プロジェクト

AIモデルの学習データが

不正確

偏りがある

と正しい分析ができません。

そのため

データ品質管理が重要になります。


法規制対応

個人データを扱う場合

GDPR

個人情報保護法

などの規制への対応が必要です。


よくある誤解・混同

データマネジメントとの違い

概念 内容

データガバナンス データ管理のルール・方針 データマネジメント 実際の管理作業

つまり

ガバナンス → 方針

マネジメント → 実務

です。


データセキュリティとの違い

概念 内容

データガバナンス データ管理全体の仕組み データセキュリティ 情報漏洩防止などの対策

データセキュリティは

データガバナンスの一部です。


まとめ(試験直前用)

データガバナンスは データ管理のルールや仕組み

データ品質

アクセス管理

セキュリティ

法規制対応

などを含む。

DS検定では

「データを適切に管理・活用するための仕組み」

と書かれていたら

データガバナンスと判断するのがポイントです。


【対応スキル項目(ビジネス力シート)】

ビジネス理解

データ活用

★ データ管理とデータ活用の重要性を理解している


データレイクとは?(DWHとの違いも整理)【DS検定リテラシー】

  • Source: pages\ds\data-lake.md
  • Permalink: /ds/data-lake/

まず結論

データレイクとは、形式を問わず生データをそのまま大量に保存するための仕組み(考え方)です。
DS検定では「データウェアハウス(DWH)との違い」を判断させる問題がよく出ます。


直感的な説明

データレイク

とにかく全部そのまま貯める「大きな湖」。

  • Excel
  • ログ
  • 画像
  • 音声
  • センサーデータ

形式をそろえず、そのまま保存します。


データウェアハウス(DWH)

整理して棚に並べた「倉庫」。

  • きれいに構造化
  • 分析しやすい形に整形済み

この違いが最大のポイントです。


定義・仕組み

データレイクの特徴

  • 構造化・非構造化データをそのまま保存
  • 保存時に整形しない(Schema on Read)
  • 後から用途に応じて加工する

よくHDFSやクラウドストレージと組み合わせて構築されます。

重要なのは、

データレイクは「保存の考え方」であって
特定の製品名ではない、という点です。


どんな場面で使う?

使う場面

  • 将来何に使うか未確定のデータ保存
  • AI・機械学習用データの蓄積
  • IoTやログなど大量データの保管

とりあえず全部ためる、が基本思想です。


向かない場面

  • 即座に集計・レポートしたい場合
  • 経営指標の定型分析

その場合はDWHが向いています。


よくある誤解・混同

① データレイク=HDFS?

違います。

HDFSは保存技術。
データレイクは保存の考え方。

DS検定ではここを混同させます。


② データレイクは整理されている?

いいえ。

保存時は整理しません。
読み出すときに構造を定義します。


③ DWHとの違い

項目 データレイク DWH
保存時 整形しない 整形する
データ形式 何でも可 主に構造化
用途 AI・将来分析 定型分析

DS検定では
「構造化済み」「経営分析用」と書いてあればDWH寄りです。


まとめ(試験直前用)

  • データレイク=生データをそのまま保存
  • 形式を問わない
  • 保存時に整形しない(Schema on Read)
  • DWHは整形済みデータ
  • 「全部ためる」思想 → データレイク

【対応スキル項目(データエンジニアリング力シート)】

  • データ基盤
  • データ管理
  • ★ データ基盤の代表的なアーキテクチャを理解している
  • ★ データレイクとデータウェアハウスの違いを理解している

データを読む・説明する・扱うとは?データリテラシー実践ガイド【DS検定】

  • Source: pages\ds\data-literacy-practice.md
  • Permalink: /ds/data-literacy-practice/

データリテラシーとは?

(数理・データサイエンス・AI リテラシーレベル モデルカリキュラム対応)


まず結論

データリテラシーとは、

データを正しく読み、正しく説明し、正しく扱える力のことです。

DS検定では、

  • 数字にだまされない
  • 適切な比較ができる
  • グラフを正しく読み解ける

といった「基礎的判断力」が問われます。


直感的な説明

データリテラシーは、

データ社会の読み書き能力です。

  • グラフを見て違和感に気づく
  • 平均値だけで判断しない
  • 相関と因果を混同しない
  • 比較条件が揃っているか確認する

これができる状態を指します。


定義・仕組み(スキルセット完全整理)


学修目標

  • データの特徴を読み解き、起きている事象の背景や意味合いを理解できる
  • データを読み解く上で、ドメイン知識が重要であることを理解する
  • データの発生現場を確認することの重要性を理解する
  • データの比較対象を正しく設定し、数字を比べることができる
  • 適切な可視化手法を選択し、他者にデータを説明できる
  • 不適切に作成されたグラフ・数字に騙されない
  • 文献や現象を読み解き、それらの関係を分析・考察し表現できる
  • スプレッドシート等を使って、小規模データ(数百件〜数千件レベル)を集計・加工できる

2-1. データを読む

データの種類

  • 量的変数
  • 質的変数

分布と代表値

  • ヒストグラム
  • 平均値
  • 中央値
  • 最頻値

代表値の性質の違い
(実社会では平均値=最頻値でないことが多い)


ばらつき

  • 分散
  • 標準偏差
  • 最急値

観測誤差

  • 観測データに含まれる誤差の扱い

必要なデータの見極め

  • 打ち切りや脱落を含むデータ
  • 層別の必要なデータ

相関と因果

  • 相関係数
  • 疑似相関
  • 交絡

母集団と標本抽出

  • 国勢調査
  • アンケート調査
  • 全数調査
  • 単純無作為抽出
  • 層別抽出
  • 多段抽出

クロス集計・分割表

  • クロス集計表
  • 分割表
  • 相関係数行列
  • 散布図行列

統計情報の正しい理解

  • 誇張表現に惑わされない

2-2. データを説明する

データ表現

  • 棒グラフ
  • 折線グラフ
  • 散布図
  • ヒートマップ

チャート化

  • データの図表表現

比較の方法

  • 条件をそろえた比較
  • 処理の前後比較
  • A/Bテスト

不適切なグラフ

  • チャートジャンク
  • 不必要な視覚的要素

優れた可視化事例

  • 可視化により新しい気づきが得られた事例

2-3. データを扱う

  • データの集計(和、平均)
  • データの並び替え、ランキング
  • データ解析ツール(スプレッドシート)
  • 表形式データ(CSV)

どんな場面で問われる?

DS検定では、

  • 相関と因果の違い
  • 平均値と中央値の使い分け
  • 不適切なグラフの見抜き
  • 抽出方法の違い
  • A/Bテストの考え方

が頻出です。


よくある誤解

❌ 平均値が代表値として常に適切
→ 外れ値の影響を受ける

❌ 相関があれば因果がある
→ 疑似相関の可能性

❌ グラフは見やすければ良い
→ 比較軸やスケールが重要

❌ データが多ければ正しい
→ 抽出方法が重要


まとめ(試験直前用)

データリテラシーの本質は:

  • データの種類と分布を理解する
  • 比較条件を正しく設定する
  • 可視化を正しく使う
  • 数字に騙されない

DS検定では、

「正しい判断ができるか」

が中心に問われます。


データマートとは?(DWHとの違いを整理)【DS検定リテラシー】

  • Source: pages\ds\data-mart.md
  • Permalink: /ds/data-mart/

まず結論

データマートとは、特定の部門や目的に特化した小規模な分析用データベースです。
DS検定では「DWHとの違い」や「部門別分析に適しているのはどれか」といった形で問われます。


直感的な説明

データウェアハウス(DWH)

会社全体のデータを集めた「大きな倉庫」。


データマート

その中から、営業部だけが使う「営業専用コーナー」。

つまり、

全社向けがDWH
部門向けがデータマート

この関係がポイントです。


定義・仕組み

データマートは、

  • DWHの一部を切り出したもの
    または
  • 特定部門向けに設計された分析用データ基盤

です。

特徴

  • 対象を限定(例:営業部、マーケ部)
  • データ量はDWHより小さい
  • 利用目的が明確

多くの場合、DWHから必要なデータを抽出して作られます。


どんな場面で使う?

使う場面

  • 営業部の売上分析
  • マーケ部の広告効果分析
  • 人事部の採用分析

「部門特化」がキーワードです。


向かない場面

  • 全社横断分析
  • 経営レベルの統合指標管理

その場合はDWHが適しています。


よくある誤解・混同

① DWHと同じ?

違います。

項目 DWH データマート
対象 全社 部門単位
データ量 大規模 比較的小規模
目的 統合分析 部門特化分析

DS検定では
「全社統合」「横断分析」と書いてあればDWH。
「営業部専用」などと書いてあればデータマートです。


② RDBとの混同

RDBは業務処理中心。
データマートは分析専用。

トランザクション処理ではありません。


③ データレイクとの混同

データレイクは生データ保存。
データマートは整理済み分析データ。

ここも役割が違います。


まとめ(試験直前用)

  • データマート=部門特化の分析基盤
  • DWHより小規模
  • 営業・人事など用途限定
  • 全社統合はDWH
  • 「部門専用」→ データマート

【対応スキル項目(データエンジニアリング力シート)】

  • データ基盤
  • データ管理
  • ★ データ基盤の代表的なアーキテクチャを理解している
  • ★ データウェアハウスとデータマートの違いを理解している

データトランスフォーメーションとは?(非構造化データを分析可能にする前処理)【DS検定】

  • Source: pages\ds\data-transformation2.md
  • Permalink: /ds/data-transformation/

まず結論

データトランスフォーメーション(Data Transformation)とは、データを分析や機械学習で使える形に変換する処理のことです。

DS検定では
「非構造化データを分析可能な形式に変換するプロセス」
として問われることが多く、

  • データモデリング
  • データノーマライゼーション

などとの違いを判断させる問題がよく出ます。


直感的な説明

データ分析では、そのままでは使えないデータが多くあります。

例えば次のようなデータです。

データ そのまま分析できる?
数値データ(売上、温度など) できる
テキスト(レビュー、文章) そのままでは難しい
画像 数値に変換しないと分析できない
音声 特徴量に変換する必要がある

このようなデータを

「分析できる形に作り変える」

のが
データトランスフォーメーションです。

例えば

  • テキスト → 単語の出現数
  • 画像 → 画素値や特徴量
  • 音声 → 周波数特徴

のように変換します。

つまり

データを分析できる形に変える作業

と覚えると理解しやすいです。


定義・仕組み

データトランスフォーメーションとは

データを別の形式・構造に変換する処理
を指します。

特にデータ分析では

分析可能なデータ構造へ変換する処理

として使われます。

代表的な例は次の通りです。

テキストデータ


レビュー文章

変換

  • 形態素解析
  • 単語の出現頻度
  • TF-IDF

数値ベクトルに変換


画像データ


写真

変換

  • 画素値(RGB)
  • CNN特徴量

数値配列に変換


音声データ


音声

変換

  • スペクトログラム
  • MFCC

数値特徴量に変換


つまり共通点は

最終的に「機械が扱える数値データ」に変換する

ということです。


どんな場面で使う?

主に次の場面で使われます。

① 機械学習の前処理

AIや機械学習では

数値データしか扱えない

ことが多いため、

  • 文章
  • 画像
  • 音声

などを数値に変換します。


② データ統合

異なる形式のデータを

  • 同じフォーマット
  • 同じ単位

に揃えるときにも使われます。

  • 日付形式の統一
  • 単位の変換

③ データウェアハウス

ETL処理でもよく使われます。

ETLとは

  • Extract(抽出)
  • Transform(変換)
  • Load(格納)

の処理です。

ここでの T(Transform)
データトランスフォーメーションです。


よくある誤解・混同

DS検定では、次の用語とよく混同させてきます。

データモデリング

意味

データ同士の関係を設計すること

  • ER図
  • テーブル設計

つまり

データ構造の設計

です。

データ変換ではありません。


データノーマライゼーション

意味は文脈で2種類あります。

データベースの正規化
→ 重複を減らす設計

機械学習の正規化
→ 数値スケールを揃える

どちらも

分析可能に変換する処理そのものではありません。


データレプリケーション

意味

データの複製

  • DBのレプリカ
  • バックアップ

変換ではなく

コピーです。


DS検定の典型問題

DS検定では次のように出ます。

問題例

非構造化データを分析可能な形式に変換する処理はどれか

選択肢

  • データモデリング
  • データノーマライゼーション
  • データトランスフォーメーション
  • データレプリケーション

この場合

「分析可能な形式に変換」

がキーワードです。


まとめ(試験直前用)

  • データトランスフォーメーション
    データを分析可能な形に変換する処理

  • 特に
    非構造化データ → 数値特徴量

  • DS検定の判断ポイント

用語 意味
データトランスフォーメーション データを分析可能な形式へ変換
データモデリング データ構造の設計
データノーマライゼーション データの正規化・標準化
データレプリケーション データの複製

問題文に

「分析可能な形式へ変換」
「非構造化データの変換」

と書かれていたら

データトランスフォーメーション

と判断できるようにしておきましょう。


【対応スキル項目(データサイエンス力シート)】

  • データ理解・前処理
  • データ前処理
  • ★ 構造化データ・非構造化データの違いを理解し、分析可能な形に整形する方法を理解している

データウェアハウス(DWH)とは?(データレイクとの違いも整理)【DS検定リテラシー】

  • Source: pages\ds\data-warehouse.md
  • Permalink: /ds/data-warehouse/

まず結論

データウェアハウス(DWH)とは、分析しやすい形に整理・統合されたデータを蓄積する仕組みです。
DS検定では「データレイクとの違い」や「経営分析に向くのはどれか」といった形で問われます。


直感的な説明

データレイク

とりあえず全部ためる「大きな湖」。


データウェアハウス(DWH)

きれいに整理された「分析専用の倉庫」。

  • データの形式をそろえる
  • 不要なデータを除く
  • 分析しやすい構造に整える

つまり、

そのまま保存するのがデータレイク
整理して保存するのがDWH

ここが最大の違いです。


定義・仕組み

データウェアハウスは、

  • 複数システムからデータを集め
  • 整形・統合し
  • 分析用に保存する基盤

です。

特徴

  • 構造化データ中心
  • 集計・分析向け
  • 履歴データを保持
  • 一貫性を重視

保存前に形式を決める方式(Schema on Write)を採用します。

これはデータレイクの
「Schema on Read」と対比される重要ポイントです。


どんな場面で使う?

使う場面

  • 売上分析
  • 経営ダッシュボード
  • KPI管理
  • 月次レポート

「正確で整理されたデータが必要」な場面です。


向かない場面

  • 画像・音声など非構造データ中心
  • 将来用途が未確定なデータ保存

その場合はデータレイクが向いています。


よくある誤解・混同

① DWH=大量保存用?

違います。

大量保存が目的ではなく
分析しやすい状態で保存することが目的です。


② データレイクとの違いがあいまい

項目 DWH データレイク
保存時 整形する 整形しない
データ形式 主に構造化 何でも可
主目的 経営分析 将来分析・AI活用

DS検定では
「構造化済み」「KPI分析」と書かれていればDWHです。


③ RDBと同じ?

RDBは業務処理向け。
DWHは分析向け。

トランザクション処理ではなく、分析処理が目的です。


まとめ(試験直前用)

  • DWHは分析専用データ基盤
  • 保存前に整形(Schema on Write)
  • 構造化データ中心
  • 経営分析・KPI管理向き
  • 「整理済み」「分析用」→ DWH

【対応スキル項目(データエンジニアリング力シート)】

  • データ基盤
  • データ管理
  • ★ データ基盤の代表的なアーキテクチャを理解している
  • ★ データウェアハウスとデータレイクの違いを理解している

データベースの制約とは?NOT NULL・一意性・外部キーを整理【DS検定】

  • Source: pages\ds\database-constraints.md
  • Permalink: /ds/database-constraints/

まず結論

データベースの制約(constraint)とは、データの整合性や正しさを保つためにテーブルに設定するルールです。

DS検定では 「データの品質を守る仕組み」として理解しておくことが重要です。


直感的な説明

データベースは、会社の重要なデータを保存する場所です。

もし何のルールもなければ、

IDが空のデータ

同じIDが複数あるデータ

存在しない顧客IDの注文データ

のような 壊れたデータが簡単に登録されてしまいます。

そこでデータベースでは、

「この列は必ず値を入れる」 「この列は重複してはいけない」 「この列は別のテーブルの値と一致していなければならない」

といった ルール(制約)を設定します。

これによって、 データの品質(データ品質・データ整合性)を守ることができます。


定義・仕組み

データベースの制約とは、

テーブルに登録されるデータが、定義されたルールを満たしているかをチェックする仕組み

です。

代表的な制約には次のものがあります。

NOT NULL制約

NULL(値なし)を禁止する制約

例 顧客テーブル

顧客ID 名前

1 田中 2 鈴木

もし顧客IDがNULLだと 誰のデータか分からなくなるため、

顧客IDは必ず入力する

というルールを設定します。


一意性制約(UNIQUE)

同じ値の重複を禁止する制約

例 社員番号

社員番号 名前

1001 山田 1002 佐藤

社員番号は 同じ番号が2人存在してはいけません。

そのため

社員番号は重複禁止

という制約を設定します。


外部キー制約(Foreign Key)

別のテーブルに存在する値のみ許可する制約

顧客テーブル

顧客ID 名前

1 田中 2 鈴木

注文テーブル

注文ID 顧客ID

100 1

もし

顧客ID = 99

の注文が登録されたら 存在しない顧客の注文になってしまいます。

そこで

注文の顧客IDは 顧客テーブルに存在するIDのみ

という制約を設定します。


CHECK制約

値の条件を指定する制約

年齢 >= 0

のように 条件に合わないデータを禁止します。


どんな場面で使う?

データベースの制約は データの品質を守るために必ず使われます。

例えば

システム開発

顧客IDは必ず入力(NOT NULL)

メールアドレスは重複禁止(UNIQUE)

業務データ管理

注文は必ず既存顧客に紐づく(外部キー)

在庫数は0以上(CHECK)

このように データが壊れないようにするための基本機能です。

データサイエンスでも、

データ基盤

データウェアハウス

ETL処理

などで重要になります。


よくある誤解・混同

制約 = データ型 ではない

DS検定ではここを混同させる問題が出ます。

データ型

INTEGER VARCHAR DATE

制約

NOT NULL UNIQUE FOREIGN KEY CHECK

つまり

種類 役割

データ型 値の種類 制約 値のルール

です。


主キー(Primary Key)との関係

主キーは

NOT NULL + UNIQUE

を同時に満たす制約です。

DS検定では

主キー

一意制約

外部キー

の違いを問われることがあります。


DS検定の典型的なひっかけ

選択肢で次のように書かれていたら注意です。

❌ 「制約はデータの型を定義する」 → これは データ型の説明

⭕ 「制約はデータの整合性を保つルール」 → こちらが正しい


まとめ(試験直前用)

データベースの制約は データの整合性を守るルール

NOT NULL → NULL禁止

UNIQUE → 重複禁止

外部キー → 他テーブルとの整合性

CHECK → 値の条件

DS検定では

データ型と制約の違い 主キー・外部キーとの関係

を判断できることが重要です。


【対応スキル項目(データエンジニアリング力シート)】

データ管理

データベース

★ データベースの基本概念(テーブル、主キー、外部キーなど)を理解している ★ データの整合性や品質を保つ仕組みを理解している


データレイクとNoSQLの違いとは?役割の違いを整理【DS検定】

  • Source: pages\ds\datalake-vs-nosql.md
  • Permalink: /ds/datalake-vs-nosql/

まず結論

NoSQLは「データベースの種類」、
データレイクは「データを大量にためる仕組み(保管基盤)」です。

DS検定では、
“保存の仕組み”と“保存の場所の考え方”を混同させる問題が出やすいです。


直感的な説明

イメージで整理します。

  • NoSQL → 整理方法の違う「棚」
  • データレイク → とにかく何でも流し込める「巨大な湖」

NoSQLは「データベースの形式」の話です。
データレイクは「データをどう保管するか」という全体構造の話です。

ここを混同しないことが重要です。


定義・仕組み

■ NoSQLとは

  • テーブル形式に縛られないデータベース
  • 分散処理に強い
  • スキーマが柔軟

→ データを「保存・検索する仕組み」


■ データレイクとは

  • 構造化・非構造化を問わず、そのまま保存する基盤
  • 事前に整理しない
  • 後から加工・分析する前提

→ データを「まず全部ためる場所」

代表例:

  • Amazon S3
  • Azure Data Lake Storage
  • Google Cloud Storage

ここで重要なのは、

データレイクは
データベースとは限らない ということです。

単なる分散ストレージであることも多いです。


どんな場面で使う?

NoSQLを使う場面

  • Webアプリのバックエンド
  • API経由でのリアルタイムデータ登録
  • 高速な検索が必要な場面

データレイクを使う場面

  • ログを全部保存したい
  • 将来使うかもしれないデータも捨てたくない
  • AI分析や機械学習のための元データ保管

DS検定では
「AI活用のためのデータ基盤」として出題されることがあります。


よくある誤解・混同

❌ データレイク=NoSQLの一種

→ これは誤りです。
データレイクは「保管思想」です。


❌ データレイクは整理されている

→ 基本は“そのまま保存”。
整理するのは後です。


❌ NoSQLは大量保存の場所

→ NoSQLは「データベース」。
データレイクは「ストレージ基盤」。


DS検定でのひっかけ

選択肢で:

  • 「スキーマオンリード」
  • 「構造化されていないデータをそのまま保存」

とあれば → データレイク

  • 「分散処理」「キー・バリュー」「ドキュメント型」

とあれば → NoSQL

このキーワードで切るのが基本です。


まとめ(試験直前用)

  • NoSQL=データベースの種類
  • データレイク=巨大な保管基盤
  • NoSQLは検索・処理向き
  • データレイクは保存重視
  • キーワードで判断する

DS検定では
「保存の思想」と「DBの種類」を混同しないことが重要です。


対応スキル項目(データエンジニアリング力シート)

  • データ基盤
  • データアーキテクチャ
  • ★ データレイクやデータウェアハウスなどデータ基盤の違いを理解している
  • ★ RDBやNoSQLなどデータベースの特徴を理解している

テンドログラム(階層クラスタリングの樹形図)とは?【DS検定】

  • Source: pages\ds\dendrogram.md
  • Permalink: /ds/dendrogram/

まず結論

テンドログラムとは、階層クラスタリングの結果を「木構造」で可視化した図です。
DS検定では、「どの高さでクラスタを分けるかを判断できるか」が問われます。


直感的な説明

テンドログラムは、「どのデータ同士がどの順番でくっついたか」を表した図です。

たとえば、顧客データを似ている順にまとめていくとします。

  • まず、よく似た2人がグループになる
  • 次に、そのグループと別の顧客がくっつく
  • 最後に、大きなグループ同士が統合される

この「くっつく過程」を、上に向かって枝が伸びる木の形で描いたものがテンドログラムです。

重要なのは、どこで“線を引くか”でクラスタ数が変わることです。


定義・仕組み

テンドログラムは、階層クラスタリング(Hierarchical Clustering)の結果を図にしたものです。

横軸(x軸)

  • 個々のデータ(サンプル)を並べたもの
  • 順番そのものに強い意味はありません

縦軸(y軸)

  • データ同士が結合されたときの「距離」や「類似度の差」
  • 上にいくほど、無理やりくっつけている(=あまり似ていない)

つまり、

  • 低い位置で結合 → とても似ている
  • 高い位置で結合 → あまり似ていない

という意味になります。

DS検定では、「縦軸が距離を表す」という点を理解しているかが重要です。


どんな場面で使う?

使う場面

  • クラスタ数が事前に決まっていない場合
  • データのまとまり方を“全体像”で見たいとき
  • グループの階層構造を理解したいとき

ビジネスでは、

  • 顧客セグメントの把握
  • 商品の類似分類
  • 遺伝子解析など

で使われます。

注意する場面

  • データが多すぎると図が読みにくい
  • 距離の定義(ユークリッド距離など)に依存する

「図がきれい=正しい分類」とは限らない点に注意です。


よくある誤解・混同

① 横軸に意味があると思ってしまう

選択肢では「横軸は時間の推移を表す」といった誤りが出やすいです。

→ 横軸は単なるデータの並びです。


② 縦軸を“クラスタ数”と勘違いする

縦軸はクラスタ数ではありません。

結合時の距離(どれくらい離れていたか)です。


③ k-meansと混同する

DS検定では、

  • k-means → 最初にクラスタ数を決める
  • 階層クラスタリング → 木構造で後から決められる

という違いを問われます。

「クラスタ数を後から決められる」という表現があれば、テンドログラムを思い出してください。


まとめ(試験直前用)

  • テンドログラムは階層クラスタリングの結果を木で表した図
  • 縦軸は「結合時の距離」
  • 横軸は単なるデータの並び
  • 横線を引く高さでクラスタ数が決まる
  • k-meansとの違いを問われやすい

【対応スキル項目(データサイエンス力シート)】

  • データ理解
  • データの可視化
  • ★ データの特徴や構造を把握するための適切な可視化手法を選択できる

係り受け解析とは?形態素解析との違いを整理【DS検定】

  • Source: pages\ds\dependency-parsing.md
  • Permalink: /ds/dependency-parsing/

まず結論

係り受け解析とは、文の中で「どの語がどの語にかかっているか」という関係(構造)を解析する処理です。

DS検定では、形態素解析との違いを正しく切り分けられるか が問われます。


直感的な説明

例文:

私は昨日映画を見ました。

形態素解析では、
「私 / は / 昨日 / 映画 / を / 見 / ました」
のように単語に分けます。

一方、係り受け解析では、

  • 「昨日」→「見ました」にかかる
  • 「映画を」→「見ました」にかかる
  • 「私は」→「見ました」にかかる

というように、文の構造(どれがどれに関係しているか) を明らかにします。

DS検定では、

単語に分けるのか?
それとも文の構造を調べるのか?

ここを判断させる問題がよく出ます。


定義・仕組み

■ 定義

係り受け解析とは、

文中の語句同士の依存関係(どの語がどの語を修飾しているか)を解析する処理

です。

日本語では、

  • 修飾語 → 被修飾語
  • 主語 → 述語
  • 目的語 → 動詞

といった関係を見つけます。

■ 有名な係り受け解析ツール

  • CaboCha(カボチャ)
    日本語係り受け解析の代表的ツール。内部でMeCabを使うことが多い。

  • KNP
    京都大学発の構文解析ツール。

  • GiNZA
    spaCyベースの日本語構文解析ツール。

■ 位置づけ

自然言語処理の流れとしては:

  1. 形態素解析(単語に分ける)
  2. 係り受け解析(構造を理解する)
  3. 意味解析・分類・感情分析など

という順番になります。


どんな場面で使う?

■ 使う場面

  • 要約
  • 質問応答システム
  • 文の意味関係の分析
  • 主語・述語の抽出

例えば、レビュー分析で

「この商品は価格は安いが性能は悪い」

という文があった場合、

何が良くて何が悪いのかを構造で理解する必要があります。

ここで係り受け解析が活きます。

■ 使うと誤解しやすい場面

係り受け解析をすれば「意味理解」まで完全にできるわけではありません。

あくまで、

文の構造を整理する段階

です。

意味判断はその後のモデルが行います。


よくある誤解・混同

❌ CaboChaは形態素解析ツールである

→ 主目的は係り受け解析

❌ MeCabは係り受け解析もできる

→ 基本は形態素解析ツール

❌ TensorFlowは自然言語処理ツールだから正解

→ これは機械学習フレームワーク

DS検定では、

「日本語の形態素解析を行うツールはどれか」

「係り受け解析を行うツールはどれか」

を混同させてきます。

選択肢に

  • MeCab → 形態素解析
  • CaboCha → 係り受け解析

と整理できれば、ほぼ正解できます。


まとめ(試験直前用)

  • 係り受け解析は「文の構造」を調べる処理
  • 形態素解析は「単語に分ける」処理
  • CaboChaは係り受け解析
  • MeCabは形態素解析
  • 「単語分割か?構造解析か?」で判断する

DS検定では
処理の段階を理解しているか が問われます。


【対応スキル項目(AI利活用スキルシート)】

  • AIの基礎理解
  • 自然言語処理の基礎
  • ★ 自然言語処理の基本的な流れを理解している
  • ★ テキストデータの前処理の概要を理解している

実験計画法とは?少ない実験で原因を見つける方法【DS検定】

  • Source: pages\ds\design-of-experiments.md
  • Permalink: /ds/design-of-experiments/

まず結論

実験計画法とは、「どの要因が結果に影響しているかを、できるだけ少ない実験回数で明らかにするための考え方」です。

DS検定では、「無駄な実験を減らしつつ、因果関係をどう見極めるか」を判断させる問題として出題されます。


直感的な説明

例えば、ネット広告の効果を調べたいとします。

  • 背景色:2パターン
  • キャッチコピー:2パターン
  • 画像:2パターン

すべての組み合わせを試すと 2×2×2=8通りになります。

でも、実務では
「時間もコストも限られている」
という前提があります。

そこで、

  • 必要な情報を失わずに
  • 実験回数を減らす

ための設計が「実験計画法」です。

つまり、

とりあえず全部試す、ではなく
設計してから試す

これが本質です。


定義・仕組み

実験計画法は、

  • 結果に影響を与える要因(因子)
  • その因子の取りうる値(水平)

を整理し、

「どの因子がどれだけ影響しているか」を調べる方法です。

基本的な考え方

  1. 因子を決める
  2. 水準を決める
  3. 実験の組み合わせを設計する
  4. 分散分析などで影響度を比較する

分散分析との関係

実験計画法では、
「ばらつき」を分解して考えます。

  • 因子によるばらつき
  • 誤差(偶然)のばらつき

もし
因子によるばらつきのほうが大きければ、

「その因子は意味がある」と判断します。

DS検定では、
実験計画法と分散分析はセットで理解しておくことが重要です。

分散分析の計算を問うのではなく、

ばらつきを分けて考える発想

を理解しているかが問われます。

直交表とは?

実験回数を減らすために使うのが「直交表」です。

特徴は、

  • 各因子が公平に組み合わさる
  • 少ない回数で影響を推定できる

という点です。

DS検定では
「すべての組み合わせを試す方法」との違いを問われやすいです。


どんな場面で使う?

使う場面

  • 製造業での品質改善
  • マーケティング施策の最適化
  • UIデザインの改善
  • 医療・農業の実験

共通点は、

原因を特定したい
でも全部は試せない

という状況です。

使わない(誤解しやすい)場面

  • 単なるアンケート集計
  • 相関を見るだけの分析
  • 機械学習モデルのパラメータ探索(※これは別概念)

選択肢では
「相関分析と同じ」と書かれていたら注意です。


よくある誤解・混同

① 相関分析との混同

相関分析は
「関係があるか」を見る方法。

実験計画法は
「意図的に操作して因果を調べる」方法。

DS検定ではここを混同させてきます。


② 全組み合わせ実験との違い

全部試す方法は「完全実施実験」。

実験計画法では
直交表などを使い、回数を減らします。

「実験計画法=全部試す方法」
という選択肢は誤りです。


③ A/Bテストとの違い

A/Bテストは「1要因」の比較。

実験計画法は
複数因子を同時に扱える。

ここもひっかけポイントです。


まとめ(試験直前用)

  • 実験計画法=少ない実験で原因を特定する設計手法
  • 因子・水準を整理し、ばらつきを分けて考える
  • 分散分析とセットで理解する
  • 相関分析とは別物(因果を検証する)
  • 全部試す方法ではない

DS検定では、

「実験回数を削減しながら要因を特定できる方法」

と書かれていれば正解方向です。


【対応スキル項目(データサイエンス力シート)】

  • スキルカテゴリ名:データ理解・前処理・可視化
  • サブカテゴリ名:データの分析設計
  • ★ 課題に応じて適切なデータ取得・実験計画を設計できる

デザイン思考とは?ユーザー中心で課題を解決する考え方【DS検定】

  • Source: pages\ds\design-thinking.md
  • Permalink: /ds/design-thinking/

まず結論

  • デザイン思考(Design Thinking)とは、ユーザーの視点から課題を理解し、仮説と検証を繰り返しながら解決策を作る問題解決の考え方です。
  • DS検定では、「データ分析だけでは解決できない課題をどう発見・設計するか」というビジネス課題の整理方法として問われることが多い用語です。

直感的な説明

データ分析のプロジェクトでは、
「分析は正しいのに、ビジネスに役立たない」ということがよくあります。

例えば、ECサイトの分析で

  • 売上データを分析した
  • 購入回数の傾向も分かった

しかし、

  • そもそもユーザーはなぜ買わないのか?
  • サイトの使いづらさが原因ではないか?

という視点がないと、本当の課題は見つかりません。

デザイン思考は

  1. ユーザーを理解する
  2. 問題を定義する
  3. アイデアを出す
  4. 試作品を作る
  5. 検証する

という流れで、ユーザー中心に課題を解決していく方法です。


定義・仕組み

デザイン思考とは、

ユーザーの行動や体験を理解しながら、仮説と検証を繰り返して課題解決を行う思考プロセス

です。

一般的には次のようなプロセスで進みます。

① 共感(Empathize)

ユーザーの行動・悩みを理解する

  • ユーザーインタビュー
  • 行動観察
  • カスタマージャーニー分析

② 問題定義(Define)

本当に解くべき問題を明確にする

  • 「売上が低い」ではなく
  • 「購入手続きが分かりにくく離脱している」

のように整理する


③ アイデア創出(Ideate)

解決策のアイデアをたくさん出す

  • ブレインストーミング
  • 発想法(SCAMPERなど)

④ プロトタイプ(Prototype)

簡単な試作品を作る

  • UIの簡易デザイン
  • ワイヤーフレーム

⑤ テスト(Test)

ユーザーに試してもらい改善する

このように、

仮説 → 試作 → 検証

を繰り返すのがデザイン思考の特徴です。


どんな場面で使う?

よく使われる場面

デザイン思考は次のような場面で使われます。

  • 新しいサービス開発
  • UX改善
  • プロダクト設計
  • データ分析プロジェクトの課題整理

例えばデータサイエンスでは

  • 分析テーマを決める
  • ユーザー課題を定義する
  • 分析結果をサービスに反映する

といった場面で重要になります。

つまり、

データ分析の前段階の「問題設定」に強い手法です。


よくある誤解・混同

誤解①:デザイン思考は「デザインを作ること」

これは誤りです。

デザイン思考は

  • UIデザイン
  • グラフィック

ではなく、

ユーザー中心の問題解決プロセスです。


誤解②:データ分析とは別のもの

これもよくある誤解です。

実際には

  • デザイン思考 → 課題発見
  • データ分析 → 課題検証

という関係になります。


DS検定のひっかけ

DS検定では次のような選択肢に注意してください。

❌ 「デザイン思考は美しいデザインを作る手法である」
❌ 「データ分析の代わりに使う手法である」

ユーザー視点で問題を定義し、試作と検証を繰り返す問題解決手法


まとめ(試験直前用)

  • デザイン思考は ユーザー中心の問題解決プロセス
  • 仮説 → 試作 → 検証を繰り返す
  • UIデザインの話ではない
  • データ分析の前段階の「課題設定」で重要
  • DS検定では ユーザー理解・問題定義の手法として問われる

【対応スキル項目(ビジネス力シート)】

  • 課題設定力
  • 課題の発見・定義

★ ビジネス課題を適切に設定し、データ分析によって解決可能な形に整理できる ★ データ分析の目的を踏まえ、課題を構造化して整理できる


偏差値とは?標準偏差との関係と公式をやさしく整理【DS検定】

  • Source: pages\ds\deviation-score.md
  • Permalink: /ds/deviation-score/

まず結論

  • 偏差値とは「平均からどれくらい離れているか」を標準偏差を使って表した指標です。
  • DS検定では「標準化の考え方」と「標準偏差との関係」を理解しているかが問われます。

点数そのものではなく、集団の中での位置(相対的な立ち位置)を示すのが偏差値です。


直感的な説明

80点を取ったとしても、

  • 平均75点の簡単な試験
  • 平均50点の難しい試験

では意味が違います。

偏差値は、

「その点数が、集団の中でどの位置にいるか」

を示す仕組みです。

  • 偏差値50 → ちょうど平均
  • 60 → 平均よりかなり上
  • 40 → 平均より下

DS検定では
「点数の高さ」ではなく「相対的な位置」を見ていることが理解できているかが重要です。


定義・仕組み

■ 偏差値の公式

偏差値は次の式で表されます。

\[偏差値 = 50 + 10 × \frac{(得点 − 平均)}{標準偏差}\]

覚えるべきなのは式そのものではなく、意味です。


■ 式の意味を分解する

① (得点 − 平均)
→ 平均からどれだけ離れているか(偏差)

② ÷ 標準偏差
→ ばらつきの大きさで調整している
(データのスケールをそろえている)

③ ×10 + 50
→ 平均が50になるように調整している

つまり、

偏差値は「標準化した値(Zスコア)」を分かりやすく変換したもの

です。


■ Zスコアとの関係

実は偏差値の中身は「標準化」です。

Zスコアの式は:

\[Z = \frac{(得点 − 平均)}{標準偏差}\]

偏差値はこのZを使って、

\[偏差値 = 50 + 10Z\]

と変換したものです。

DS検定では
「標準化」と「偏差値」を混同させる問題が出やすいです。


どんな場面で使う?

使うべき場面

  • 異なる試験の結果を比較するとき
  • 単位が違うデータを比較するとき
  • データを標準化して分析するとき

ビジネスでは、

  • 地域別売上の比較
  • 部門評価の比較
  • KPIの標準化

などに考え方が応用されます。


使うと誤解しやすい場面

  • 絶対的な優秀さを示す指標と誤解する
  • 母集団が違う偏差値を単純比較する

偏差値は「その集団内での位置」を示すものです。


よくある誤解・混同

① 標準偏差との混同

DS検定では
「偏差値=標準偏差」と書かれていたら誤りです。

  • 標準偏差:ばらつきの大きさ
  • 偏差値:集団内での位置

役割が違います。


② 高得点=高偏差値?

必ずしも正しくありません。

  • みんな高得点 → 偏差値は伸びにくい
  • 難しい試験 → 少し上回るだけで偏差値は上がる

DS検定では
「相対評価」と「絶対評価」を混同させてきます。


③ 平均が高いと偏差値も高い?

誤りです。

偏差値の平均は必ず50になるよう設計されています。

「偏差値は平均値を示す指標」と書いてあれば誤りです。


まとめ(試験直前用)

  • 偏差値=50 + 10 × (得点 − 平均) ÷ 標準偏差
  • 標準偏差で調整している=ばらつきを考慮
  • 50が基準(平均)
  • 絶対評価ではなく相対評価
  • Zスコアを変換したもの

DS検定では
「標準化の考え方を理解しているか」が最大の判断ポイントです。


対応スキル項目

【対応スキル項目(データサイエンス力シート)】

  • 数理・統計基礎
  • 記述統計
  • ★ データの代表値やばらつきの指標を理解している

画像のデジタル表現とは?(標本化と量子化の基本)【DS検定】

  • Source: pages\ds\digital-image-representation.md
  • Permalink: /ds/digital-image-representation/

まず結論

画像のデジタル表現とは、画像を「標本化(サンプリング)」と「量子化」によって数値データとして表す仕組みです。

DS検定では、

標本化=画像をピクセル(画素)に分割すること

量子化=各ピクセルの明るさや色を数値の段階で表すこと

という役割の違いを理解しているかが問われます。

選択肢では

「標本化と量子化の役割の違い」を混同させる問題がよく出ます。


直感的な説明

写真を モザイク画像 にすると考えると分かりやすいです。

まず画像を 細かいマス目に区切るとします。

□ □ □ □ □ □ □ □ □ □ □ □

この 1つ1つのマスがピクセル(画素)です。

ここで2つの処理が行われます。

① 標本化(サンプリング) → 画像をマス目に区切る

② 量子化 → 各マスの明るさや色を数値で決める

例えば

ピクセル 明るさ

□ 0 □ 128 □ 255

このようにして、画像は

「大量の数値データ」

として保存されます。

つまりデジタル画像とは

ピクセルの集合 + 数値データ

なのです。


定義・仕組み

画像をデジタルデータとして扱うためには、次の2つの処理が行われます。

標本化(サンプリング)

画像を 格子状の点に分割する処理です。

このときの点が ピクセル(画素)です。

ピクセル数が多いほど

解像度が高い

画像が細かく表現できる

という特徴があります。

このピクセルの密度は

解像度(resolution)

として表されます。

代表的な単位

dpi(dots per inch)

ppi(pixels per inch)

値が大きいほど

細かい画像表現が可能になります。

もしピクセル数が少ないと

画像がギザギザになる

階段状の線になる

これを ジャギー(jaggy) と呼びます。

また、格子の間隔が粗いと

本来存在しない縞模様が見える現象

が起こることがあります。

これを

エイリアシング(aliasing)

と呼びます。

このギザギザを目立たなくする処理が

アンチエイリアシング(anti-aliasing)です。


量子化(quantization)

量子化とは

ピクセルの明るさや色を数値の段階で表す処理

です。

例えばグレースケール画像では

ビット数 表現できる段階

1bit 2段階 8bit 256段階

8bit画像では

0〜255

の256段階で明るさを表します。

量子化の段階が少ないと

色の境目が目立つ

グラデーションが不自然

になります。


画像の色表現

画像の色は主に次の2種類があります。

グレースケール

白黒画像 明るさだけで表現する

カラー画像

RGB(赤・緑・青)を組み合わせて表現する


代表的な画像フォーマット

デジタル画像は様々な形式で保存されます。

代表例

フォーマット 特徴

JPEG 圧縮率が高い(不可逆圧縮) PNG 劣化なし圧縮(可逆圧縮) GIF 256色まで・簡易アニメーション対応 BMP 非圧縮・ファイルサイズが大きい TIFF 高品質保存・印刷や医療画像で使用

DS検定では

代表的な画像フォーマットの名前

を問う基礎問題が出ることがあります。


どんな場面で使う?

この仕組みは

画像データを扱うすべてのAI・データ分析

で使われます。

例えば

画像認識

医療画像分析

自動運転

顔認識

製造業の外観検査

などです。

データサイエンスでは

画像は

ピクセルの数値データ

として扱われます。

つまり

画像 = 数値行列(データ)

として機械学習モデルに入力されます。


よくある誤解・混同

誤解①

標本化と量子化は同じ意味

これは誤りです。

用語 役割

標本化 画像をピクセルに分割 量子化 ピクセルの値を段階化

DS検定では この違いを問う問題が非常に多いです。


誤解②

解像度が高い=色の段階が多い

これも誤りです。

概念 内容

解像度 ピクセル数 量子化 明るさ・色の段階

つまり

標本化 → 空間の細かさ

量子化 → 色の細かさ

です。


誤解③

エイリアシングとアンチエイリアシング

DS検定では次の関係を理解しておく必要があります。

用語 意味

エイリアシング ギザギザ・偽模様が発生する現象 アンチエイリアシング ギザギザを目立たなくする処理

選択肢では

「エイリアシングを防ぐ技術はアンチエイリアシング」

という対応を問われることがあります。


誤解④

画像はそのまま機械学習に入力できる

実際には

正規化

サイズ変更

チャンネル変換

などの 前処理が必要になります。


まとめ(試験直前用)

画像のデジタル表現は 標本化+量子化

標本化=画像をピクセルに分割(解像度)

量子化=明るさ・色の段階

エイリアシング=ギザギザ現象

アンチエイリアシング=ギザギザを抑える処理

DS検定では

「標本化=ピクセル数」 「量子化=色の段階」

この対応が思い出せれば正解できます。


【対応スキル項目(AI利活用スキルシート)】

スキルカテゴリ名 AI・データサイエンス

サブカテゴリ名 画像・音声・自然言語などのデータ理解

★ 画像・音声・自然言語などの非構造化データの特徴を理解している


電子署名とは?仕組みと公開鍵・秘密鍵の違いを整理【DS検定】

  • Source: pages\ds\digital-signature.md
  • Permalink: /ds/digital-signature/

まず結論

電子署名とは、文書が改ざんされていないことと、送信者本人が作成したことを証明する仕組みです。
DS検定では、「秘密鍵と公開鍵の役割を正しく判断できるか」が問われます。


直感的な説明

電子署名は、デジタル版の「印鑑」や「サイン」です。

紙の契約書では、

  • ハンコが押してある → 本人が承認した
  • 書き換えられていない → 改ざんされていない

と判断しますよね。

電子データでは目に見えないので、
代わりに

  1. 文書の「指紋」を作る(ハッシュ値)
  2. その指紋を自分しか持っていない鍵で暗号化する

という手順を踏みます。

この「指紋+秘密の鍵」が電子署名です。


定義・仕組み

電子署名の基本プロセスは次の通りです。

① 文書をハッシュ化する

まず文書にハッシュ関数を適用し、
文書の内容を代表する「ハッシュ値(要約値)」を作ります。

ハッシュ値は、

  • 文書が少しでも変わると値も変わる という性質があります。

② ハッシュ値を秘密鍵で暗号化する

次に、そのハッシュ値を送信者の秘密鍵で暗号化します。
これが「電子署名」です。

③ 受信者が検証する

受信者は、

  1. 受け取った文書を同じハッシュ関数でハッシュ化
  2. 電子署名を送信者の公開鍵で復号
  3. 2つのハッシュ値が一致するか確認

一致すれば:

  • 文書は改ざんされていない
  • 秘密鍵を持つ本人が署名した

と判断できます。

DS検定ではこの流れを正しく理解しているかが問われます。


どんな場面で使う?

使う場面

  • 電子契約
  • e-Taxなどの電子申請
  • ソフトウェアの配布(正規配布の証明)
  • 企業間の重要データ送信

「本人確認」と「改ざん検知」が必要な場面で使われます。

使うと誤解しやすい場面

電子署名は「内容を秘密にする」ためのものではありません。

内容を秘密にするのは暗号化(機密性の確保)です。
電子署名は真正性・完全性の確認が目的です。


よくある誤解・混同

① 秘密鍵と公開鍵を逆にする

DS検定ではここが最頻出です。

  • 署名を作る → 秘密鍵
  • 署名を検証する → 公開鍵

逆に書かれていたら即切れます。


② 暗号化との混同

選択肢では

「電子署名はデータの機密性を確保する」

と書かれていたら注意。

電子署名の目的は

  • 改ざん検知(完全性)
  • 本人確認(真正性)

です。

機密性は別の仕組みです。


③ 文書そのものを秘密鍵で暗号化すると誤解

実際は、

文書そのものではなく
ハッシュ値を秘密鍵で暗号化します。

ここもDS検定でよく狙われます。


まとめ(試験直前用)

  • 電子署名=改ざん検知+本人確認
  • 文書→ハッシュ化→ハッシュ値を秘密鍵で暗号化
  • 署名作成は秘密鍵、検証は公開鍵
  • 機密性は目的ではない(暗号化と混同しない)

「誰が作ったか」と「改ざんされていないか」を確認する仕組み。
この2点を思い出せれば選択肢は切れます。


対応スキル項目

【対応スキル項目(データエンジニアリング力シート)】

  • データ基盤
  • セキュリティ
  • ★ 情報セキュリティの基本的な仕組み(暗号化、認証、アクセス制御など)を理解している

電子署名とは?公開鍵暗号との関係を整理【DS検定】

  • Source: pages\ds\digital-signature2.md
  • Permalink: /ds/digital-signature2/

まず結論

電子署名とは「送信者本人が作成したこと」と「途中で改ざんされていないこと」を証明する仕組みです。

送信者の秘密鍵で作成し、公開鍵で検証するのがポイントです。

DS検定では 「暗号化」と「電子署名」で鍵の使い方が逆になる点を問われることが多いです。


直感的な説明

紙の世界では、重要な文書には 自筆の署名や印鑑を押します。

例えば契約書では

本当にその人が作ったのか

後から内容を書き換えていないか

が重要になります。

デジタルの世界では紙の署名が使えないため、 その代わりに使われるのが 電子署名(Digital Signature) です。

電子署名は次の2つを証明します。

本人性(その人が作成した)

完全性(途中で改ざんされていない)


定義・仕組み

電子署名は 公開鍵暗号方式(Public Key Cryptography) を利用します。

鍵は2種類あります。

秘密鍵(Private Key)

公開鍵(Public Key)

電子署名の流れは次の通りです。

① メッセージのハッシュ値を作る

送信者はまず メッセージの ハッシュ値(要約) を作ります。

これは 「メッセージの指紋」のようなものです。


② 秘密鍵で署名を作る

送信者は

ハッシュ値を自分の秘密鍵で暗号化

します。

これが 電子署名 になります。


③ 公開鍵で検証する

受信者は

  1. 送信者の 公開鍵で電子署名を復号

  2. メッセージから ハッシュ値を再計算

  3. 両者が一致するか確認

一致すれば

本人が作成した

改ざんされていない

と判断できます。


どんな場面で使う?

電子署名は 信頼性が重要なデータ通信で使われます。

代表例

電子契約

ソフトウェア配布

メールの署名

ブロックチェーン

証明書(SSL/TLS)

例えばソフトウェア配布では

本当に公式のソフトか

改ざんされていないか

を確認するために電子署名が使われます。


よくある誤解・混同

① データ暗号化との混同

DS検定ではここがよく狙われます。

目的 鍵

電子署名 送信者の秘密鍵 → 公開鍵で検証 データ暗号化 受信者の公開鍵 → 秘密鍵で復号

整理すると

電子署名

秘密鍵 → 署名 公開鍵 → 検証

データ暗号化

公開鍵 → 暗号化 秘密鍵 → 復号

DS検定では

「公開鍵で署名する」

などの選択肢がよく出ます。 これは 誤りです。


② 秘密鍵と公開鍵の役割の誤解

判断基準はシンプルです。

秘密鍵 → 本人しか持っていない

公開鍵 → 誰でも確認できる

つまり

本人証明には秘密鍵を使う

と覚えると整理できます。


まとめ(試験直前用)

電子署名は 本人性と改ざん防止を証明する仕組み

送信者の秘密鍵で署名を作る

公開鍵で検証する

データ暗号化とは 鍵の使い方が逆

DS検定では 「署名=秘密鍵」「検証=公開鍵」 を覚えておく


【対応スキル項目(AI利活用スキルシート)】

AI利活用

データ・AI利活用におけるリスク管理

★ データ・AI利活用に伴うリスク(情報漏洩・セキュリティ等)を理解している


デジタルツインとは?CPSとの違いを整理【DS検定】

  • Source: pages\ds\digital-twin.md
  • Permalink: /ds/digital-twin/

まず結論

デジタルツインとは、「現実世界の状態をサイバー空間にリアルタイムで再現する技術」です。

DS検定では、CPSとの違いを理解しているかが問われます。
デジタルツインは“再現”が中心、CPSは“制御まで含む仕組み”という違いが判断ポイントです。


直感的な説明

たとえば工場の設備を考えてみましょう。

  • 現実の機械の状態をセンサーで取得
  • その状態を仮想空間にそっくり再現
  • 仮想空間でシミュレーションを行う

これがデジタルツインです。

いわば、
「現実の分身をデジタル上に作る」 技術です。

現実で試せないことを、仮想空間で安全に試せるのが強みです。


定義・仕組み

デジタルツイン(Digital Twin)は、

現実空間のモノやシステムを、サイバー空間上にリアルタイムで再現する技術

と定義されます。

仕組みの流れ

① センサーで現実データを取得
② サイバー空間にリアルタイム反映
③ シミュレーション・予測分析

重要なのは、「再現」と「予測」です。

デジタルツインは、現実をコピーして終わりではありません。
未来予測や最適化に活用されます。


どんな場面で使う?

主な活用例

  • スマート工場(故障予測)
  • 都市計画(交通流シミュレーション)
  • エネルギー管理
  • 医療機器の監視

DS検定での出題文脈

  • CPSとの違い
  • Society5.0の技術基盤
  • 予測保全(故障予測)

よくある誤解・混同

① CPSとの違い

項目 デジタルツイン CPS
本質 再現・シミュレーション 再現+制御
役割 分身を作る 現実を最適化する仕組み
範囲 主にサイバー空間側 サイバーとフィジカルの循環

DS検定では、
「デジタルツインは現実世界を制御する仕組みである」
という選択肢が出たら注意です。

制御まで含めた全体構造はCPSです。


② シミュレーションとの違い

通常のシミュレーションは静的データでも可能です。

デジタルツインは
リアルタイム性が重要です。


③ IoTとの違い

IoTはデータ取得の仕組み。
デジタルツインは取得したデータを使って仮想再現する技術。


まとめ(試験直前用)

  • デジタルツイン=現実の分身をデジタル空間に作る
  • 再現と予測が中心
  • 制御まで含めるのはCPS
  • リアルタイム性が重要
  • 「再現か?制御か?」で判断する

DS検定では、
CPSとの違いを説明できるかが最大のポイントです。


【対応スキル項目(AI利活用スキルシート)】

  • AIの社会実装
  • AIの活用と社会的影響
  • ★ AIの活用により社会やビジネスがどのように変化するかを理解している

離散型確率分布と連続型確率分布の違いとは?【DS検定】

  • Source: pages\ds\discrete-continuous-distribution.md
  • Permalink: /ds/discrete-continuous-distribution/

まず結論

  • 離散型確率分布は「とびとびの値」を扱う分布、連続型確率分布は「なめらかな連続値」を扱う分布です。
  • DS検定では「数えられるか?測るものか?」を判断できるかが問われます。

直感的な説明

サイコロを思い浮かべてください。

出る目は
1・2・3・4・5・6
飛び飛びの値です。

これは「離散型」です。

一方、身長や気温はどうでしょうか?

170cm、170.1cm、170.01cm…
どこまでも細かく取れる値です。

これは「連続型」です。

つまり、

  • 数えるもの → 離散型
  • 測るもの → 連続型

と覚えると、かなり整理できます。


定義・仕組み

■ 離散型確率分布

  • 取り得る値が有限または可算無限
  • それぞれの値に「確率」が直接割り当てられる

代表例:

  • ベルヌーイ分布
  • 二項分布
  • ポアソン分布

例: 「1日に来店する客数」 → 0人、1人、2人…と数えられる


■ 連続型確率分布

  • 取り得る値が連続的
  • ある一点の確率は0
  • 「区間の確率」で考える

代表例:

  • 正規分布
  • 一様分布
  • 指数分布

例: 「機械の部品の長さ」 → ちょうど10.000cmの確率は考えない
→ 9.9〜10.1cmの範囲で考える

DS検定では
「一点の確率を求める」と書かれていたら連続型では不自然
と気づけることが重要です。


どんな場面で使う?

■ 離散型を使う場面

  • 件数
  • 回数
  • 成功/失敗
  • イベントの発生回数

例:

  • 不良品の個数
  • メール開封回数

■ 連続型を使う場面

  • 測定値
  • 時間
  • 距離
  • 重さ

例:

  • 製品の重さ
  • 反応時間
  • 温度

ビジネス文脈では
「KPIがカウントか測定値か」を見抜くことが大切です。


よくある誤解・混同

❌ 小数が出たら連続型?

違います。

例えば「平均値」は小数になりますが、
元データが人数なら離散型です。


❌ 0と1だけなら連続型?

0か1の二択は典型的な離散型(ベルヌーイ分布)です。


❌ 正規分布は全部のデータに使える?

正規分布は連続型専用です。
「回数」にそのまま当てはめるのは不自然です。


DS検定の典型的ひっかけ

  • 「ポアソン分布」を連続型と誤認させる問題
  • 「正規分布」をカウントデータに使わせる選択肢
  • 「一点の確率」を連続型で求めさせる記述

選択肢では
「確率を直接足しているか?」
「面積で考えているか?」
を見ると切れます。


まとめ(試験直前用)

  • 数えるもの → 離散型
  • 測るもの → 連続型
  • 離散型は「値ごとに確率」
  • 連続型は「区間で確率」
  • 正規分布は連続型、ポアソン分布は離散型

迷ったら
「それはカウントか?測定か?」
と自分に問いかける。


【対応スキル項目(データサイエンス力シート)】

  • 数理・統計基礎力
  • 確率分布
  • ★ 確率分布の種類と特徴を理解している

Dockerとは?再現性が出る理由を整理【DS検定】

  • Source: pages\ds\docker.md
  • Permalink: /ds/docker/

まず結論

Dockerは「アプリが動く環境」をイメージとして固めて配れる仕組みです。
DS検定では「再現性=なぜ同じように動くのか」を説明できるかが問われることが多いです。

直感的な説明

Dockerは、引っ越し用の「完成した部屋セット」みたいなものです。
机やイスだけでなく、照明やコンセント位置までセットになっていて、別の場所に持っていっても同じ暮らしができます。

分析の現場でも同じで、PCが変わったりメンバーが増えたりすると、 「動くはずなのに動かない」が起きがちです。
Dockerはこの事故を減らすための道具です。

定義・仕組み

Dockerは大きく次の考え方で理解すると混乱しにくいです。

  • イメージ
    アプリ実行に必要なものをまとめた設計図兼パッケージです。
    OSの土台、ライブラリ、設定などを「この通りに用意する」と決められます。

  • コンテナ
    イメージから起動した実行環境です。
    同じイメージから作れば、基本的に同じ環境になります。

  • Dockerfile
    イメージを作るための手順書です。
    「何を入れて、どう設定するか」を文章で固定します。

このため、再現性の中心は「イメージが環境を固定できること」です。
選択肢で「一貫した環境を提供する」と書かれていたら、再現性の本筋です。

どんな場面で使う?

使うべき場面

  • チームで分析環境を揃えたい
  • 本番と開発で環境差を減らしたい
  • 何か月後でも同じ条件で再実行したい
  • 配布用の分析環境を用意したい

使うと誤解しやすい場面

  • 「どのOSでも同じに動く」と思い込むと危険です
    Dockerはホスト側の仕組みの影響を受けることがあり、完全に独立ではありません。
    なので、OSの違いだけで再現性を説明するのは弱いです。

よくある誤解・混同

DS検定では、ここを混同させてくることが多いです。

  • 誤解1:再現性の理由は「ホストOSに依存しない」
    注意:言い切りが強すぎます。
    選択肢では「依存しない」「完全に同じ」はひっかけになりやすいです。
    正しくは「イメージで環境を固定できるので再現しやすい」です。

  • 誤解2:Dockerfileにはソースコードだけが入る
    Dockerfileは手順書です。
    ソースだけでなく、ライブラリ導入や設定も含めて「環境の作り方」を固定します。

  • 誤解3:再現性=性能が最大化される
    再現性は「同じ条件で動くこと」です。
    性能やリソース最大化とは別の話です。

まとめ(試験直前用)

Dockerの再現性は「イメージで環境を固定できる」から。
選択肢で「一貫した環境」「同じイメージ」は本筋。
「OSに依存しない」と断言していたら言い過ぎを疑う。
Dockerfileはソースではなく、環境構築の手順を固定するもの。


【対応スキル項目(データエンジニアリング力シート)】

  • 環境構築
  • アーキテクチャ設計
  • ★ コンテナ技術の概要を理解しており、既存のDockerイメージを活用して効率的に分析環境を構築できる
  • ★ Dockerコンテナ技術を用いてデータの蓄積環境・分析環境を構築し、再利用できる形でDockerイメージを管理できる

ドリルダウンとドリルアップの違いとは?BIツールの基本操作【DS検定】

  • Source: pages\ds\drilldown-drillup.md
  • Permalink: /ds/drilldown-drillup/

まず結論

  • ドリルダウン(Drill Down):集計データからより詳細なデータへ掘り下げる操作
  • ドリルアップ(Drill Up):詳細データからより大きな単位で集計する操作

DS検定では、BIツールの操作として
「スライス・ダイス・ドリルダウン・ドリルアップ」の違いを判断させる問題がよく出題されます。


直感的な説明

BIツールでは、データをいろいろな粒度(細かさ)で見ることができます。

例えば売上データを考えてみます。

年 → 月 → 日
日本 → 地域 → 店舗

このように、データには階層構造があります。

ドリルダウン

集計 → 詳細へ進む

売上(年)

売上(四半期)

売上(月)

売上(日)

つまり

「もっと細かく見ていく」操作


ドリルアップ

詳細 → 集計へ戻る

売上(日)

売上(月)

売上(年)

つまり

「全体の傾向を見る」操作

です。


定義・仕組み

BIツールでは、データは階層構造(Hierarchy)で管理されることが多いです。

例えば

レベル
上位レベル
中間レベル
下位レベル

この階層を移動する操作が

  • ドリルダウン
  • ドリルアップ

です。

ドリルダウン

上位レベル → 下位レベル

  • 年別売上 → 月別売上
  • 地域別売上 → 店舗別売上

ドリルアップ

下位レベル → 上位レベル

  • 日別売上 → 月別売上
  • 店舗別売上 → 地域別売上

どんな場面で使う?

ドリルダウンを使う場面

売上が落ちている原因を分析するとき

年別売上

月別売上

店舗別売上

このように

問題の原因を詳しく調べるとき

に使います。


ドリルアップを使う場面

細かいデータを全体の傾向として確認したいとき

日別売上

月別売上

年別売上

つまり

全体のトレンドを見る場合

です。


よくある誤解・混同

DS検定では、次の操作を混同させる問題がよく出ます。

ドリルダウン vs スライス

操作 意味
ドリルダウン 粒度を細かくする
スライス 条件でデータを切る

  • 年 → 月 → 日
    ドリルダウン

  • 地域 = 東京
    スライス


ドリルダウン vs ダイス

操作 意味
ドリルダウン 階層を下げる
ダイス 複数条件でデータを切る

つまり

階層を移動するのか
条件でデータを切るのか

が判断ポイントです。


まとめ(試験直前用)

  • ドリルダウン:集計 → 詳細
  • ドリルアップ:詳細 → 集計
  • スライス:1つの条件でデータを切る
  • ダイス:複数条件でデータを切る

DS検定では

「粒度を変える操作」=ドリルダウン / ドリルアップ

と覚えると選択肢を切りやすくなります。


【対応スキル項目(データサイエンス力シート)】

  • データ理解・可視化
  • データ可視化

★ データの特徴を理解し、適切な可視化手法を選択できる


ドリルスルーとは?ドリルダウンとの違いを整理【DS検定】

  • Source: pages\ds\drillthrough.md
  • Permalink: /ds/drillthrough/

まず結論

ドリルスルー(Drill Through)とは、集計データから別の詳細レポートへ移動して詳細データを確認する操作です。

DS検定では
「ドリルダウン」との違いを判断させる問題として出題される可能性があります。

ポイントは

同じレポート内で階層を下げるのか
別のレポートへ移動するのか

という違いです。


直感的な説明

BIツールでは、まず全体のデータを見てから
気になる部分を詳しく調べることがよくあります。

例えば次のような売上レポートがあるとします。

地域 売上
東京 1000
大阪 800

ここで

「東京の売上の内訳を詳しく知りたい」

と思った場合、

東京をクリックすると

  • 店舗別売上
  • 商品別売上
  • 日別売上

などの詳細レポートが表示されることがあります。

このように

別の詳細画面へ移動してデータを見る

操作が ドリルスルーです。


定義・仕組み

ドリルスルーとは

あるレポートのデータを起点にして、別の詳細レポートへ移動する操作

です。

例えば

売上サマリーレポート

地域 売上
東京 1000
大阪 800

ここで「東京」をクリックすると

東京の詳細レポート

店舗 売上
新宿 400
渋谷 300
品川 300

のような

別のレポートへ移動して詳細データを見る

ことができます。

BIツールでは

  • Power BI
  • Tableau
  • Looker

などでよく使われる機能です。


どんな場面で使う?

① 集計データの原因を調べたいとき

地域別売上

店舗別売上

つまり

サマリー → 詳細

へ移動する分析です。


② 詳細分析ページに移動するとき

BIレポートでは

  • サマリーダッシュボード
  • 詳細分析ページ

のようにページが分かれていることがあります。

そのとき

特定のデータをクリックして
詳細ページへ移動する

のがドリルスルーです。


よくある誤解・混同

DS検定では次の操作と混同される可能性があります。


ドリルダウンとの違い

操作 意味
ドリルダウン 同じレポート内で詳細へ
ドリルスルー 別のレポートへ移動

ドリルダウン

年別売上

月別売上

(同じ画面)


ドリルスルー

地域別売上

東京の店舗売上ページ

(別ページ)


ドリルダウンとの判断ポイント

DS検定では

  • 階層
  • 粒度
  • 年 → 月 → 日

と書かれていたら

ドリルダウン

の可能性が高いです。

一方で

  • 詳細ページ
  • 別レポート
  • クリックして移動

などの表現があれば

ドリルスルー

を疑うと選択肢を切りやすくなります。


まとめ(試験直前用)

BIツールの操作は次のように整理できます。

  • フィルター:条件でデータを絞る
  • スライス:1つの条件でデータを切る
  • ダイス:複数条件でデータを切る

  • ドリルダウン:集計 → 詳細(同じレポート)
  • ドリルアップ:詳細 → 集計

  • ドリルスルー:別の詳細レポートへ移動

  • ピボット:行と列を入れ替える

DS検定では

「粒度を変える操作」なのか
「別のレポートへ移動する操作」なのか

を見極めることが重要です。


【対応スキル項目(データサイエンス力シート)】

  • データ理解・可視化
  • データ可視化

★ データの特徴を理解し、適切な可視化手法を選択できる


ダニング=クルーガー効果とは?能力が低いほど自信が高くなる心理【DS検定】

  • Source: pages\ds\dunning-kruger-effect.md
  • Permalink: /ds/dunning-kruger-effect/

まず結論

  • ダニング=クルーガー効果とは、能力や知識が不足している人ほど自分の能力を過大評価してしまう心理現象です。
  • DS検定では、人は必ずしも自分の能力を正しく評価できないという人間の認知の特徴を理解しているかが問われます。

直感的な説明

例えば、新しい分野を少し学び始めたとき、

  • 「思ったより簡単だ」
  • 「自分は結構理解できている」

と感じることがあります。

しかし、学習を進めていくと

  • 思ったより難しい
  • まだ知らないことが多い

と気づくことが多いです。

つまり、人は

知識が少ない段階ほど自分の理解度を高く見積もってしまう

傾向があります。

一方で、知識が増えるほど

  • 自分の限界
  • 知識の広さ

が見えるようになり、

むしろ自信が下がる

ことがあります。

この現象が ダニング=クルーガー効果 です。


定義・仕組み

ダニング=クルーガー効果(Dunning-Kruger Effect)とは、

能力が低い人ほど自分の能力を過大評価し、能力が高い人ほど自分の能力を過小評価する傾向

を指します。

この現象は心理学の研究で示されており、

  • 能力が低い人は
    → 自分の誤りに気づく能力も不足している

という特徴があります。

そのため

  • 自分の能力を客観的に評価できない
  • 実力以上に自信を持ってしまう

という状態が起きます。

逆に、知識や経験が増えると

  • 問題の難しさ
  • 自分の限界

が見えるようになり、

自己評価が慎重になる

ことがあります。


どんな場面で使う?

学習や教育

学習の初期段階では

  • 少し理解しただけで
    「完全に理解した」

と思ってしまうことがあります。

しかし実際には

  • 基礎
  • 応用
  • 実務

など多くの理解が必要です。


データ分析・AI活用

データ分析の分野でも

  • 少しツールを使える
  • 簡単な分析ができる

だけで

「データ分析ができる」

と思ってしまうことがあります。

しかし実際には

  • 統計理解
  • 仮説検証
  • データ解釈

など多くの知識が必要です。

DS検定では

AIやデータ分析を過信しない姿勢

も重要なポイントです。


ビジネス意思決定

組織でも、

  • 知識が少ない人ほど強い意見を持つ
  • 専門家ほど慎重になる

という状況が起きることがあります。

これはダニング=クルーガー効果の典型例です。


よくある誤解・混同

① 自信がある人すべてがダニング=クルーガー効果ではない

単に自信があるだけでは、この効果とは言えません。

ポイントは

能力が低いにもかかわらず自信が高い

という点です。


② 認知バイアスとの関係

用語 意味
認知バイアス 思考の偏りの総称
ダニング=クルーガー効果 認知バイアスの一種

つまり

ダニング=クルーガー効果は認知バイアスの具体例

です。


③ メタ認知との違い

DS検定では、この2つを混同させる問題が出ることがあります。

用語 意味
ダニング=クルーガー効果 自分の能力を過大評価してしまう
メタ認知 自分の思考や理解を客観的に見直す力

つまり

メタ認知が高いほど、ダニング=クルーガー効果は起きにくくなります。


まとめ(試験直前用)

  • ダニング=クルーガー効果 = 能力が低いほど自信が高くなる心理
  • 能力不足の人は自分の誤りにも気づきにくい
  • 学習や意思決定の場面で起きやすい
  • DS検定では
    「能力不足なのに自信が高い」
    という状況が出てきたらこの概念を疑う

覚え方:

知らないほど自信があり、知るほど慎重になる


【対応スキル項目(ビジネス力シート)】

  • 問題解決力
  • 課題の構造化
  • ★ 課題を構造的に整理し、論理的に解決することができる

DWHアプライアンスとは?OLTPとの違いを整理【DS検定】

  • Source: pages\ds\dwh-appliance.md
  • Permalink: /ds/dwh-appliance/

まず結論

DWHアプライアンスとは、大量データを高速に分析することに特化したデータ基盤です。
DS検定では「オンライン取引処理(OLTP)」と区別できるかが重要になります。


直感的な説明

会社のデータ処理には大きく2種類あります。

① オンライン取引処理(OLTP:Online Transaction Processing)

→ 日々の業務処理を正確にさばく仕組み
例:

  • レジでの決済
  • 在庫更新
  • 銀行振込
  • 予約登録

1件ずつ確実に処理することが最優先です。


② 分析処理(OLAP:Online Analytical Processing)

→ データをまとめて分析する仕組み
例:

  • 売上集計
  • 顧客分析
  • 傾向分析

DWHアプライアンスは、この②に特化した基盤です。

DS検定では
「トランザクション処理が得意」
「リアルタイム処理が強み」
といった選択肢が出たら注意が必要です。


定義・仕組み

DWH(データウェアハウス)

分析目的でデータを集約・統合したデータベース。

DWHアプライアンス

  • 分析専用に最適化された専用機
  • データベース+ハードウェア+分析エンジンが一体化
  • 大量データを高速集計できる設計

主な特徴:

  • 列指向データベース
  • 並列処理(複数CPUで同時処理)
  • データ圧縮

重要なのは、

「書き込み」よりも「読み込み・集計」に強い

という点です。


どんな場面で使う?

使う場面

  • 全社売上分析
  • BIツールによる可視化
  • 顧客セグメント分析
  • 経営ダッシュボード

つまり、意思決定のための分析基盤です。


向かない場面

  • レジ処理
  • 在庫のリアルタイム更新
  • 銀行取引
  • 秒単位のリアルタイム監視

これらはオンライン取引処理(OLTP)の領域です。


よくある誤解・混同

① OLTPとの混同

項目 OLTP(オンライン取引処理) DWH
目的 日々の業務処理 分析
処理単位 1件ずつ 大量まとめて
強み 書き込み・更新 読み込み・集計

DS検定では
「高度なトランザクション処理能力」
と書かれていたらOLTPの説明です。


② リアルタイム処理との混同

リアルタイム分析基盤(ストリーム処理)とDWHは別物です。

選択肢で

  • 「リアルタイムデータ処理能力」 とあれば誤りと判断できます。

③ クラウドDWHとの混同

最近はクラウド型DWHもありますが、 本質は変わりません。

“分析特化型”かどうかが判断基準です。


まとめ(試験直前用)

  • DWHアプライアンス=分析専用基盤
  • 強みは「大規模データへの高速クエリ」
  • OLTP=オンライン取引処理(業務処理用)
  • 書き込み重視はOLTP、集計重視はDWH
  • DS検定ではOLTPとの区別が最重要

【対応スキル項目(データエンジニアリング力シート)】

  • データ基盤構築
  • データ管理
  • ★ データベースの基本概念を理解している
  • ★ データウェアハウスの役割を理解している

eの微分・積分を最短で整理【DS検定リテラシー】

  • Source: pages\ds\e-calculus.md
  • Permalink: /ds/e-calculus/

まず結論

e(自然対数の底)を底にした指数関数は「微分しても形が変わらない」ので、増減(成長・減衰)を扱うモデルで超よく出ます。
DS検定では「式を計算できるか」よりも、eやlog(対数)が“何を意味しているか”で選択肢を切らせてきます。


直感的な説明

e を使う理由を一言でいうと、変化のスピード(伸び方)を扱うのが得意だからです。

  • たとえば「売上が毎月◯%ずつ増える」「故障率が時間とともに増える(または減る)」みたいな “割合ベースの増減” は、指数関数(eの形)が自然に出てきます。
  • 逆に、log(対数)は “増え方を足し算っぽく見る” ための道具です。
    例:倍率の変化 → 足し算で扱える(ざっくり「掛け算を足し算に変換」)

定義・仕組み

e とは?

  • e は だいたい 2.718… の定数です(円周率πみたいなもの)。
  • ただの数字なのに重要なのは、e^x(指数関数)と ln(x)(自然対数)がセットで頻出だからです。

DS検定で最低限おさえる「微分・積分」の形

計算より 形と意味 が大事です。

  • 微分(変化の速さ)
    • d/dx (e^x) = e^x
      → e^x は 増え方が“自分自身”に比例する(大きいほど伸びも大きい)
    • d/dx (e^{ax}) = a e^{ax}(aは定数)
      → 係数 a は 変化の強さ(スピード) を決める
  • 積分(たまり方・面積)
    • ∫ e^x dx = e^x + C
      → e^x は 足し上げても形がそのまま
  • 自然対数 ln の基本
    • d/dx (ln x) = 1/x
      → x が大きいほど増えにくい(伸びがだんだん鈍る感じ)
    • ∫ (1/x) dx = ln|x| + C

※ DS検定リテラシーでは、ここは 公式暗記というより「どういう増え方を表すか」 を押さえるのが勝ちです。


どんな場面で使う?

使うべき場面(よく出る)

  • 指数成長・指数減衰(増減が“割合”で効く)
    • 例:感染・拡散、設備の劣化の進み方、反応の減衰、需要の伸び など
  • ロジスティック回帰などの確率モデル
    • 「確率が0〜1に収まる形」を作るときに、e が裏側で動いていることが多い
  • 前処理の log 変換(log, ln)
    • 桁が大きいデータ、歪んだ分布、外れ値の影響を弱めたいときに使う
    • 乗法的な関係(倍率)を、加法的に見やすくする

使うと誤解しやすい場面(注意)

  • “増加量が一定” みたいな話は指数じゃなくて線形が自然なことが多い
    例:毎月「+10」なら指数より一次関数のほうが素直
  • log をかければ何でも正規分布になる、みたいな雑な理解(DS検定はここ突いてきます)

よくある誤解・混同

  • e は変数
    ⭕ e は 定数(2.718…)
  • e^x の微分は x e^x
    d/dx (e^x) = e^x(形が変わらないのがポイント)
  • log と ln は別物で、全然違う
    ⭕ どちらも対数で、底が違うだけ(lnは底がe)
  • a^x の微分も a^x のまま
    d/dx (a^x) = a^x ln(a)(底がe以外だと ln(a) が出る)
    「微分して形がきれい」なのが e の強み
  • DS検定では 「指数(e^x)」と「対数(ln)」を逆関数として混同させてくる ので注意。
    選択肢で「指数が足し算になる」「対数が掛け算になる」みたいな雑な表現があったら要チェックです。

まとめ(試験直前用)

  • e は定数で、e^x は微分しても形が変わらない(増え方が自分に比例)。
  • ln は “倍率の世界”を“足し算の世界”に寄せる道具(前処理でも頻出)。
  • ひっかけは eを変数扱い/e^xの微分ミス/logとlnの混同/指数と対数の逆関係
  • 選択肢は「どんな増え方・解釈か」で切る(計算より意味!)。

【対応スキル項目(データサイエンス力シート)】

  • 数学的理解
  • 微分・積分基礎
  • ★ 微分により計算する導関数が傾きを求めるための式であることを理解している

※ 試験要件の一覧は
データサイエンス力シート を参照


EDA(探索的データ分析)とは?分析の第一歩を理解する【DS検定】

  • Source: pages\ds\eda.md
  • Permalink: /ds/eda/

EDA(探索的データ分析)とは?


まず結論

EDA(Exploratory Data Analysis:探索的データ分析)とは、
データの特徴や傾向を理解するために、可視化や基本統計量を使ってデータを探索する分析プロセスです。

DS検定では、

  • 分析の前にデータを理解する
  • 異常値や分布を確認する

といった 「分析前のデータ理解の重要性」を判断させる問題として登場します。


直感的な説明

例えば売上データを分析するとき、

いきなり機械学習モデルを作るのではなく、
まず次のようなことを確認します。

  • 売上の分布はどうなっているか
  • 異常値はあるか
  • 季節変動はあるか
  • どの変数が関係しそうか

そのために

  • ヒストグラム
  • 散布図
  • 箱ひげ図
  • クロス集計

などを使って データを観察します。

この

「まずデータをよく見る」

というプロセスが EDA(探索的データ分析)です。


定義・仕組み

EDAは主に次の目的で行われます。


データの分布を理解する

データがどのような形で分布しているかを確認します。

  • ヒストグラム
  • 箱ひげ図

これにより

  • 偏り
  • 外れ値

などを発見できます。


変数同士の関係を確認する

変数の関係を可視化します。

  • 散布図
  • 相関係数
  • クロス集計

これにより

関係性のヒントを見つけます。


データ品質を確認する

EDAでは

  • 欠損値
  • 異常値
  • 入力ミス

などの問題も確認します。

この作業は データ前処理の重要なステップです。


どんな場面で使う?

データ分析の最初のステップ

データ分析では

EDA → モデル分析

という順序で進めることが一般的です。


機械学習前のデータ理解

機械学習モデルを作る前に

  • 分布
  • 変数関係
  • 外れ値

などを理解しておく必要があります。


ビジネスデータ分析

企業では

  • 売上データ
  • 顧客データ
  • 行動ログ

などの分析で EDA が使われます。


よくある誤解・混同

EDA = 機械学習?

❌ EDAはモデル作成ではない

EDAは

データ理解のプロセス

です。


仮説が不要?

❌ 仮説とEDAは対立しない

実際の分析では

  • 仮説思考
  • EDA

を組み合わせて使います。


データが多ければEDAは不要?

❌ データ量とEDAは関係ない

むしろデータ量が多いほど

データ理解が重要になります。


DS検定のひっかけ

DS検定では

  • 「機械学習の前にデータを探索する」
  • 「可視化でデータの特徴を理解する」

と書かれていた場合

EDA(探索的データ分析)

と判断するのがポイントです。


まとめ(試験直前用)

EDA(探索的データ分析)は

データの特徴を理解するための分析プロセス

です。

ポイント

  • 分析の最初に行う
  • 分布・関係・外れ値を確認
  • 可視化を多用する

DS検定では

「分析前にデータを探索するプロセス」

と書かれていたら

EDA

と判断できることが重要です。


【対応スキル項目(データサイエンス力シート)】

  • データ理解
  • データ前処理
  • ★ データの分布や特徴を理解し、適切に可視化・探索できる

行列の固有値とは?意味を直感で整理【DS検定】

  • Source: pages\ds\eigenvalue.md
  • Permalink: /ds/eigenvalue/

まず結論

固有値は「その行列が、ある特別な向きのベクトルをどれだけ伸ばす/縮めるか」を表す倍率です。
DS検定では「固有値=何の大きさか?」を、主成分分析や“向きと広がり”の文脈で判断させる問題が出ます。

直感的な説明

行列は「空間をどう変形するか」を表すルールです。

例えば、丸いゴム板を引き伸ばすと、だ円になります。

  • いちばん伸びる向きがある
  • ほとんど伸びない向きもある

その「向き」が固有ベクトル、
その「伸びる倍率」が固有値です。

つまり固有値は、
変形の強さを表す数です。

定義・仕組み

固有値は、次の状況で出てくる数です。

  • 行列をかけても「向きが変わらない」ベクトルがある
  • そのとき、大きさだけが倍率で変わる

この倍率が固有値です。

2×2行列での求め方(イメージ用)

次の行列を考えます。

\[A = \begin{pmatrix} a & b \\ c & d \end{pmatrix}\]

固有値 λ は次の式から求めます。

\[\det(A - \lambda I) = 0\]

ここで I は単位行列です。

実際に式を書くと、

\[(a - \lambda)(d - \lambda) - bc = 0\]

展開すると、

\[\lambda^2 - (a+d)\lambda + (ad - bc) = 0\]

これは2次方程式です。

つまり固有値は、

  • 対角成分の合計(a+d)
  • 行列式(ad-bc)

で決まります。

DS検定では、
この式を暗記するよりも、

「固有値は変形の倍率」
「トレースと行列式で決まる」

と理解しているかが重要です。

数値例で直感確認

\[A = \begin{pmatrix} 2 & 0 \\ 0 & 1 \end{pmatrix}\]

この行列は、

  • x方向を2倍
  • y方向を1倍

にします。

固有値は 2 と 1 です。

つまり、
「その方向にどれだけ伸びるか」がそのまま固有値です。

どんな場面で使う?

使う場面

  • 主成分分析(PCA)
    • 固有ベクトル:主成分の向き
    • 固有値:その向きの分散の大きさ
  • データのばらつきの方向を理解したいとき

DS検定では
「どの主成分が情報量が大きいか?」と問われることがあります。
その判断基準が固有値です。

注意すべき場面

  • 固有値が大きい=常に良い、ではない
    目的次第で意味が変わります。
  • 計算できるかどうかより、解釈が重要です。

よくある誤解・混同

DS検定ではここを混同させてきます。

固有値と固有ベクトル

  • 固有値:倍率
  • 固有ベクトル:向き

選択肢で「軸」「方向」と書いてあれば固有ベクトルです。

固有値と特異値

  • PCA文脈 → 固有値
  • SVD文脈 → 特異値

選択肢では「特異値分解」という言葉が出たら注意です。

固有値は必ず正?

一般の行列では負になることもあります。
ただし、共分散行列の文脈では負にならない前提で出題されます。

まとめ(試験直前用)

固有値は「行列がベクトルを伸ばす倍率」。
固有ベクトルは「向きが変わらない方向」。
PCAでは「固有値=分散の大きさ」。
選択肢で「方向」とあれば固有ベクトル、「どれだけ大きいか」とあれば固有値を疑う。


【対応スキル項目(データサイエンス力シート)】

  • 数学的理解
  • 線形代数基礎
  • ★ 固有ベクトルおよび固有値の意味を理解している

ELSIとは?AI時代に重要な倫理・法・社会問題を理解する【DS検定】

  • Source: pages\ds\elsi.md
  • Permalink: /ds/elsi/

まず結論

  • ELSI(Ethical, Legal and Social Issues)とは、科学技術の発展によって生じる「倫理・法・社会」に関する問題を考える枠組みです。
  • DS検定では、AIやデータ活用の技術的な可能性だけでなく「社会への影響をどう考えるか」を問う問題として出題されます。

直感的な説明

AIやデータ分析の技術はとても便利ですが、
「技術ができること」と「社会として許されること」は必ずしも同じではありません。

例えば次のような場面です。

  • AIが顔認識で犯罪者を特定できる
  • 企業が個人の購買履歴を分析できる
  • AIが採用候補者を自動で選別する

技術的には可能でも、

  • プライバシーは守られているか
  • 差別につながらないか
  • 法律に違反していないか

といった問題が生まれます。

このように
技術の社会的影響を考える枠組みが ELSI です。


定義・仕組み

ELSI は次の3つの観点から構成されます。

Ethical(倫理)

社会的に正しいかどうかを考える問題です。

  • AIの判断は公平か
  • アルゴリズムによる差別はないか
  • AIの判断は説明可能か

近年は
AI倫理(AI Ethics) として議論されることが多い領域です。


Legal(法)

法律との関係です。

  • 個人情報保護法
  • GDPR
  • 著作権
  • AI責任問題

AIが誤った判断をした場合
誰が責任を持つのか という問題もここに含まれます。


Social(社会)

社会への影響です。

  • AIによる雇用への影響
  • 社会格差の拡大
  • AI監視社会

技術が社会にどんな変化をもたらすのかを考えます。


つまり ELSI とは

「技術を作る」だけではなく
「社会の中でどう使うべきか」を考える視点

と言えます。


どんな場面で使う?

ELSIは特に次のような分野で重要です。

AI・データ活用

  • AIの公平性
  • AIの透明性
  • AIの説明可能性


採用AIが特定の性別を不利にしていないか。


医療データ

  • 遺伝情報
  • 医療データ
  • 個人健康情報


遺伝子データを誰が利用できるのか。


個人データ活用

  • SNSデータ
  • 位置情報
  • 購買履歴


企業がどこまでデータを利用してよいのか。


DS検定では

「技術的に可能でも社会的に問題がある場合がある」

という視点を理解しているかが問われます。


よくある誤解・混同

誤解①

ELSIは倫理だけの話

これは誤りです。

ELSIは

  • 倫理
  • 法律
  • 社会

3つをまとめた概念 です。


誤解②

ELSIはAIだけの問題

これも誤りです。

もともとELSIは
ヒトゲノム計画(遺伝子研究) で議論された概念です。

現在は

  • AI
  • ビッグデータ
  • バイオテクノロジー

など広い技術分野で使われています。


DS検定でのひっかけ

DS検定では次のような形で出題されます。

  • 技術の説明 → ELSIの観点を問う
  • AIの社会問題 → ELSIという用語を選ばせる

選択肢で

  • 倫理問題
  • 社会問題
  • 法律問題

が並んでいた場合、

これらをまとめた概念が ELSI
と判断できると正解しやすくなります。


まとめ(試験直前用)

  • ELSI = Ethical・Legal・Social Issues
  • 技術の社会的影響を考える枠組み
  • AI・遺伝子研究・データ活用などで重要
  • 技術の「できること」と「社会的に許されること」は別
  • DS検定では AIの社会的課題の文脈で出題される

【対応スキル項目(AI利活用スキルシート)】

  • AI利活用
  • AI倫理・社会

★ AIの利活用における社会的影響や倫理的課題を理解している ★ AIの活用に伴う法的・社会的リスクを理解している


カプセル化とは?情報隠蔽との違いを整理【DS検定リテラシー】

  • Source: pages\ds\encapsulation.md
  • Permalink: /ds/encapsulation/

まず結論

  • カプセル化とは、データと処理をひとまとめにし、外部からの直接アクセスを制限する仕組みのこと。
  • DS検定では「継承」「ポリモーフィズム」との違いを判断させる問題としてよく問われる。

直感的な説明

「中身は見せないけれど、使い方だけは公開する」という考え方です。

たとえば自動販売機をイメージしてください。

  • 私たちはボタンを押すだけ
  • 中の回路や仕組みは触れない

これがカプセル化のイメージです。

業務システムでも、

  • 顧客情報
  • 売上データ

などを「直接書き換えさせない」ことで、
システムの安全性や一貫性を守ります。


定義・仕組み

カプセル化とは、

データ(属性)と、それを操作する処理(メソッド)を一つの単位(クラス)にまとめ、外部からの直接アクセスを制限すること

ポイントは次の3つです。

  1. データと処理をセットにする
  2. 外部から直接変更させない
  3. 必要な操作だけを公開する

これを 情報隠蔽 と呼ぶこともあります。

DS検定では、「データを private にする」といった表現が出たら、
カプセル化を指していると判断できます。


どんな場面で使う?

使う場面

  • データの不正な書き換えを防ぎたいとき
  • システムの安全性を高めたいとき
  • 大規模開発で責任範囲を明確にしたいとき

使うと誤解しやすい場面

  • 単にクラスを作ればカプセル化だと思う場合
  • 継承と混同してしまう場合

「データを守る仕組みかどうか」が判断基準です。


よくある誤解・混同

① 継承との混同

  • 親クラスの機能を引き継ぐ → 継承
  • データを外部から守る → カプセル化

DS検定では
「クラス間で機能を共有する」と書かれていたら継承です。


② ポリモーフィズムとの混同

  • 同じ呼び出しで異なる動作をする → ポリモーフィズム
  • データを隠して守る → カプセル化

選択肢では、

「異なる型を単一のインターフェースで扱う」

と書かれていたらカプセル化ではありません。


③ 情報隠蔽との違い

実務上はほぼ同じ意味で使われますが、

  • カプセル化 → 構造の考え方
  • 情報隠蔽 → 外部から見えなくする目的

という整理をしておけば十分です。


まとめ(試験直前用)

  • カプセル化=データと処理をまとめ、外部から直接触れさせない仕組み
  • 「privateにする」「外部から隠す」とあればカプセル化
  • 継承は“引き継ぐ”概念
  • ポリモーフィズムは“同じ呼び出しで動きが変わる”概念
  • DS検定ではこの3つの切り分けが重要

【対応スキル項目(AI利活用スキルシート)】

  • AIの基礎理解
  • 情報システムの基本構造の理解
  • ★ AIを活用したシステムの基本的な構造を理解している

エンコーディングとは?カテゴリ変数を数値化する理由【DS検定】

  • Source: pages\ds\encoding.md
  • Permalink: /ds/encoding/

まず結論

エンコーディングとは、カテゴリデータを数値に変換する前処理です。

DS検定では、機械学習アルゴリズムは文字データを扱えないため数値化が必要という理解が問われます。


直感的な説明

例えば次のようなデータがあるとします。

顧客ID 購入商品

1 りんご 2 みかん 3 りんご

人間はこれを見て意味を理解できますが、 機械学習モデルは 文字の意味を理解できません。

そのため、次のように数値に変換します。

りんご → 1 みかん → 2

このように、カテゴリ(分類)データを数値に変換する処理を エンコーディング(encoding)と呼びます。


定義・仕組み

エンコーディングとは、カテゴリ変数を機械学習で扱える数値データに変換する処理です。

機械学習アルゴリズムは基本的に

数値

ベクトル

しか扱えません。

そのため、

性別

商品カテゴリ

地域

のような 文字データ(カテゴリ変数) は 数値に変換する必要があります。

代表的なエンコーディングには次の2つがあります。

ラベルエンコーディング(Label Encoding)

カテゴリを整数に変換する方法です。

商品

りんご みかん ぶどう

商品

1 2 3


ワンホットエンコーディング(One-Hot Encoding)

カテゴリごとに列を作る方法です。

商品 りんご みかん ぶどう

りんご 1 0 0 みかん 0 1 0


どんな場面で使う?

① 機械学習モデルを作るとき

分類モデルや回帰モデルでは、 カテゴリ変数をそのまま使うことができません。

そのため

商品カテゴリ

地域

職業

などを エンコーディングして数値化します。


② データ前処理(preprocessing)

エンコーディングは

欠損値処理

正規化

スケーリング

などと並ぶ 代表的な前処理です。

DS検定では

「カテゴリ変数の処理」

として出題されることが多いです。


よくある誤解・混同

① マッピング処理との混同

用語 意味

マッピング 値を別の値に置き換える エンコーディング カテゴリを数値化する

つまり

エンコーディングはマッピング処理の一種です。


② ラベルエンコーディングの誤解

例えば

りんご → 1 みかん → 2 ぶどう → 3

とすると

数値の大小関係が意味を持つように見えてしまう

という問題があります。

そのため

順序がないカテゴリでは ワンホットエンコーディングを使うことが多い

という点はDS検定でも重要です。


③ 数値データとの混同

選択肢では次のような誤りが出やすいです。

❌ エンコーディング = 数値データを変換する処理

⭕ エンコーディング = カテゴリデータを数値化する処理


まとめ(試験直前用)

エンコーディング = カテゴリ変数を数値化する処理

機械学習では文字データを扱えないため必要

代表的手法

ラベルエンコーディング

ワンホットエンコーディング

順序のないカテゴリにはワンホットがよく使われる

DS検定では

「カテゴリ変数を数値に変換する処理」

と書かれていたら エンコーディングと判断できるようにしておきましょう。


【対応スキル項目(データサイエンス力シート)】

データ理解・前処理

データ加工

★ データの前処理(欠損値処理、正規化、カテゴリ変数の処理など)を理解している


エントロピーとは?不確実さを測る指標【DS検定】

  • Source: pages\ds\entropy.md
  • Permalink: /ds/entropy/

まず結論

エントロピーとは、データの不確実さ(どれだけ混ざっているか)を数値で表す指標です。
DS検定では、「分岐の良さをどう判断するか?」という問題で使われます。


直感的な説明

たとえば、あるクラスに

  • 全員「合格」だけ
  • 合格と不合格が半々

この2つを比べると、

  • 全員同じ → 予測は簡単(迷わない)
  • 半々 → 予測は難しい(迷う)

この「どれだけ迷うか」を数値にしたものがエントロピーです。

エントロピーが小さい = ほぼ決まっている
エントロピーが大きい = かなり混ざっている

と理解しておけば十分です。


定義・仕組み

エントロピーは、
クラスの割合がどれだけ均等かで決まります。

  • 1種類だけ → 最小
  • 均等に混ざる → 最大

決定木では、

分岐によってエントロピーがどれだけ減ったか

を使って、どの特徴量で分けるかを決めます。

この「減少量」が 情報利得 です。

つまり関係はこうです。

  • エントロピー → 今の混ざり具合
  • 情報利得 → 分岐でどれだけ混ざりが減ったか

DS検定ではこの関係を整理できているかが重要です。


どんな場面で使う?

① 決定木(ID3など)の分岐基準

エントロピーは、決定木アルゴリズムの
分岐評価に使われます。

「どの特徴量で分けると、よりはっきり分かれるか?」

を判断する材料です。


② 情報利得の計算

エントロピーは単体で問われることもありますが、
多くは「情報利得」とセットで出題されます。

DS検定では

  • エントロピーが小さい状態はどれか?
  • 情報利得が最大になるのはどれか?

といった形で問われることが多いです。


よくある誤解・混同

❌ エントロピーが大きいほど良い分岐

→ 逆です。

分岐後のエントロピーは
小さいほど良い状態です。


❌ エントロピー = ジニ不純度

→ 似ていますが別物です。

どちらも「混ざり具合」を測りますが、 計算方法が違います。

DS検定では

「分岐基準の1つ」

と整理できればOKです。


❌ エントロピーが高い = モデル精度が高い

→ 関係ありません。

エントロピーはあくまで
「ノード内の混ざり具合」を表すだけです。


まとめ(試験直前用)

  • エントロピー = 不確実さ(混ざり具合)
  • 均等に混ざるほど大きい
  • 1種類だけだと最小
  • 決定木の分岐評価に使う
  • 情報利得 = エントロピーの減少量

対応スキル項目(AI利活用スキルシート)

  • AIの理解
  • 機械学習の基本理解
  • ★ 機械学習モデルの基本的な仕組みを理解している

ER図とは?エンティティとリレーションを整理する図【DS検定】

  • Source: pages\ds\er-diagram.md
  • Permalink: /ds/er-diagram/

まず結論

ER図(Entity Relationship Diagram)とは、
データ同士の「もの」と「関係」を整理して可視化する図です。

DS検定では、「テーブル構造を理解できているか」「1対多の関係を判断できるか」を問う問題で使われます。


直感的な説明

データベースは、いきなり作るとぐちゃぐちゃになります。

たとえばECサイトなら:

  • 顧客
  • 商品
  • 注文
  • カテゴリ

これらはバラバラに存在しているのではなく、

  • 顧客は注文をする
  • 注文は商品を含む
  • 商品はカテゴリに属する

という「関係」があります。

ER図は、
データを箱で描き、関係を線でつなぐ設計図です。

家を建てる前の設計図のようなもの、と考えるとイメージしやすいです。


定義・仕組み

ER図は、主に3つの要素で構成されます。

① エンティティ(Entity)

データのまとまり。
テーブルになるもの。

例:

  • 顧客
  • 商品
  • 注文

図では「四角」で表します。


② アトリビュート(Attribute)

エンティティの中の項目。

例(顧客エンティティ):

  • 顧客ID
  • 名前
  • メールアドレス

図では、エンティティの中に記載します。


③ リレーション(Relationship)

エンティティ同士の関係。

例:

  • 顧客 ― 注文
  • 商品 ― カテゴリ

線で結びます。


④ カーディナリティ(多重度)

「いくつ対いくつの関係か」を示すもの。

  • 1対1
  • 1対多
  • 多対多

DS検定ではここが重要です。

例:

  • 1人の顧客は複数の注文を持てる
    → 1対多

選択肢では
「1対1」や「多対多」と書き換えて混乱させてきます。


IDEF1X記法との違い(関連用語)

ER図の書き方には種類があります。

  • IE記法
  • IDEF1X記法

DS検定では細かい記号よりも
「関係を読めるかどうか」が重要です。

記号の暗記よりも、

  • 主語はどちらか?
  • 片側は複数になれるか?

を考えることが大切です。


どんな場面で使う?

✔ データベース設計

新しいシステムを作る前に、構造を整理するとき。

✔ データ分析前の構造理解

複数テーブルを結合(JOIN)するとき。

DS検定では:

  • この関係は1対多か?
  • 外部キーはどこに入るか?
  • 多対多をどう解消するか?

が問われます。


よくある誤解・混同

❌ ER図=テーブル図

違います。

ER図は「設計段階の概念図」です。
物理的なデータベースそのものではありません。


❌ 線が引いてあれば全部同じ関係

違います。

重要なのは「カーディナリティ(多重度)」です。

DS検定では:

  • 1対多なのに1対1と書かれている
  • 多対多をそのまま実装できると書かれている

こうした選択肢が出ます。


❌ 多対多はそのままOK

実務では多対多は中間テーブルで分解します。

例: 学生 ― 授業(多対多)

→ 履修テーブルを作る

ここは典型的な出題ポイントです。


まとめ(試験直前用)

  • ER図は「データの設計図」
  • エンティティ=箱、リレーション=線
  • 最重要は「1対多」などの関係判断
  • 多対多は中間テーブルで解消
  • DS検定では関係の読み違いを狙ってくる

対応スキル項目(データエンジニアリング力シート)

  • データ基盤設計
  • データモデリング
  • ★ データモデリングの基本概念を理解している

推定量の性質の違いとは?(不偏性・一貫性・効率性・信頼性)【DS検定リテラシー】

  • Source: pages\ds\estimator-properties.md
  • Permalink: /ds/estimator-properties/

まず結論

推定量の性質とは、データから求めた値がどれくらい「真の値に近いか」を評価するための指標です。

DS検定では特に次の4つの性質が問われます。

  • 不偏性(平均すると真の値になる)
  • 一貫性(データが増えると真の値に近づく)
  • 効率性(ばらつきが最も小さい)
  • 信頼性(推定値の正確さを示す)

DS検定では
「標準誤差」「分散」「サンプルサイズ」などの言葉から、どの性質を指しているかを判断させる問題がよく出ます。


直感的な説明

例えば、ある商品の「平均売上」を推定したいとします。

100店舗のデータを全部集めるのは大変なので、
10店舗だけ調べて平均を推定します。

このとき次のような疑問が出ます。

  • その推定値は 平均すると正しいのか?
  • データが増えたら 真の値に近づくのか?
  • 推定値の ばらつきは小さいのか?
  • 推定結果は どれくらい信用できるのか?

こうした「推定の良さ」を評価するための考え方が
推定量の性質です。

DS検定では、
推定量の性質を言葉から判断できるかがよく問われます。


定義・仕組み

推定量の主な性質は次の4つです。

不偏性(Unbiasedness)

何度も推定すると平均が真の値になる性質

例えば真の平均が100だとします。

複数回サンプリングすると

95
102
98
105

のようにばらつきますが、
平均すると100になるなら不偏です。

ポイント

  • 推定値はばらついてもよい
  • 平均が真値ならOK

一貫性(Consistency)

サンプル数が増えると真の値に近づく性質

例えば

データ10件 → 推定値90
データ100件 → 推定値96
データ1000件 → 推定値99

のように
データが増えるほど真値に近づくなら一貫性があります。

ポイント

  • サンプルサイズが増えると改善する

効率性(Efficiency)

同じ不偏推定量の中で分散が最小のもの

2つの推定方法があったとします。

方法A
ばらつきが大きい

方法B
ばらつきが小さい

この場合

ばらつき(分散)が小さい方法Bが効率的

ポイント

  • 分散が小さいほど効率が高い

信頼性(Reliability)

推定値の正確さを表す性質

ここで重要なのが

標準誤差

標準誤差とは

推定値のばらつきの大きさ

です。

標準誤差が小さいと

  • 推定値が安定する
  • 真の値に近い可能性が高い

つまり

信頼性が高い

DS検定では

標準誤差が小さいほど何が高いか

と問われたら

信頼性

と判断します。


どんな場面で使う?

推定量の性質は主に次の場面で使われます。

回帰分析

回帰係数が

  • 信頼できるか
  • 安定しているか

を確認するために使います。

  • 回帰係数の 標準誤差
  • 回帰係数の 信頼区間

統計推定

母平均や母分散を

  • 標本平均
  • 標本分散

で推定するときにも重要です。


ビジネス分析

実務では

  • 売上予測
  • 需要予測
  • マーケティング分析

などで

推定結果がどれくらい信頼できるか

を判断するために使われます。


よくある誤解・混同

DS検定で特に混同しやすいのは次です。

標準誤差 → 効率性?

これは誤りです。

標準誤差は

信頼性

を示します。


分散 → 信頼性?

これも誤りです。

分散は

効率性

に関係します。


DS検定の典型的なひっかけ

試験では次のように出ます。

キーワード 指す性質
標準誤差 信頼性
分散が小さい 効率性
平均が真値 不偏性
サンプル増加 一貫性

選択肢では

「標準誤差が小さい」
と書かれていたら

👉 信頼性

と判断します。


まとめ(試験直前用)

推定量の性質は4つセットで覚える。

  • 不偏性
    → 平均すると真値になる

  • 一貫性
    → データが増えると真値に近づく

  • 効率性
    → 分散が最も小さい

  • 信頼性
    → 標準誤差が小さい

DS検定では
「標準誤差」「分散」「サンプル数」から性質を判断する問題がよく出ます。


【対応スキル項目(データサイエンス力シート)】

  • 数理・統計基礎
  • 推定

★ 推定の考え方(点推定・区間推定)を理解している
★ 推定量の性質(不偏性・一致性など)を理解している


ETLとは?(データ統合の基本プロセス)【DS検定リテラシー】

  • Source: pages\ds\etl.md
  • Permalink: /ds/etl/

まず結論

ETLとは、データを「抽出(Extract)→変換(Transform)→格納(Load)」する一連の処理のことです。
DS検定では「DWHにデータを入れる前の処理は何か?」という形で問われます。


直感的な説明

企業には、

  • 販売システム
  • 会計システム
  • 顧客管理システム

など、別々のデータがあります。

そのままでは形式がバラバラ。

そこで、

① 必要なデータを取り出す
② 形式をそろえて加工する
③ 分析基盤(DWHなど)に入れる

この流れがETLです。

「データを整えてから倉庫に入れる作業」と考えると分かりやすいです。


定義・仕組み

ETLは3つの工程から成ります。

① Extract(抽出)

各システムからデータを取り出す


② Transform(変換)

  • データ形式の統一
  • 不要データの削除
  • 単位の変換
  • 欠損値処理

ここが最も重要です。


③ Load(格納)

整形済みデータをDWHに保存する


重要ポイント:

ETLは「分析前の前処理プロセス」です。
分析そのものではありません。


どんな場面で使う?

使う場面

  • DWH構築
  • 経営ダッシュボード作成
  • 部門横断データ統合

特に「複数システムを統合する」場面で使われます。


向かない場面

  • リアルタイム処理
  • 生データをそのまま保存するデータレイク

その場合はELTやストリーム処理が使われます。


よくある誤解・混同

① ETL=データ分析?

違います。

ETLは分析の前段階です。

DS検定では
「分析モデルを構築する工程」と混同させてきます。


② ELTとの違い

項目 ETL ELT
変換タイミング 格納前 格納後
主な用途 従来型DWH クラウド基盤

DS検定では
「クラウド」「大容量基盤」とあればELT寄りです。


③ データレイクとの混同

データレイクは保存の考え方。
ETLは加工プロセス。

役割がまったく違います。


まとめ(試験直前用)

  • ETL=抽出→変換→格納
  • DWHに入れる前の整形作業
  • 分析そのものではない
  • 複数システム統合に必須
  • 「変換してから保存」→ ETL

【対応スキル項目(データエンジニアリング力シート)】

  • データ基盤
  • データ統合
  • ★ データ統合プロセス(ETL)の基本を理解している
  • ★ 複数システムのデータを統合する考え方を理解している

ユーグリッドノルムとは?(ベクトルの長さの測り方)【DS検定】

  • Source: pages\ds\euclidean-norm.md
  • Permalink: /ds/euclidean-norm/

まず結論

ユーグリッドノルムは、ベクトルを「長さ(大きさ)」として1つの数にまとめるものです。 DS検定では「距離」や「似ている/似ていない」を判断する土台として、ノルムの意味が分かっているかを問われやすいです。

直感的な説明

ベクトルは「矢印」だと思うと楽です。

  • 矢印の向き → どっちの方向にズレているか
  • 矢印の長さ → どれくらいズレているか

ユーグリッドノルムは、この「矢印の長さ」を出す方法です。 たとえば、

  • 顧客の特徴(年齢・購入回数・利用金額)を3つの数で表す
  • その3つをまとめて「平均との差がどれくらい大きいか」を1つの数で見たい

みたいなときに出番があります。

定義・仕組み

ユーグリッドノルムは、ざっくり言うと次の流れです。

  1. 各要素を二乗して(マイナスを消して)
  2. 足し算して(全部の大きさを合体して)
  3. ルートを取る(元のスケールに戻す)

式で書くと(※意味だけ押さえればOK):

  • ベクトル (x = (x_1, x_2, \dots, x_n)) のユーグリッドノルムは
  • ( x = \sqrt{x_1^2 + x_2^2 + \dots + x_n^2})

3行1列(3×1)の例(ここでミスりやすい!)

たとえば次のベクトル:

\[\begin{bmatrix} 3\ 4\ 12 \end{bmatrix}\]

ユーグリッドノルムは (\sqrt{3^2 + 4^2 + 12^2} = \sqrt{9 + 16 + 144} = \sqrt{169} = 13)

ポイント:縦に3つ並んでいても、やることは「全部二乗して足す」だけです。 「3行1列だから3で割る」「平均を取る」みたいな操作はしません。

どんな場面で使う?

使うべき場面

  • 距離として使いたいとき(例:k近傍法、クラスタリングの距離)
  • 誤差の大きさを1つの数で見たいとき(例:予測と実測のズレの大きさ)
  • 似ている/似ていないの判断の土台

使うと誤解しやすい場面

  • 特徴量の単位がバラバラ(年齢と金額など)なのに、そのまま距離を取る

    • 金額が距離を支配してしまい「年齢の差」がほぼ無視される、が起きがち
    • こういうときは「標準化」などの前処理がセットで出てきます

よくある誤解・混同

  • 誤解1:ノルム=平均との差(平均を引く)

    • ⭕ ノルムは「長さ」。平均との差を取りたいなら、まず平均との差ベクトルを作ってからノルムを取る
  • 誤解2:ユーグリッドノルム=要素を足すだけ

    • ⭕ 二乗→和→ルート。足すだけだとマイナスで相殺してしまう
  • 誤解3:ユーグリッド距離とユーグリッドノルムが別物

    • かなり近いです
    • 2点 (a) と (b) のユーグリッド距離は、差 (a-b) のユーグリッドノルム
    • DS検定ではここを混同させてくることがあります
  • 選択肢で注意:

    • 「ノルム=平均」
    • 「次元(要素数)で割る」
    • 「符号が残る」 みたいに書かれていたら、だいたい誤りです。

まとめ(試験直前用)

  • ユーグリッドノルム=ベクトルを「長さ」にして1つの数にする
  • やることは二乗→足す→ルート(マイナスを消して大きさを合体)
  • ユーグリッド距離=2点の差ベクトルのユーグリッドノルム
  • 単位が違う特徴量で距離を取るなら、標準化など前処理とセットで考える

【対応スキル項目(データサイエンス力シート)】

  • 数学基礎
  • 線形代数
  • ★ 行列同士、および行列とベクトルの計算方法を正しく理解し、複数の線形式を行列の積で表現できる

分類モデルの評価指標の比較とは?【DS検定リテラシー】

  • Source: pages\ds\evaluation-metrics-comparison.md
  • Permalink: /ds/evaluation-metrics-comparison/

まず結論

分類モデルの評価指標の比較とは、「何を減らしたいのか」という目的に応じて Accuracy・Precision・Recall・F1・ROC・PR を使い分けることです。
DS検定では「どの指標を選ぶべきか」を判断させる問題が多く出題されます。


直感的な説明

モデル評価は「テストの点数」ではありません。

  • 病気の見逃しを防ぎたい
  • 不良品を確実に検出したい
  • 無駄な精密検査を減らしたい

目的によって「良いモデル」の定義は変わります。

だからこそ、

正解率が高い=良いモデル

とは限りません。

評価指標は
何を優先するかを数値で表したものです。


定義・仕組み

まず前提となるのが 混同行列(Confusion Matrix) です。

  実際:陽性 実際:陰性
予測:陽性 TP(真陽性) FP(偽陽性)
予測:陰性 FN(偽陰性) TN(真陰性)
  • TP:正しく陽性と予測
  • FP:本当は陰性なのに陽性と予測
  • FN:本当は陽性なのに陰性と予測
  • TN:正しく陰性と予測

Accuracy(正解率)

\[Accuracy = \frac{TP + TN}{全体}\]

全体のうちどれだけ正解したか。

※ 不均衡データでは注意。


Precision(適合率)

\[Precision = \frac{TP}{TP + FP}\]

陽性と予測した人のうち、本当に陽性だった割合。
→ 偽陽性を減らしたいとき。


Recall(再現率・感度・TPR)

\[Recall = \frac{TP}{TP + FN}\]

実際に陽性の人をどれだけ拾えたか。
→ 偽陰性を減らしたいとき。

※ TPR(True Positive Rate)と同じ。


Specificity(特異度)

\[Specificity = \frac{TN}{TN + FP}\]

実際に陰性をどれだけ正しく除外できたか。


FPR(偽陽性率)

\[FPR = \frac{FP}{FP + TN}\]

実際に陰性なのに陽性と誤判定した割合。

※ FPR = 1 − Specificity


F1スコア

\[F1 = \frac{2 \times Precision \times Recall}{Precision + Recall}\]

PrecisionとRecallのバランスを見る指標。


ROC曲線

  • 縦軸:TPR(Recall)
  • 横軸:FPR

モデルの全体的な識別能力を見る。


PR曲線

  • 縦軸:Precision
  • 横軸:Recall

陽性クラスの性能を見る。
不均衡データで有効。


どんな場面で使う?

見逃しを防ぎたい

→ Recall

無駄な陽性を減らしたい

→ Precision

両方重要

→ F1

クラス均衡

→ ROC-AUC

不均衡データ(陽性が少ない)

→ PR曲線

DS検定では
「発生率2%」「陽性が非常に少ない」と書かれていたら
PR曲線を疑います。


よくある誤解・混同

医療=必ずRecall?

目的次第です。

  • 見逃し防止 → Recall
  • 誤検知削減 → Precision

Accuracyが高い=良い?

陽性1%の場合、
全員を陰性と予測してもAccuracy99%。

選択肢では
「正解率が最も重要」と書かれていたら注意。


ROCとPRの違いが曖昧

  • ROC → 全体性能
  • PR → 不均衡データに強い

DS検定ではこの切り分けを問われます。


まとめ(試験直前用)

  • 減らしたい誤りで決める
  • 偽陰性を減らす → Recall
  • 偽陽性を減らす → Precision
  • 不均衡データ → PR曲線
  • Accuracyは万能ではない

「何を守りたいのか?」を読む。


【対応スキル項目(データサイエンス力シート)】

  • 数理・統計基礎力
  • 統計的推論
  • ★ データの特性に応じて適切な評価指標を選択できる

エビデンスベースドとは?(Evidence-Basedの考え方)【DS検定】

  • Source: pages\ds\evidence-based.md
  • Permalink: /ds/evidence-based/

まず結論

エビデンスベースド(Evidence-Based)とは、勘や思い込みではなく、データや根拠に基づいて判断する考え方です。

DS検定では、 「データを根拠に意思決定する姿勢を理解しているか」 が問われることが多いです。


直感的な説明

例えば新しい商品を発売するかどうかを考えるとします。

次の2つの判断方法があります。

判断方法 例

勘や経験 「なんとなく売れそう」 データに基づく判断 「過去の売上データから需要が高い」

このとき

データや事実を根拠にして判断する考え方

がエビデンスベースドです。

医療、政策、ビジネスなど、さまざまな分野で

「データに基づいて判断する」

という考え方が重要になっています。


定義・仕組み

エビデンスベースドとは

客観的な根拠(エビデンス)に基づいて意思決定を行うこと

を意味します。


F検定とは?t検定との違いを整理【DS検定リテラシー】

  • Source: pages\ds\f-test.md
  • Permalink: /ds/f-test/

まず結論

F検定とは、主に「分散が等しいかどうか」を検定するための手法です。
DS検定では「平均の差の検定と混同しないか」を判断させる問題でよく使われます。


直感的な説明

2つのクラスのテスト結果を考えてみます。

  • クラスA:点数のばらつきが小さい
  • クラスB:点数のばらつきが大きい

このとき知りたいのは、

「平均が違うか?」
ではなく
「ばらつき(分散)が違うか?」

F検定は、平均ではなく“ばらつき”を見る検定です。

DS検定では
「何を比べているのか?」を見抜けるかが重要です。


定義・仕組み

F検定は、2つの母集団の分散が等しいかどうかを検定する方法です。

考え方はとてもシンプルで、

  • 2つの分散の比を計算する
  • その比が「偶然の範囲かどうか」をF分布で判断する

という仕組みです。

ここで大事なのは、

F検定は「分散」を対象にしている

という点です。

平均の差を直接検定するものではありません。


どんな場面で使う?

① 分散が等しいかを確認したいとき

t検定を行う前に、

  • 「等分散とみなしてよいか?」

を確認する目的で使われることがあります。

② 分散分析(ANOVA)

3群以上の平均差を検定する分散分析では、
内部的にF統計量を使います。

ただし、ここでも本質は

平均差を分散の比で評価している

という構造です。


よくある誤解・混同

① F検定=平均の差の検定?

これは誤りです。

平均の差を見るのは:

  • t検定(小標本)
  • z検定(大標本)

F検定は「分散」です。

DS検定では
「2群の平均差を検定する方法はどれか?」
と問われて、F検定を選ばせるひっかけがあります。


② F検定=金融のF検定?

これは全く別物です。

統計のF検定は
F分布を用いた分散の検定です。

名称だけで判断しないことが重要です。


③ サンプルサイズで使い分ける?

t検定とz検定はサンプルサイズで区別されますが、
F検定はその文脈ではありません。

「大標本だからF検定」という判断は誤りです。


まとめ(試験直前用)

  • F検定は「分散」を検定する
  • 平均の差を直接見るものではない
  • t検定・z検定との混同に注意
  • 「何を比べているか?」で判断する

問題文に
「分散」「ばらつき」「等分散」
とあればF検定を疑う。

「平均差」と書いてあればF検定ではない。


対応スキル項目(データサイエンス力シート)

  • 統計的推定
  • 仮説検定の理解
  • ★ 適切な統計的検定手法を選択できる

特徴量エンジニアリングとは?モデル性能を高めるデータ加工【DS検定】

  • Source: pages\ds\feature-engineering.md
  • Permalink: /ds/feature-engineering/

特徴量エンジニアリングとは?

まず結論

特徴量エンジニアリング(Feature Engineering)とは

機械学習モデルの性能を高めるために特徴量を作成・加工することです。

DS検定では

どのデータを使うか

どのように加工するか

によって モデルの精度が大きく変わる ことを理解しているかが問われます。


直感的な説明

例えば売上予測AIを作るとします。

元データ

日付

気温

売上

このまま使うこともできますが、

日付から

曜日

祝日

などを作ると

モデルがパターンを見つけやすくなります。

このように

データを

作る

加工する

変換する

ことを

特徴量エンジニアリング

と呼びます。


定義・仕組み

特徴量エンジニアリングとは

機械学習モデルの入力データ(特徴量)を作成・変換・選択する作業です。

主な目的

モデル性能の向上

学習の安定化

ノイズの削減

代表的な手法

① 新しい特徴量の作成

日付 → 曜日

生年月日 → 年齢

② スケーリング

数値の範囲を揃える

正規化

標準化

③ カテゴリ変数の変換

文字データを数値に変換

One-hot encoding

Label encoding

④ 特徴量選択

不要な特徴量を削除する


どんな場面で使う?

機械学習モデルの精度向上

同じアルゴリズムでも

特徴量によって性能が大きく変わります。

そのため実務では

アルゴリズムより

特徴量設計が重要

と言われることもあります。

データ前処理

特徴量エンジニアリングは

機械学習の

前処理(Preprocessing)

として行われます。


よくある誤解・混同

モデルを変えれば精度は上がる?

必ずしもそうではありません。

多くの場合

特徴量設計の方が性能に影響します。

データをそのまま使う

機械学習では

生データをそのまま使うことは少ないです。

多くの場合

特徴量エンジニアリングによって

加工

変換

選択

が行われます。

DS検定のポイント

DS検定では

「特徴量を加工してモデル性能を向上させる」

という説明があれば

特徴量エンジニアリング

と判断できます。


まとめ(試験直前用)

特徴量エンジニアリングとは

特徴量を作成・加工してモデル性能を高めることです。

ポイント

特徴量の作成

特徴量の変換

特徴量の選択

DS検定では

「モデル性能を高めるための特徴量加工」

と書かれていたら

特徴量エンジニアリング

と判断するのがポイントです。


【対応スキル項目(データサイエンス力シート)】

機械学習

データ前処理

★ 特徴量エンジニアリングの役割を理解している


特徴量エンジニアリングとは?モデル精度を左右する重要工程【DS検定】

  • Source: pages\ds\feature-engineering2.md
  • Permalink: /ds/feature-engineering2/

まず結論

特徴量エンジニアリングとは、機械学習モデルの性能を高めるためにデータの特徴量を作成・変換する工程です。

DS検定では、アルゴリズムよりもデータの作り方が精度に大きく影響するという理解が問われます。


直感的な説明

例えば、次のような顧客データがあるとします。

顧客 生年月日 購入回数

A 1990/01/01 12 B 1985/05/10 3

このままでは機械学習モデルが使いにくい場合があります。

そこで次のようなデータを作ります。

顧客 年齢 購入回数

A 34 12 B 39 3

このように

新しい特徴を作る

既存の特徴を変換する

といった処理を 特徴量エンジニアリング(Feature Engineering) と呼びます。


定義・仕組み

特徴量エンジニアリングとは、モデルが学習しやすい形に特徴量を加工する作業です。

特徴量とは、

機械学習モデルに入力するデータの項目です。

例えば

年齢

購入回数

クリック数

気温

などが特徴量になります。

しかし、生データのままだと

情報が不足している

学習しにくい

ことがあります。

そこで

新しい特徴量を作る

変換する

不要な特徴量を削除する

といった作業を行います。

代表的な例

年齢 = 現在日 − 生年月日

購入頻度 = 購入回数 ÷ 利用期間

このような加工によって

モデルがパターンを見つけやすくなります。


どんな場面で使う?

① 機械学習モデルの精度向上

多くの場合、

アルゴリズムよりも特徴量の作り方の方が精度に影響します。

そのため実務では

モデル調整

特徴量エンジニアリング

を繰り返して改善します。


② データ前処理の重要工程

特徴量エンジニアリングには次のような処理が含まれます。

エンコーディング

正規化

欠損値処理

特徴量生成

DS検定では

「データ前処理の重要工程」

として出題されることが多いです。


よくある誤解・混同

① データ収集との混同

❌ 特徴量エンジニアリング = データを集める作業

⭕ 特徴量エンジニアリング = 既存データを加工する作業


② モデルチューニングとの混同

❌ ハイパーパラメータ調整

⭕ 入力データを改善する作業

DS検定では

データ改善か、モデル調整か

を区別させる問題が出ることがあります。


③ 前処理との関係

前処理の中でも

モデル性能に直結する部分

が特徴量エンジニアリングです。


まとめ(試験直前用)

特徴量エンジニアリング = 特徴量を作成・変換する工程

モデル精度に大きく影響する

年齢計算

カテゴリ数値化

新しい特徴量作成

DS検定では

「モデル性能を高めるためのデータ加工」

と書かれていたら

特徴量エンジニアリングを疑うと判断しやすくなります。


【対応スキル項目(データサイエンス力シート)】

データ理解・前処理

データ加工

★ データの前処理(欠損値処理、正規化、カテゴリ変数の処理など)を理解している


特徴量重要度とは?不純度ベースとPermutationの違い【DS検定】

  • Source: pages\ds\feature-importance.md
  • Permalink: /ds/feature-importance/

まず結論

特徴量重要度とは、どの特徴量が予測にどれだけ貢献しているかを示す指標です。
DS検定では、「重要度の算出方法の違い」を理解し、選択肢を正しく切れるかが問われます。


直感的な説明

たとえば、売上予測モデルがあるとします。

  • 「価格」は予測にかなり効いている
  • 「曜日」は少し効いている
  • 「商品ID」はほぼ関係ない

この「どれがどれくらい効いているか」を数値にしたものが特徴量重要度です。

ただし、

重要度の出し方には2種類ある

ここがDS検定のポイントです。


定義・仕組み

代表的な方法は次の2つです。


① 不純度ベース重要度(Gini importance)

考え方:

分岐によってどれだけ不純度を下げたかの合計

ランダムフォレストでは、 各決定木の分岐で使われた特徴量が、 どれだけ不純度を減らしたかを合計します。

特徴:

  • 計算が速い
  • モデル内部で算出される
  • sklearnの feature_importances_ がこれ

② Permutation Importance(置換重要度)

考え方:

その特徴量をシャッフルして、精度がどれだけ下がるかを見る

手順:

  1. 学習済みモデルを用意
  2. ある特徴量だけをランダムに並び替える
  3. 精度の落ち幅を測る

特徴:

  • 予測への影響を直接評価できる
  • 計算コストが高い
  • 相関が強い特徴量があると重要度が分散する

どんな場面で使う?

不純度ベース

  • ランダムフォレストの内部理解
  • ざっくり重要度を見るとき
  • 実務の初期分析

Permutation Importance

  • 本当に予測に効いているかを確認したいとき
  • モデルの説明性を高めたいとき
  • ビジネス説明資料を作るとき

DS検定では、

「どの方法が予測への影響を直接測るか?」

という聞き方がよく出ます。

答えは Permutation Importance です。


よくある誤解・混同

❌ 重要度が高い = 因果関係がある

→ 誤りです。

予測に役立つだけで、原因とは限りません。


❌ 不純度ベース重要度は常に正確

→ 偏りが出ることがあります。

カテゴリ数が多い特徴量が有利になることがあります。


❌ Permutation Importanceは相関の影響を受けない

→ 受けます。

強い相関があると、片方を壊してももう片方が代替するため、 重要度が低く見えることがあります。


❌ 重要度が低い = その特徴量は不要

→ 必ずしもそうではありません。

相互作用や複雑な構造がある場合は、 単独では重要でなくても意味を持つことがあります。


まとめ(試験直前用)

  • 特徴量重要度 = 予測への貢献度
  • 不純度ベース → 分岐でどれだけ不純度を下げたか
  • Permutation → シャッフルして精度の落ち幅を見る
  • 因果を示す指標ではない
  • 「直接予測への影響を測る」のはPermutation

対応スキル項目(AI利活用スキルシート)

  • AIの理解
  • 機械学習の基本理解
  • ★ 機械学習モデルの基本的な仕組みを理解している

特徴量(Feature)とは?機械学習で使う入力データを理解する【DS検定】

  • Source: pages\ds\feature.md
  • Permalink: /ds/feature/

特徴量(Feature)とは?

まず結論

特徴量(Feature)とは、

機械学習モデルが学習や予測に利用する入力データのことです。

DS検定では、

どの情報をモデルに入力するか

特徴量の作り方が予測精度に影響する

という 「データ設計の重要性」を理解しているかが問われます。


直感的な説明

例えば住宅価格を予測するAIを作るとします。

モデルに入力するデータとして

面積

築年数

駅からの距離

部屋数

などを使います。

この モデルに入力する変数が

特徴量(Feature)です。

つまり

特徴量 = AIに与える情報

と言えます。

特徴量の選び方によって

予測精度

モデル性能

が大きく変わります。


定義・仕組み

特徴量は

機械学習モデルが入力として受け取る変数を指します。

機械学習では一般的に

特徴量 → モデル → 予測結果

という構造になります。

特徴量の例

住宅価格予測

特徴量

面積

築年数

最寄駅距離

部屋数

予測

住宅価格

特徴量エンジニアリング

特徴量はそのまま使うだけでなく

加工することもあります。

年齢 → 年齢グループ

日付 → 曜日

気温 → 平均気温

このような加工を

特徴量エンジニアリング

と呼びます。


どんな場面で使う?

機械学習モデル

機械学習では

回帰

分類

クラスタリング

などすべてのモデルで特徴量が必要です。

データ前処理

特徴量は

正規化

標準化

エンコーディング

などの前処理を行ってからモデルに入力されます。

データ分析

ビジネス分析でも

顧客属性

行動ログ

購買履歴

などが特徴量として扱われます。


よくある誤解・混同

特徴量 = データ全部?

❌ 必ずしもすべてのデータを使うわけではない

重要なのは

予測に役立つ情報です。

特徴量 = 目的変数?

DS検定ではこの混同がよく出ます。

用語 意味

特徴量 モデルに入力するデータ 目的変数 予測したい値

住宅価格予測

特徴量

→ 面積、築年数

目的変数

→ 住宅価格

DS検定のひっかけ

選択肢で

「モデルに入力する変数」

「学習に使う入力データ」

と書かれていた場合

特徴量(Feature)

と判断できることが重要です。


まとめ(試験直前用)

特徴量(Feature)とは

機械学習モデルに入力するデータです。

ポイント

モデルの入力データ

予測精度に影響する

加工すると特徴量エンジニアリング

DS検定では

「モデルの入力データ」

と書かれていたら

特徴量

と判断するのがポイントです。


【対応スキル項目(データサイエンス力シート)】

機械学習

データ前処理

★ 機械学習モデルにおける特徴量の役割を理解している


FFPとは?研究不正の3つの基本(Fabrication・Falsification・Plagiarism)【DS検定】

  • Source: pages\ds\ffp.md
  • Permalink: /ds/ffp/

まず結論

  • FFPとは、研究やデータ分析における3つの重大な不正行為(Fabrication・Falsification・Plagiarism)の総称です。
  • DS検定では、データサイエンスにおける倫理問題として「どの行為が研究不正に該当するか」を判断させる問題として出題されます。

直感的な説明

データ分析では
「データが正しいこと」 が最も重要です。

しかし、もし次のようなことが行われたらどうでしょう。

  • 実験データを作り上げる
  • 都合の悪いデータを削除する
  • 他人の研究を自分の成果として発表する

これでは

  • 分析結果が信用できない
  • 社会の意思決定を誤らせる
  • 科学そのものの信頼が失われる

このような重大な研究不正をまとめて呼ぶ言葉が
FFP(研究不正の三大行為) です。


定義・仕組み

FFPとは、次の3つの研究不正を指します。

Fabrication(捏造)

存在しないデータや結果を作り出すこと

  • 実験していないのに結果を作る
  • 測定していないデータを作る
  • 架空のアンケート結果を作る

つまり

データを「作る」不正

です。


Falsification(改ざん)

データや分析結果を意図的に変更すること

  • 不都合なデータを削除する
  • グラフを意図的に歪める
  • 分析条件を都合よく変更する

つまり

データを「変える」不正

です。


Plagiarism(盗用)

他人の研究成果・アイデアを無断で使用すること

  • 他人の論文を引用なしで使う
  • 他人のコードを自分の成果として発表する
  • 他人の研究アイデアを盗用する

つまり

成果を「盗む」不正

です。


この3つの頭文字をとって

FFP(研究不正の三大行為)

と呼ばれます。


どんな場面で使う?

FFPは主に次の分野で問題になります。

学術研究

大学や研究機関での

  • 論文研究
  • 実験研究
  • 医学研究

などで重要です。


データサイエンス

データ分析でも同じ問題が起きます。

  • AIの学習データを改ざんする
  • 都合の悪いデータを除外する
  • 分析結果を誇張する

このような行為は

データ倫理違反

になります。


ビジネス分析

企業のデータ活用でも問題になります。

  • 売上データの改ざん
  • 調査結果の誇張
  • 他社データの盗用

これらは

企業の信用を失う重大問題

になります。


DS検定では

データ倫理・研究倫理

のテーマとして出題されます。


よくある誤解・混同

誤解①

ミスもFFPになる

これは誤りです。

FFPは

意図的な不正行為

を指します。

例えば

  • 測定ミス
  • 計算ミス

などは通常FFPには含まれません。


誤解②

盗用だけが研究不正

これも誤りです。

研究不正には

  • 捏造
  • 改ざん
  • 盗用

の3つがあります。

DS検定では

この3つをセットで覚えているか

が問われます。


DS検定のひっかけ

選択肢で次のような行為が並びます。

  • データの捏造
  • データの改ざん
  • 他人の成果の盗用

この3つが揃っている場合、

FFP(研究不正)

を指していると判断できます。


まとめ(試験直前用)

  • FFP = 研究不正の三大行為
  • Fabrication(捏造)
  • Falsification(改ざん)
  • Plagiarism(盗用)
  • データ倫理・研究倫理の基本
  • DS検定では どの行為が研究不正かを判断させる問題として出る

【対応スキル項目(ビジネス力シート)】

  • スキルカテゴリ名:行動規範
  • サブカテゴリ名:データ倫理

★ データを取り扱う人間として相応しい倫理を身に付けている(データのねつ造、改ざん、盗用を行わないなど)AIは
人間の尊厳・基本的人権を守る形で使うべき

という原則です。

AIが人間の意思決定を完全に支配するのではなく、
最終判断は人間が行うという考え方が重要です。


② 教育・リテラシーの原則

AI社会では

  • AIの仕組み
  • AIの限界
  • AIのリスク

を理解することが重要です。

そのため
AIリテラシー教育の必要性が強調されています。


③ 公正競争の確保

AI技術が一部の企業や国だけに独占されると
社会の公平性が損なわれる可能性があります。

そのため
公平な競争環境を保つことが重要とされています。


④ 公平性・説明責任・透明性

AIの判断は

  • 差別がないか
  • なぜその判断になったか

を説明できる必要があります。

つまり

ブラックボックスAIの問題への対応です。


⑤ 安全性

AIシステムが

  • 誤作動
  • 暴走
  • 事故

を起こさないように
安全性を確保することが求められます。


⑥ プライバシー保護

AIは大量のデータを利用します。

そのため

  • 個人情報
  • 行動データ
  • 位置情報

などのプライバシー保護が重要になります。


⑦ セキュリティ確保

AIシステムはサイバー攻撃の対象になる可能性があります。

そのため

  • AIの不正利用
  • AIへの攻撃
  • データ改ざん

を防ぐためのセキュリティ対策が必要です。


参考(内閣府)

人間中心のAI社会原則
https://www8.cao.go.jp/cstp/aigensoku.pdf


どんな場面で使う?

この原則は次のようなAI利用で重要になります。

AIサービス

  • レコメンドAI
  • 採用AI
  • クレジット審査AI

AIが人の評価や判断を行う場合、
公平性や説明可能性が重要になります。


自動運転

AIが事故判断を行う場合、

  • 誰が責任を持つのか
  • 安全性は確保されているか

といった問題が生まれます。


医療AI

  • AI診断
  • 医療画像解析

AIが医療判断に関わる場合、
安全性と説明責任が重要になります。


DS検定では

AIの社会的ルールや倫理問題

として登場することが多いテーマです。


よくある誤解・混同

誤解①

AIを規制する法律

これは誤りです。

人間中心のAI社会原則は

法律ではなく「基本理念・ガイドライン」

です。


誤解②

日本だけの概念

実は似た考え方は世界中で議論されています。

  • OECD AI原則
  • EU AI規制
  • AI倫理ガイドライン

つまり

AI倫理の国際的な流れの一部

です。


DS検定のひっかけ

DS検定では次のような形で問われます。

AIの社会問題として

  • 公平性
  • 透明性
  • プライバシー
  • 安全性

が並んでいた場合、

それらをまとめた考え方として

人間中心のAI社会原則

が登場することがあります。


まとめ(試験直前用)

  • 人間中心のAI社会原則は AI社会の基本ルール
  • 日本政府(2019年)が提示
  • AIは 人間の尊厳・権利を守る形で使う
  • 公平性・透明性・安全性・プライバシーが重要
  • DS検定では AI倫理・AI社会問題の文脈で出題

【対応スキル項目(AI利活用スキルシート)】

  • AI利活用
  • AI倫理・社会

★ AIの利活用における社会的影響や倫理的課題を理解している
★ AIの活用に伴う法的・社会的リスクを理解している


ファイル転送プロトコルとは?主要プロトコルの違いを整理【DS検定】

  • Source: pages\ds\file-transfer-protocol.md
  • Permalink: /ds/file-transfer-protocol/

まず結論

ファイル転送プロトコルとは、ネットワーク上でファイルを送受信するための通信ルール(プロトコル)のことです。

DS検定では、「FTP・FTPS・SFTP・SCPなどの違い(暗号化の有無)」を判断できるかがよく問われます。

特に次の切り分けが重要です。

FTP:暗号化なし

FTPS:SSL/TLSで暗号化

SFTP:SSHで暗号化


直感的な説明

ファイル転送プロトコルは、「ネットワーク版の宅配ルール」のようなものです。

例えば会社のシステムでは次のような場面があります。

サーバーにデータファイルをアップロードする

ログファイルを別サーバーに送る

BIツールにデータを渡す

このとき、

どうやって通信するか

セキュリティはどうするか

を決めるルールが ファイル転送プロトコルです。

イメージとしてはこうです。

PC ──(ファイル転送プロトコル)──> サーバー

ただし問題は セキュリティです。

昔のプロトコルは通信が暗号化されないため、盗聴されるリスクがあります。

そのため現在は、暗号化されたプロトコルがよく使われます。


定義・仕組み

ファイル転送プロトコルとは、ネットワーク上でファイルを送受信するための通信プロトコルです。

代表的なものを整理すると次のようになります。

プロトコル 特徴 暗号化

FTP もっとも基本的なファイル転送 なし FTPS FTP + SSL/TLS あり SFTP SSHを使ったファイル転送 あり SCP SSHを使ったコピー あり HTTP Web通信(ファイル転送用途でも使われる) なし HTTPS HTTP + SSL/TLS あり

ポイントは 暗号化の方法の違いです。

FTP(File Transfer Protocol)

もっとも基本的なファイル転送プロトコルです。

通信は暗号化されない

パスワードも平文で送信される

そのため現在では、セキュリティ上あまり使われないことも多いです。

FTPS(FTP Secure)

FTPを拡張したものです。

SSL/TLSで通信を暗号化

FTPを安全にしたもの

SFTP(SSH File Transfer Protocol)

SSHを使ったファイル転送です。

SSH通信で暗号化

SCPと似ているが、途中再開ができる

SCP(Secure Copy Protocol)

SSHを利用したファイルコピーです。

通信は暗号化される

転送が途中で止まると途中再開できない


どんな場面で使う?

実務では次のような場面で使われます。

データ連携

例えば、

システムA → システムBへデータ送信

日次バッチでCSVを転送

基幹システム → (SFTP) → データ分析基盤

データ分析基盤

データサイエンスの実務では、

ログデータ

CSV

学習データ

などを SFTPでサーバーに送る といったケースが多いです。

Webサーバー運用

Webサイトでは、

HTML

画像

データ

をサーバーにアップロードするために、FTPやSFTPが使われます。


よくある誤解・混同

① FTPとHTTPの混同

HTTPは Web通信のためのプロトコルです。

ただし、HTMLや画像、JSONなどの転送に使われるため、ファイル転送と誤解されやすいです。

② FTPは安全だと思ってしまう

FTPは通信が暗号化されません。

選択肢で「FTPは暗号化通信を行う」と書かれていたら 誤りです。

③ FTPSとSFTPの混同

名前は似ていますが、仕組みが違います。

プロトコル 仕組み

FTPS FTP + SSL/TLS SFTP SSH

「どっちがSSH?」を聞かれたら SFTP です。


まとめ(試験直前用)

ファイル転送プロトコルは、ネットワークでファイルを送る通信ルール。

DS検定では次の判断が重要です。

FTP:暗号化なし

FTPS:SSL/TLSで暗号化

SFTP:SSHで暗号化

SCP:SSHを使うが途中再開できない

選択肢では、

「FTPは暗号化される」

「SFTPはFTPの拡張」

などの誤解を狙った文章に注意します。


【対応スキル項目(データエンジニアリング力シート)】

IT基盤

データ管理基盤

★ データの収集・蓄積・加工・提供に関する基本的なIT技術を理解している


フィルターとは?BIツールの基本操作をわかりやすく解説【DS検定】

  • Source: pages\ds\filter.md
  • Permalink: /ds/filter/

まず結論

フィルター(Filter)とは、条件を指定して表示するデータを絞り込む操作です。

DS検定では、
「スライス・ダイス・ドリルダウン」との違いを判断させる問題がよく出題されます。

ポイントは

「粒度を変えるのか」
「条件でデータを絞るのか」

という違いです。


直感的な説明

BIツールでは、大量のデータを扱います。

例えば次のような売上データがあるとします。

地域 商品 売上
2024 東京 A 100
2024 大阪 B 120
2023 東京 B 90

このとき

東京のデータだけ表示したい

場合に使うのが フィルターです。

つまり

「見たいデータだけを表示する」

操作です。


定義・仕組み

フィルターは

条件に一致するデータだけを表示する操作

です。

  • 地域 = 東京
  • 年 = 2024
  • 商品 = A

などの条件を設定すると
条件に合うデータだけ表示されます。

BIツールでは

  • レポートフィルター
  • ビジュアルフィルター
  • ページフィルター

など複数の種類があることもありますが、
DS検定では

「条件でデータを絞る操作」

と理解しておけば十分です。


どんな場面で使う?

① 特定の条件のデータだけ見たいとき

  • 東京の売上だけ分析
  • 2024年の売上だけ分析

② データ量が多すぎるとき

例えば

全国売上データ
→ 関東だけ表示

のように

分析対象を限定するために使います。


よくある誤解・混同

DS検定では、次の用語と混同させる問題がよく出ます。


フィルター vs スライス

操作 意味
フィルター 条件でデータを絞る
スライス 多次元データの断面を切る

実務では似ていますが、試験では

「条件で表示を絞る」
→ フィルター

と覚えると選択肢を切りやすいです。


フィルター vs ダイス

操作 意味
フィルター 条件で絞る
ダイス 複数条件でデータ範囲を切り出す

DS検定では

  • 範囲
  • 多次元
  • データキューブ

などの言葉が出てきたら
ダイスの可能性が高くなります。


フィルター vs ドリルダウン

操作 意味
フィルター 条件でデータを絞る
ドリルダウン データをより詳細に見る

  • 年 → 月 → 日
    ドリルダウン

まとめ(試験直前用)

BIツールの操作は次の4つで整理できます。

  • フィルター:条件でデータを絞る
  • スライス:1つの条件でデータを切る
  • ダイス:複数条件でデータ範囲を切る
  • ドリルダウン:集計 → 詳細

DS検定では

「粒度を変えているのか」
「条件で絞っているのか」

を判断すると、選択肢を正しく切ることができます。


【対応スキル項目(データサイエンス力シート)】

  • データ理解・可視化
  • データ可視化

★ データの特徴を理解し、適切な可視化手法を選択できる


5フォース分析とは?業界の競争環境を分析するフレームワーク【DS検定】

  • Source: pages\ds\five-forces-analysis.md
  • Permalink: /ds/five-forces-analysis/

まず結論

5フォース分析(Five Forces Analysis)とは、業界の競争環境を5つの要因から分析するフレームワークです。

DS検定では「企業ではなく業界の競争構造を分析する手法」として出題されることが多いです。

特に試験では

顧客分析

マーケティング分析

と混同させる問題が出るため、分析対象が「業界」であることを理解しておくことが重要です。


直感的な説明

例えば、ある新しいカフェを開業しようと考えたとします。

そのとき重要なのは

競合のカフェは多いか

新しい店が参入しやすいか

原材料の仕入れ価格は上がりやすいか

お客さんは別の店に簡単に乗り換えるか

コンビニコーヒーのような代替サービスがあるか

といった 業界の競争の強さです。

このような

業界の競争環境を体系的に分析する方法が

5フォース分析です。


定義・仕組み

5フォース分析は、経営学者の マイケル・ポーター が提唱した分析フレームワークです。

企業を取り巻く競争環境を次の 5つの要因(フォース) で分析します。

1 既存企業間の競争

同じ業界の企業同士の競争の激しさです。

多くの企業が存在する

価格競争が激しい


2 新規参入の脅威

新しい企業が市場に参入しやすいかどうかです。

開業コストが低い

規制が少ない


3 代替品の脅威

別の製品やサービスに置き換えられる可能性です。

映画館 → 動画配信サービス


4 買い手の交渉力

顧客が価格や条件を交渉できる力です。

顧客の選択肢が多い


5 売り手の交渉力

仕入れ先が価格などをコントロールできる力です。

特定の仕入れ先しかない


この5つを分析することで

業界の収益性や競争の強さを理解できます。


どんな場面で使う?

5フォース分析は主に次のような場面で使われます。

新規事業の検討

新しい市場に参入する前に

競争の激しさ

利益が出る可能性

を分析します。


事業戦略の立案

企業の競争戦略を考えるときに使われます。

価格戦略

差別化戦略


市場分析

業界全体の構造を理解するために使われます。


よくある誤解・混同

DS検定では次のような誤解を狙った問題がよく出ます。

顧客分析と混同

誤り例

顧客の5つの競争要因を分析する

これは誤りです。

5フォース分析は

顧客ではなく業界の競争構造を分析する手法です。


データ分析手法と混同

分析 内容

5フォース分析 業界の競争環境を分析 クラスタ分析 データのグループ分け アソシエーション分析 事象の関連性分析

DS検定では

業界の競争環境を分析する

と書かれていたら

5フォース分析と判断します。


まとめ(試験直前用)

5フォース分析は 業界の競争環境を分析するフレームワーク

競争構造を 5つの要因で分析する

新規参入・代替品・競争・買い手・売り手

顧客分析ではない点が試験の重要ポイント

DS検定では

「業界の競争環境を分析する」

と書かれていたら

5フォース分析と判断するのがポイントです。


【対応スキル項目(ビジネス力シート)】

ビジネス理解

ビジネスフレームワーク

★ ビジネス課題を整理するための基本的なフレームワークを理解している


外部キー(Foreign Key)とは?テーブルの関係を理解【DS検定】

  • Source: pages\ds\foreign-key.md
  • Permalink: /ds/foreign-key/

まず結論

外部キー(Foreign Key)とは、別のテーブルの主キーを参照することでテーブル同士の関係を表す列です。

DS検定では 「データの関係性」と「参照整合性」を理解できるかが問われます。


直感的な説明

データベースでは、多くのデータが互いに関係しています。

例えば、

顧客と注文のデータを考えてみます。

顧客テーブル

顧客ID 名前

1 田中 2 鈴木

注文テーブル

注文ID 顧客ID

100 1 101 2

ここで注文テーブルの「顧客ID」は

どの顧客の注文なのか

を示しています。

このように

別のテーブルのデータを参照する列

外部キー(Foreign Key)

と呼びます。


定義・仕組み

外部キーとは

他のテーブルの主キーを参照することで、テーブル間の関係を表す列

です。

基本構造は次のようになります。

顧客テーブル(主キー)

顧客ID(PK) 名前

注文テーブル(外部キー)

注文ID(PK) 顧客ID(FK)

ここで

顧客テーブルの 顧客ID → 主キー

注文テーブルの 顧客ID → 外部キー

という関係になります。

この仕組みにより

テーブル同士の関係(リレーション)

を管理できます。


参照整合性

外部キーには

参照整合性(Referential Integrity)

というルールがあります。

これは

外部キーの値は、参照先テーブルに存在する値でなければならない

というルールです。

例えば

顧客テーブル

顧客ID

1 2

このとき

注文テーブル

注文ID 顧客ID

200 99

のようなデータは

存在しない顧客の注文

になるため登録できません。


どんな場面で使う?

外部キーは

データ同士の関係を管理するために使います。

代表例

ECサイト

顧客テーブル

顧客ID

注文テーブル

注文ID 顧客ID

商品テーブル

商品ID

注文明細テーブル

注文ID 商品ID

このように

顧客

注文

商品

などのデータを

外部キーでつなぐことで

データの関係を表現します。

これは

リレーショナルデータベースの基本構造です。


よくある誤解・混同

外部キー = 主キーではない

DS検定ではここを混同させます。

用語 役割

主キー レコードを識別 外部キー 他テーブルを参照

つまり

主キー → 自分のテーブルを識別

外部キー → 他のテーブルとの関係

です。


外部キーは重複してよい

これも試験でよく出ます。

注文ID 顧客ID

100 1 101 1

1人の顧客が

複数回注文することは普通なので

外部キーは

重複しても問題ありません。


DS検定の典型的なひっかけ

選択肢で

❌ 「外部キーは重複できない」

と書かれていたら誤りです。

重複できないのは

主キーです。


まとめ(試験直前用)

外部キーは 他テーブルの主キーを参照する列

テーブル間の関係を表す

参照整合性によりデータの整合性を保つ

外部キーは 重複してよい

DS検定では

主キー = 識別

外部キー = 関係

と整理しておくと選択肢を切りやすくなります。


【対応スキル項目(データエンジニアリング力シート)】

データ管理

データベース

★ データベースの基本概念(テーブル、主キー、外部キーなど)を理解している ★ データの整合性や品質を保つ仕組みを理解している


FTPとSSHの違いとは?(ファイル転送と安全な接続)【DS検定】

  • Source: pages\ds\ftp-ssh.md
  • Permalink: /ds/ftp-ssh/

まず結論

  • FTPは「ファイルを転送するための仕組み」
  • SSHは「安全にサーバへ接続・操作するための仕組み」です。

DS検定では、「安全性」「暗号化の有無」「用途の違い」を切り分けられるかが問われます。


直感的な説明

会社のサーバにデータをアップロードする場面を考えてみます。

  • FTPは「荷物を送る宅配便」のようなもの
  • SSHは「鍵付きのドアから安全に中へ入る」イメージ

FTPは“データを送ること”が目的です。
SSHは“安全にログインして操作すること”が目的です。

DS検定では、
「安全な通信かどうか?」
「ログインして操作できるか?」
この視点で判断させてきます。


定義・仕組み

FTP(File Transfer Protocol)

  • ファイルをサーバとやり取りするための通信規約
  • 標準のFTPは暗号化されない
  • IDやパスワードも平文で送られる

そのため、セキュリティ面に弱点があります。


SSH(Secure Shell)

  • サーバに安全に接続するための通信規約
  • 通信内容は暗号化される
  • コマンド操作やファイル転送も可能(SCPなど)

SSHは「安全な遠隔操作」を目的としています。


どんな場面で使う?

FTPを使う場面

  • Webサイトのファイルをアップロードする
  • データをまとめて転送する

ただし、現在はセキュリティの観点から
FTPSやSFTPが使われることが多いです。


SSHを使う場面

  • サーバにログインして設定を変更する
  • クラウド上の環境を操作する
  • 安全にファイル転送する

DS検定では、
「クラウド環境に安全に接続する方法はどれか?」
といった問い方をされることがあります。


よくある誤解・混同

❌ FTPは安全な通信方式である

→ 標準FTPは暗号化されません。

❌ SSHはファイル転送専用のプロトコルである

→ SSHは「安全な接続」が目的。ファイル転送もできる、が正解。


DS検定の典型ひっかけ

  • 「暗号化される通信方式はどれか?」
  • 「安全にリモート接続する技術はどれか?」
  • 「ファイル転送プロトコルはどれか?」

ここで

  • FTP = 転送
  • SSH = 安全な接続

と切り分けられれば迷いません。


まとめ(試験直前用)

  • FTPはファイル転送用
  • 標準FTPは暗号化されない
  • SSHは安全な接続(暗号化あり)
  • DS検定では「安全性」と「用途」を切る

「安全に接続」と書いてあればSSH。
「ファイル転送」とだけ書いてあればFTPを疑う。


【対応スキル項目(データエンジニアリング力シート)】

  • ITシステム基盤
  • セキュリティ
  • ★ 情報セキュリティの基本的な考え方を理解している
  • ★ ネットワークおよび通信の基礎を理解している

ガントチャートとは?WBSとの違いとプロジェクト管理の基本【DS検定】

  • Source: pages\ds\gantt-chart.md
  • Permalink: /ds/gantt-chart/

まず結論

ガントチャートとは、タスクの開始日・終了日を時間軸で管理するスケジュール管理手法です。

DS検定では WBS(作業の分解)とガントチャート(時間管理)の違い を理解しているかが問われます。


直感的な説明

プロジェクトでは

何の作業があるか

いつ実施するのか

どの順番で進めるのか

を整理する必要があります。

例えばデータ分析プロジェクトの場合

データ収集

データ前処理

分析

レポート作成

という流れになります。

これを

「いつ開始して、いつ終わるか」

という 時間軸で整理した図 が

ガントチャートです。

タスク 期間 データ収集 ■■■ 前処理 ■■■■ 分析 ■■■ レポート作成 ■■

このように 作業の期間や順番を可視化することで、 プロジェクトの進行状況を把握しやすくなります。


定義・仕組み

ガントチャート(Gantt Chart)とは

タスクの開始日と終了日を時間軸で表現する プロジェクトのスケジュール管理手法

です。

主な構成は次の通りです。

① タスク

プロジェクトの作業内容

データ収集

前処理

分析


② 期間

それぞれのタスクが

いつ開始するか

いつ終了するか

を表します。


③ 依存関係

タスクには順序があります。

データ収集 → 前処理 → 分析

このように

前の作業が終わらないと次が始められない関係

を整理します。


どんな場面で使う?

① データ分析プロジェクト

データ分析では

データ取得

前処理

モデル作成

評価

など複数の工程があります。

ガントチャートを使うと

どの作業が進んでいるか

遅れている作業は何か

を確認できます。


② システム開発

システム開発では

要件定義

設計

実装

テスト

といった工程があります。

それぞれの期間を整理することで

プロジェクト全体の進行を管理できます。


③ プロジェクト進捗管理

ガントチャートは

Excel

プロジェクト管理ツール

などでよく作成されます。

DS検定でも

プロジェクト管理の基本ツールとして登場します。


よくある誤解・混同

① WBSとの違い

DS検定では

この違いがよく問われます。

手法 役割

WBS 作業を分解する ガントチャート 作業の時間を管理する

つまり

WBS → 何をやるか整理

ガントチャート → いつやるか整理

という関係です。


② 進捗管理ツールと混同

ガントチャートは

スケジュールの可視化です。

一方で

タスク管理ツール

チケット管理

などは

作業管理の仕組みです。

DS検定では

時間管理の図かどうか

が判断ポイントになります。


③ 単なるタスクリストではない

タスクリスト

・データ収集 ・前処理 ・分析

これは

順序や期間が分かりません。

ガントチャートは

期間

順序

を含む スケジュール管理図です。


まとめ(試験直前用)

ガントチャート=タスクの時間管理図

タスクの開始日・終了日を管理する

WBSは 作業分解

ガントチャートは スケジュール管理

DS検定では WBSとの違い がよく問われる


【対応スキル項目(ビジネス力シート)】

プロジェクト推進

リソースマネジメント

★ 指示に従ってスケジュールを守り、チームリーダーに頼まれた自


GDPRとは?個人データ保護の基本を整理【DS検定】

  • Source: pages\ds\gdpr.md
  • Permalink: /ds/gdpr/

まず結論

GDPR(EU一般データ保護規則)とは、EUにおける個人データの保護とプライバシーを強化するための法規制です。
DS検定では「個人データをどう扱うべきか」「データ主体の権利は何か」を判断させる問題として問われます。


直感的な説明

イメージとしては、

「あなたの個人情報は、あなた自身がコントロールできる」

という考え方を法的に明確にしたルールです。

たとえば、

  • 昔登録したサービスに自分の情報が残っている
  • 不要になったのに削除できない
  • 何に使われているか分からない

こうした状況を防ぐために、
企業よりも“個人の権利”を強く守る仕組みがGDPRです。

データサイエンスでは、データ活用が前提になりますが、
「使えるから使っていい」ではない、という考え方が重要になります。


定義・仕組み

GDPR(General Data Protection Regulation)は、
EU域内の個人データの取り扱いを定めた包括的な規則です。

特徴は次の通りです。

  • 個人データの定義が広い(氏名だけでなくIPアドレスなども対象)
  • データ主体(本人)に強い権利を認めている
  • EU域外の企業にも適用される場合がある

代表的なデータ主体の権利:

  • アクセス権(自分のデータを確認できる)
  • 訂正権
  • 削除権(忘れられる権利)
  • データポータビリティ権(他社へ移せる)

DS検定では特に
「忘れられる権利(削除権)」が問われやすいです。


どんな場面で使う?

使うべき場面

  • 海外ユーザーのデータを扱う企業
  • Webサービス運営
  • AIや機械学習で個人データを活用する場合
  • クラウド上で顧客データを管理する場合

誤解しやすい場面

  • 「日本企業だから関係ない」と思うケース
  • 「匿名化していれば何でもOK」と考えるケース

EU居住者のデータを扱えば、
日本企業でも対象になる可能性があります。


よくある誤解・混同

① 個人情報保護法との混同

日本の個人情報保護法と似ていますが、

  • GDPRの方が罰金が非常に高額
  • 本人の権利がより強い

という違いがあります。

DS検定では
「GDPR=日本の法律」と誤認させる選択肢が出ることがあります。


② 著作権との混同

「データの複製権」は著作権の話です。
GDPRはプライバシー保護の規制です。

選択肢で
「データの所有権を保証する法律」と書かれていたら誤りです。


③ セキュリティ対策そのものと混同

GDPRは「技術」ではありません。
ファイアウォールや暗号化の名称ではない点に注意。


まとめ(試験直前用)

  • GDPR=EUの個人データ保護規則
  • 本人の権利を強く守る法律
  • 「忘れられる権利」は頻出
  • EU域外企業にも適用される可能性あり
  • 所有権の話ではない(プライバシーの話)

DS検定では
「個人データの扱い方の原則」を問う問題として出題されます。


【対応スキル項目(AI利活用スキルシート)】

  • 社会・倫理・法規
  • データ利活用に関する法規制
  • ★ 個人情報保護法やGDPR等のデータ関連法規を理解している

ジニ不純度とエントロピーの違いとは?分岐基準を整理【DS検定】

  • Source: pages\ds\gini-vs-entropy.md
  • Permalink: /ds/gini-vs-entropy/

まず結論

ジニ不純度とエントロピーは、どちらも「クラスの混ざり具合」を測る指標です。
DS検定では、「どちらが分岐基準として使われるか」「何を比較しているのか」を判断させる問題が出ます。


直感的な説明

どちらも考えていることは同じです。

  • 1種類だけ → はっきりしている(良い)
  • 半々に混ざる → 迷う(悪い)

つまり、

混ざりが大きいほど値が大きくなる
きれいに分かれるほど値が小さくなる

この点は共通です。

違うのは「計算方法」です。


定義・仕組み

ジニ不純度(Gini impurity)

  • ランダムフォレストでよく使われる
  • 計算が比較的シンプル
  • 実務では標準設定で使われることが多い

考え方: 「ランダムに1つ選んだときに、間違う確率」


エントロピー(Entropy)

  • 情報理論ベース
  • 情報利得の計算に使われる
  • ID3アルゴリズムで有名

考え方: 「どれだけ不確実か(どれだけ迷うか)」


共通点

  • 混ざるほど大きくなる
  • 1クラスのみで最小
  • 分岐評価に使われる

違い(DS検定で問われやすい)

観点 ジニ不純度 エントロピー
ベース理論 確率的な誤分類 情報理論
主な用途 ランダムフォレスト 情報利得計算
計算コスト やや軽い やや重い

ただし、実務では結果はほぼ似ることが多いです。


どんな場面で使う?

① 決定木の分岐基準

どちらも「どの特徴量で分けるか」を決めるために使います。

DS検定では

  • 「分岐基準として用いられる指標はどれか?」
  • 「情報利得の計算に使われるのはどれか?」

といった形で問われます。


② 特徴量重要度の理解

ランダムフォレストでは、

不純度をどれだけ減らしたか

の合計が重要度になります。

このとき使われるのは通常ジニ不純度です。


よくある誤解・混同

❌ エントロピーのほうが常に優れている

→ そんなことはありません。

DS検定では「どちらも分岐基準」と整理できれば十分です。


❌ ジニ不純度と情報利得は同じ

→ 違います。

  • ジニ不純度 → 混ざり具合そのもの
  • 情報利得 → エントロピーの減少量

ここは頻出の混同ポイントです。


❌ 値が大きいほうを選ぶ

→ 分岐後は「小さいほう」が良い状態です。

選択肢では
「不純度が最大となる分岐を選ぶ」
と書かれていたら誤りです。


まとめ(試験直前用)

  • 両方とも「混ざり具合」を測る指標
  • 小さいほど良い状態
  • ジニ不純度は実務でよく使われる
  • エントロピーは情報利得とセット
  • どちらも分岐基準として使われる

対応スキル項目(AI利活用スキルシート)

  • AIの理解
  • 機械学習の基本理解
  • ★ 機械学習モデルの基本的な仕組みを理解している

ガバナンスとは?企業統治とリスク管理の関係【DS検定】

  • Source: pages\ds\governance.md
  • Permalink: /ds/governance/

まず結論

ガバナンスとは、企業や組織が適切に運営されるように監督・管理する仕組みのことです。

DS検定では、企業がリスクを管理し、不正を防ぎ、健全な経営を行うための管理体制として理解できているかが問われます。


直感的な説明

企業は多くの人・システム・データを使って活動しています。

もし管理が行われていなければ

不正行為

データ改ざん

法律違反

経営判断ミス

などの問題が発生する可能性があります。

そこで企業では

経営を監督する仕組み

不正を防ぐルール

リスクを管理する体制

を作ります。

このように

企業を健全に運営するための仕組み全体

を ガバナンス(Governance) と呼びます。

DS検定では、データやAIの活用においても

企業として責任ある管理体制を持つことが重要

と理解しているかが問われます。


定義・仕組み

ガバナンスとは

組織の活動が適切に行われるように監督・統制する仕組み

です。

一般的には次のような要素が含まれます。

経営監督

内部統制

リスク管理

コンプライアンス

つまり

ガバナンス ↓ 内部統制 ↓ リスクマネジメント ↓ インシデント管理

という階層構造になります。

DS検定では

企業の管理体制の全体像

として理解することが重要です。


どんな場面で使う?

ガバナンスは次のような場面で重要になります。

企業経営

経営監督

企業透明性

IT管理

ITガバナンス

セキュリティ管理

データ活用

データガバナンス

AIガバナンス

リスク管理

不正防止

コンプライアンス

DS検定では

データ活用も企業統治の枠組みの中で行われる

という理解が重要になります。


よくある誤解・混同

混同①:内部統制

内部統制は

業務の中で不正やミスを防ぐ仕組み

です。

一方

ガバナンスは

企業全体を監督する仕組み

です。

概念 役割

ガバナンス 組織全体の監督 内部統制 業務の管理


混同②:リスクマネジメント

リスクマネジメントは

リスクを特定・評価・対応する活動

です。

ガバナンスは

その活動を含む上位概念

になります。


混同③:ITの話だけ

ガバナンスは

経営

法律

IT

データ

すべてに関係します。

DS検定では

企業統治の概念

として理解することが重要です。


まとめ(試験直前用)

ガバナンス=企業を健全に運営するための監督・管理の仕組み

不正防止・リスク管理・コンプライアンスを含む

内部統制は 業務レベルの管理

リスクマネジメントは リスク管理活動

DS検定では 企業管理の全体構造を理解すること が重要


【対応スキル項目(ビジネス力シート)】

スキルカテゴリ:活動マネジメント

サブカテゴリ:ガバナンス

★ 組織の目的達成のために必要なガバナンスの仕組みを理解している


HadoopとSparkの違いとは?(分散処理基盤の比較)【DS検定リテラシー】

  • Source: pages\ds\hadoop-vs-spark.md
  • Permalink: /ds/hadoop-vs-spark/

まず結論

Hadoopは「ディスク中心の分散処理基盤」、Sparkは「メモリ中心の高速分散処理基盤」です。
DS検定では「どちらが高速か」「どの用途に向くか」を判断させる問題が出ます。


直感的な説明

イメージで考えましょう。

Hadoop(MapReduce)

毎回ノートに書いて、終わったら机にしまう。
次の処理でまた取り出して書く。

→ 安定しているが、やや遅い。


Spark

ホワイトボードに書いたまま次の計算を続ける。

→ 速い。特に何度も繰り返す処理に強い。

この「保存場所の違い」が最大のポイントです。


定義・仕組み

Hadoop(MapReduce)

  • データをHDFSに保存
  • 処理ごとにディスクに書き込み
  • 安価なサーバを多数使う設計

特徴:

  • 安定
  • 大規模バッチ処理向き
  • ディスクI/Oが多い

Spark

  • データをメモリに保持して処理
  • 反復計算が高速
  • 機械学習処理と相性が良い

特徴:

  • 高速
  • インメモリ処理
  • リアルタイム処理にも対応

どんな場面で使う?

Hadoopが向く場面

  • 夜間の大量ログ一括集計
  • バッチ処理
  • コストを抑えた大規模基盤

Sparkが向く場面

  • 機械学習の学習処理
  • 反復計算
  • ストリーミング処理
  • 低レイテンシ処理

DS検定では
「高速」「インメモリ」「機械学習」と書いてあればSpark寄りです。


よくある誤解・混同

① Hadoop=古いから使われない?

現在も利用されています。
ただし、新規基盤ではSparkが選ばれることが多いです。


② HadoopとSparkは競合?

実際には組み合わせることもあります。
HDFS上でSparkを動かすことも可能です。


③ MapReduceとSparkを同じ処理方式と思う

MapReduceはディスク中心。
Sparkはメモリ中心。

DS検定では
「高速な分散処理基盤はどれか?」と聞かれたらSparkを選びます。


まとめ(試験直前用)

  • Hadoop=ディスク中心の分散処理基盤
  • Spark=メモリ中心の高速分散処理基盤
  • 反復計算や機械学習はSpark向き
  • バッチ処理中心ならHadoop
  • 「インメモリ」「高速」→ Spark

【対応スキル項目(データエンジニアリング力シート)】

  • データ基盤
  • 分散処理基盤
  • ★ 分散処理基盤の基本的な仕組みを理解している
  • ★ 分散処理基盤の代表的な技術の特徴を理解している

Hadoopとは?(ビッグデータ分散処理基盤)【DS検定リテラシー】

  • Source: pages\ds\hadoop.md
  • Permalink: /ds/hadoop/

まず結論

Hadoopとは、大量データを「分散して保存し、分散して処理する」ための基盤です。
DS検定では「ビッグデータをどうやって扱うのか」を判断させる問題で問われます。


直感的な説明

1台のサーバで100TBのデータを処理しようとすると、
時間もかかるし、壊れたら終わりです。

Hadoopは発想が違います。

  • データを複数台に分ける
  • 処理も複数台で同時に行う

つまり、

みんなで分けて保存し、みんなで分けて計算する

これがHadoopの考え方です。

DS検定では
「なぜビッグデータを扱えるのか?」という文脈で出題されます。


定義・仕組み

Hadoopは、ビッグデータを扱うための分散処理フレームワークです。

主な構成は次の2つです。

① HDFS

データを分散して保存する仕組み

② MapReduce

データを分散して処理する仕組み

流れとしては、

  1. データをHDFSに保存
  2. 各サーバで同時に処理(Map)
  3. 結果をまとめる(Reduce)

という形になります。

重要なのは、

  • 安価なサーバをたくさん並べる設計
  • レプリケーションで耐障害性を確保

ここがDS検定で狙われやすいポイントです。


どんな場面で使う?

使う場面

  • Webログの分析
  • ECサイトの購買履歴分析
  • IoTデータの蓄積
  • SNSデータ分析

つまり「データがとにかく大量」な場合です。


使わない場面

  • 少量データの高速検索
  • トランザクション処理
  • リアルタイム性が最優先なシステム

Hadoopは万能ではありません。

「大量・分散」がキーワードです。


よくある誤解・混同

① Hadoop=HDFS ではない

HDFSは保存の仕組み。
Hadoopは保存+処理の全体基盤。

DS検定ではこの違いを混同させてきます。


② データレイクとの混同

データレイクは概念。
Hadoopは具体的な技術基盤。

「レイク」という言葉が出たら要注意です。


③ RDBとの混同

RDBは構造化データの管理が得意。
Hadoopは非構造データも含む大量データ処理が得意。

「ACID」「トランザクション」が出たらRDBです。


まとめ(試験直前用)

  • Hadoopは分散保存+分散処理の基盤
  • HDFSは保存、MapReduceは処理
  • ビッグデータ対応が目的
  • 安価なサーバを多数並べる設計
  • 「大量・分散」がキーワード

【対応スキル項目(データエンジニアリング力シート)】

  • データ基盤
  • 分散処理基盤
  • ★ 分散処理基盤の基本的な仕組みを理解している
  • ★ ビッグデータ処理の基本的な考え方を理解している

ハルシネーションとは?生成AIの限界と正しい向き合い方【DS検定】

  • Source: pages\ds\hallucination.md
  • Permalink: /ds/hallucination/

まず結論

ハルシネーションとは、生成AIが事実ではない内容を、あたかも正しいかのように出力してしまう現象です。
DS検定では「AIの限界を理解し、出力を鵜呑みにしない姿勢があるか」を問われます。


直感的な説明

とても自信ありげに話している人が、実は間違ったことを言っている――
そんな場面を想像してください。

生成AIも同じです。

もっともらしい文章で回答してくれますが、
間違っていても“それらしく”答えてしまうことがあります。

例えば:

  • 存在しない論文を引用する
  • 架空の統計データを出す
  • 実在しない法律条文を説明する

見た目では正誤が判断できない。
これがハルシネーションの怖さです。


定義・仕組み

ハルシネーション(Hallucination)は、

大規模言語モデル(LLM)が、事実と異なる内容を自然な文章として生成してしまう現象

を指します。

なぜ起きるのか?

生成AIは「正解を知っている」のではありません。

  • 過去の大量データから
  • 「次に来そうな単語」を確率的に予測している

つまり、

意味理解ではなく、確率的な文章生成をしているのです。

そのため:

  • 学習データにない内容
  • あいまいな質問
  • 情報が不足している状況

では、もっともらしい推測をしてしまいます。

DS検定では、 「AIは誤りを根本的に避けられない」という前提を理解しているかが重要です。


どんな場面で使う?

重要になる場面

  • 生成AIを業務で利用する場合
  • レポート作成をAIに補助させる場合
  • AI出力をそのまま顧客に提示する場合

特にビジネスでは、

「AIが言ったから正しい」は通用しない

という判断が求められます。

適切な対応例

  • 検索エンジンで裏取りする
  • 他のLLMの出力と比較する
  • 正確な追加情報を入力して再生成する
  • 人間が最終確認する

DS検定では
「ハルシネーションが起きたとき、どう対応するか」も問われます。


よくある誤解・混同

❌ AIは大量データで学習しているから間違えない

→ ⭕ 学習していても、事実保証はできない


❌ ハルシネーションはバグである

→ ⭕ 構造的に避けられない特性である


❌ 精度が高いモデルなら起きない

→ ⭕ 高性能モデルでも発生する


DS検定では、

  • 「AIは誤りを出力しない」
  • 「AIは常に正確である」

といった選択肢は、ほぼ誤りです。

選択肢では
「出力を確認せず利用してよい」と書かれていたら注意です。


まとめ(試験直前用)

  • ハルシネーション=AIが事実と異なる内容を生成する現象
  • 原因は確率的文章生成の仕組み
  • 根本的にゼロにはできない
  • 対策は「検証・比較・人間確認」
  • DS検定では“AIを盲信しない判断”が問われる

【対応スキル項目(AI利活用スキルシート)】

  • アプローチ設計
  • 生成AI活用
  • ★ 大規模言語モデルにおいては、事実と異なる内容がさも正しいかのように生成されることがあること(Hallucination)、これらが根本的に避けることができないことを踏まえ、利用に際しては出力を鵜呑みにしない等の注意が必要であることを知っている
  • ★ Hallucinationが起きていることに気づくための適切なアクションをとることができる(検索等によるリサーチ結果との比較や、他LLMの出力結果との比較、正確な追加情報を入力データに付与することによる出力結果の変化比較など)

ハッシュ関数とは?(コリジョン・ソルトとの違い)【DS検定】

  • Source: pages\ds\hash-function.md
  • Permalink: /ds/hash-function/

まず結論

ハッシュ関数とは、任意のデータを一定の長さの値(ハッシュ値)に変換する不可逆な関数です。
DS検定では「復元できるのか?」「暗号と何が違うのか?」を判断させる問題がよく出ます。


直感的な説明

ハッシュ関数は「データの指紋」のようなものです。

  • 入力:文章、ファイル、パスワードなど
  • 出力:決まった長さの文字列(ハッシュ値)

同じデータなら同じハッシュ値になります。
でも、ハッシュ値から元のデータは戻せません。

実務では、

  • パスワード保存
  • ファイル改ざん検知
  • データの同一性確認

などで使われます。


定義・仕組み

ハッシュ関数は次の特徴を持ちます。

  • 入力の長さに関係なく、出力は固定長
  • 同じ入力 → 同じハッシュ値
  • 元データは復元できない(不可逆)
  • 異なる入力でも同じ値になる可能性がある

最後の性質が重要です。

コリジョン(衝突)

異なるデータから同じハッシュ値が得られることをコリジョンといいます。

DS検定では
「コリジョンとは何か?」と定義を問われることがあります。


ソルト(salt)

パスワード保存時に、
同じパスワードでも異なるハッシュになるように追加するランダム値です。

目的は:

  • レインボーテーブル攻撃の防止
  • 同一パスワードの使い回し検知を防ぐこと

DS検定では
「ソルトは暗号化のために使われる」という誤った選択肢が出やすいです。


どんな場面で使う?

使う場面

  • パスワードの安全な保存
  • ファイル改ざんチェック
  • データの一意識別

誤解しやすい場面

  • データを復号したいとき
    → それは暗号化技術

ハッシュ関数は「復元」が目的ではありません。
整合性確認が目的です。


よくある誤解・混同

① ハッシュと暗号の混同

❌ ハッシュは元データを復元するための技術
⭕ ハッシュは復元できない

暗号は「復号できる」ことが前提です。
ここが最大の違いです。


② ソルトとストレッチングの混同

  • ソルト → 横に混ぜる(ランダム値を追加)
  • ストレッチング → 縦に繰り返す(計算を重くする)

DS検定では
「ソルトは計算を重くする技術」と書かれていたら誤りです。


③ MD5は安全という誤解

MD5は現在では安全とは言えません。
コリジョンが作れてしまうことが知られています。


まとめ(試験直前用)

  • ハッシュ関数は不可逆
  • コリジョン=異なる入力から同じ出力
  • ソルト=同じパスワードでも別のハッシュにする仕組み
  • 暗号は復号できるが、ハッシュはできない
  • 「復元」と書いてあれば基本的に誤り

【対応スキル項目(AI利活用スキルシート)】

  • AIを支えるデータと技術の理解
  • セキュリティ・リスク理解
    ★ AI・データ活用に伴うセキュリティリスクを理解している
    ★ データの適切な管理・保護の重要性を理解している

ハッシュと暗号化の違いとは?(復号できるかが分かれ目)【DS検定】

  • Source: pages\ds\hash-vs-encryption.md
  • Permalink: /ds/hash-vs-encryption/

まず結論

ハッシュは復元できない不可逆な変換
暗号化は鍵を使えば元に戻せる可逆な変換です。

DS検定では「復号できるかどうか」を判断させる問題がよく出ます。


直感的な説明

イメージで整理します。

  • ハッシュ → データの「指紋」
  • 暗号化 → データを「金庫に入れる」

ハッシュ

  • 同じ入力 → 同じ出力
  • 元に戻せない
  • 整合性確認が目的

暗号化

  • 鍵を使って読めなくする
  • 正しい鍵があれば元に戻せる
  • 秘密を守るのが目的

ここが決定的な違いです。


定義・仕組み

ハッシュ関数

  • 任意の長さの入力 → 固定長の出力
  • 不可逆
  • コリジョンは理論上あり得る

用途:

  • パスワード保存
  • 改ざん検知
  • データ同一性確認

暗号化

  • 平文 → 暗号文に変換
  • 鍵があれば復号可能
  • 可逆

用途:

  • 通信の秘匿
  • 個人情報の保護
  • データ送信時の安全確保

どんな場面で使う?

ハッシュを使う場面

  • パスワードを保存するとき
  • ファイルが改ざんされていないか確認するとき

👉 「復元しない」ことが前提


暗号化を使う場面

  • データを送信するとき
  • データベースに機密情報を保存するとき

👉 「後で元に戻す」ことが前提


よくある誤解・混同

① ハッシュは暗号化の一種

❌ ハッシュは暗号化
⭕ 目的がまったく違う

ハッシュは復号できません。


② 暗号化は安全だからハッシュより優れている

用途が違います。

  • パスワード保存に暗号化を使うのは危険
    → 鍵が漏れたら全復元される

③ 不可逆なら絶対安全

不可逆でも、

  • レインボーテーブル攻撃
  • 総当たり攻撃

があるため、ソルトやストレッチングが必要です。


まとめ(試験直前用)

  • ハッシュ=不可逆
  • 暗号化=鍵で復号できる
  • パスワード保存はハッシュ
  • 秘密通信は暗号化
  • 「復号できる」と書いてあれば暗号

【対応スキル項目(AI利活用スキルシート)】

  • AIを支えるデータと技術の理解
  • セキュリティ・リスク理解
    ★ AI・データ活用に伴うセキュリティリスクを理解している
    ★ データの適切な管理・保護の重要性を理解している

HDFS(Hadoop分散ファイルシステム)とは?大規模データを保存する仕組み【DS検定】

  • Source: pages\ds\hdfs2.md
  • Permalink: /ds/hdfs/

まず結論

HDFS(Hadoop Distributed File System)とは、大量のデータを複数のコンピュータに分散して保存するためのファイルシステムです。

DS検定では 「大量データを分散保存する仕組み」 として Hadoop や Spark の文脈で理解できているかが問われます。


直感的な説明

普通のパソコンでは、データは 1台のコンピュータのディスク に保存されます。

しかし、ビッグデータになると次の問題が起きます。

1台のディスクに入りきらない

読み込みが遅い

故障するとデータが失われる

そこで使われるのが HDFS です。

イメージとしては

大きすぎるデータを 複数のコンピュータに分けて保存する巨大な倉庫

です。

例えば100TBのデータでも

サーバーA

サーバーB

サーバーC

のように 分割して保存することで扱えるようになります。


定義・仕組み

HDFSは Hadoopで使われる分散ファイルシステムです。

特徴は次の3つです。

① データを分割して保存する

大きなファイルは ブロック単位(例:128MB) に分割されます。

巨大ファイル ↓ ブロック1 ブロック2 ブロック3

それぞれが 別のサーバーに保存されます。


② データを複製して保存する

HDFSでは通常

同じデータを複数のサーバーにコピーして保存します。

これを レプリケーションといいます。

ブロック1 → サーバーA → サーバーB → サーバーC

そのため

サーバーが壊れてもデータを失わない

安定したデータ処理が可能

になります。


③ 分散処理と相性が良い

HDFSは 分散処理(MapReduceやSpark) と組み合わせて使われます。

特徴は

データを集めるのではなく、処理をデータのある場所へ送る

という考え方です。

これを

データローカリティ(Data Locality)

と呼びます。

その結果

ネットワーク転送が減る

大規模データでも高速処理できる

というメリットがあります。


どんな場面で使う?

HDFSは次のような ビッグデータ環境で使われます。

大規模ログ分析

Webアクセスログ

IoTデータ

センサーデータ

数TB〜PBのデータでも保存できます。


データレイク

企業では

構造化データ

非構造化データ

半構造化データ

をまとめて保存する

データレイク

としてHDFSが使われることがあります。


AI・機械学習のデータ基盤

AIの学習では

画像

テキスト

センサーデータ

などの 巨大データを扱います。

その保存基盤として

Hadoop

Spark

と一緒にHDFSが利用されます。


よくある誤解・混同

RDBMSと同じだと思う

これは誤りです。

項目 HDFS RDBMS

用途 大規模データ保存 データ管理 構造 ファイル テーブル 処理 分散処理 SQL

DS検定では

「HDFSはデータベースではない」

という点が重要です。


小さいファイル処理に向いていると思う

これも誤解です。

HDFSは

大きなファイル処理に最適化されています。

そのため

小さいファイルが大量

低レイテンシ処理

には向いていません。


Sparkだけでデータ保存できると思う

Sparkは

データ処理エンジン

であり、

データ保存はHDFSなどのストレージが担当

します。

DS検定では

この役割の違いを問われることがあります。


まとめ(試験直前用)

HDFSは Hadoopの分散ファイルシステム

大量データを 複数サーバーに分割保存

レプリケーションで耐障害性を確保

ビッグデータ保存基盤として使われる

DS検定では RDBMSとの違いがよく問われる


【対応スキル項目(データエンジニアリング力シート)】

スキルカテゴリ名 データ蓄積

サブカテゴリ名 分散技術

★ Hadoop・Sparkの分散技術の基本的な仕組みと構成を理解している


階層クラスター分析とは?手法の違いまで整理【DS検定】

  • Source: pages\ds\hierarchical-clustering.md
  • Permalink: /ds/hierarchical-clustering/

まず結論

  • 階層クラスター分析とは、データを段階的にまとめたり分割したりして「似ているグループ」を作る手法です。
  • DS検定では「どの基準でクラスタを結合するか」を判断できるかが問われます。

直感的な説明

たとえば、顧客を「なんとなく似ている人同士」でまとめたいとします。

最初は全員バラバラですが、

  • まず一番似ている2人をまとめる
  • 次に、そのグループと別の人をまとめる
  • さらに大きなグループにしていく

このように、少しずつグループを作っていくのが階層クラスター分析です。

ポイントは
「どの2つをくっつけるか?」を決めるルールが複数あることです。

DS検定では、
👉 手法の名前と“結合基準”を正しく対応させられるか
がよく問われます。


定義・仕組み

階層クラスター分析には大きく2種類あります。

① 凝集型(ボトムアップ型)

  • 小さなクラスタから始めて
  • だんだん大きくしていく方法

DS検定では基本的にこちらが問われます。


結合基準(リンケージ)の違い

クラスタ同士を結合する基準には代表的に次があります。

  • 最短距離法(単連結法)
    → 2つのクラスタの中で「最も近い2点」の距離で判断

  • 最長距離法(完全連結法)
    → 「最も遠い2点」の距離で判断

  • 重心法
    → クラスタの中心同士の距離で判断

  • ウォード法
    → クラスタを結合したときに増える「ばらつき(分散)」を最小にする


ウォード法の本質

ウォード法は

「クラスタ内のばらつきの増加を最小にする」

方法です。

言い換えると、

  • クラスタ内をできるだけ均質に保つ
  • ばらつきが急に大きくならないようにする

という考え方です。

DS検定では
「変動の増加を最小にする」
という表現が出たらウォード法です。


どんな場面で使う?

使う場面

  • 顧客セグメントの可視化
  • 商品分類
  • アンケートの傾向分析
  • 遺伝子データの分類

特に
「何個に分けるか決めていない」場合に有効です。

デンドログラム(樹形図)で どこで切るかを後から決められるのが特徴です。


注意すべき場面

  • データ数が非常に多い場合(計算コストが高い)
  • 事前にクラスタ数を決めたい場合(→ k-meansの方が適切)

よくある誤解・混同

① k-meansとの違い

DS検定ではよく混同させてきます。

階層クラスター分析 k-means
段階的に結合 最初にクラスタ数を決める
デンドログラムあり なし
結合基準が複数 平均距離ベース

👉 「クラスタ数を事前に決める」と書いてあったら
階層クラスターではありません。


② 各リンケージの混同

DS検定での典型的なひっかけ:

  • 「最も近い距離で結合」→ 最短距離法
  • 「最も遠い距離で結合」→ 最長距離法
  • 「重心間距離」→ 重心法
  • 「変動(分散)の増加を最小」→ ウォード法

この対応を正確に切り分けられることが重要です。


まとめ(試験直前用)

  • 階層クラスター分析は段階的にグループを作る手法
  • 凝集型が基本(小→大)
  • ウォード法=ばらつきの増加を最小
  • クラスタ数を最初に決めるのは k-means
  • 「結合基準」と「手法名」を対応させて覚える

対応スキル項目

【対応スキル項目(データサイエンス力シート)】

  • データ分析
  • クラスタリング
  • ★ クラスタリング手法の特徴を理解している

階層クラスター分析における距離の測定方法の比較【DS検定】

  • Source: pages\ds\hierarchical-distance-metrics.md
  • Permalink: /ds/hierarchical-distance-metrics/

まず結論

  • 階層クラスター分析では「何をどの基準で近いと判断するか(距離の定義)」によって結果が変わる。
  • DS検定では「距離の種類」と「クラスタ間距離の計算方法」を区別できるかが問われる。

👉 試験では
「ユークリッド距離か?」「マンハッタン距離か?」
「最短距離法か?ウォード法か?」
この“レイヤーの違い”を混同させてきます。


直感的な説明

階層クラスター分析は
「似ているものから順にくっつけていく」方法です。

でもここで問題になります。

何をもって“似ている”とするのか?

たとえば:

  • 直線距離で近い → ユークリッド距離
  • 縦横の合計距離で近い → マンハッタン距離
  • ばらつきが小さくなるようにまとめる → ウォード法

つまり、
「距離の測り方」=クラスターの形を決めるルール

これが違えば、
最終的なグループ分けも変わります。


定義・仕組み

階層クラスター分析での距離は、大きく2段階あります。


① データ同士の距離(点と点)

■ ユークリッド距離

もっとも基本的な距離。

\[d = \sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2}\]

意味:
「直線距離」

特徴:

  • 外れ値の影響を受けやすい
  • 球状のクラスタを作りやすい

■ マンハッタン距離

\[d = |x_1 - x_2| + |y_1 - y_2|\]

意味: 「縦横の移動距離の合計」

特徴:

  • 外れ値の影響が比較的小さい
  • グリッド状のデータに強い

■ マハラノビス距離

\[d = \sqrt{(x - \mu)^T S^{-1} (x - \mu)}\]

意味:

  • 分散や相関を考慮した距離

特徴:

  • 変数間の相関を補正できる
  • 上級的(DS検定では意味理解レベル)

② クラスター間の距離(グループとグループ)

ここが混同ポイントです。

■ 最短距離法(単連結法)

クラスタ間の最も近い点同士の距離

→ 細長いクラスタになりやすい


■ 最長距離法(完全連結法)

クラスタ間の最も遠い点同士の距離

→ コンパクトなクラスタ


■ 群平均法

全ての点の平均距離

→ バランス型


■ ウォード法

クラスタ内の分散の増加が最小になるように結合

→ もっともよく使われる
→ 球状のきれいなクラスタ

DS検定では
「ウォード法=分散最小化」
ここは重要です。


どんな場面で使う?

✔ 使う場面

  • 顧客セグメント分析
  • 商品の類似分類
  • アンケートのグルーピング

✔ 判断ポイント

  • データの分布は球状か?
  • 外れ値は多いか?
  • 相関を考慮すべきか?

実務と試験のズレ

実務:

  • スケーリング(標準化)が必須
  • 複数パターンを試して比較

試験:

  • 「どの距離の特徴か」を選ばせる問題が中心

計算より「意味理解」が重要。


よくある誤解・混同

❌ 距離の種類と連結方法を混同

  • ユークリッド距離=ウォード法
    → 別物です。

距離の種類:点と点
連結方法:クラスタとクラスタ

レイヤーが違います。


❌ ウォード法は距離の種類だと思う

→ 違います。
ウォード法は「結合基準」。


❌ マハラノビス距離=主成分分析

→ 違います。
相関を考慮する距離。


DS検定では
「〜距離は分散を最小化する」
と書かれていたら誤りです。

分散最小化はウォード法。


まとめ(試験直前用)

  • 距離は「点同士」か「クラスタ同士」かをまず確認
  • ユークリッド=直線距離
  • マンハッタン=縦横合計
  • ウォード法=分散増加を最小化
  • 距離と連結法を混同した選択肢は切る

【対応スキル項目(データサイエンス力シート)】

  • スキルカテゴリ:数理・統計基礎
  • サブカテゴリ:多変量解析
  • ★ クラスタリング手法の基本的な考え方を理解している
  • ★ 距離尺度の違いが分析結果に与える影響を理解している

Hot・Cool・Archiveの違いとは?(クラウドストレージ階層の整理)【DS検定】

  • Source: pages\ds\hot-cool-archive.md
  • Permalink: /ds/hot-cool-archive/

まず結論

Hot・Cool・Archiveとは「データのアクセス頻度に応じてコストと性能を変えるクラウドストレージの階層」のことです。
DS検定では「どの用途にどの階層を選ぶか」を判断できるかが問われます。


直感的な説明

イメージは「倉庫の置き場所」です。

  • Hot:手元の棚(すぐ取り出す)
  • Cool:倉庫の奥(たまに使う)
  • Archive:外部保管庫(ほぼ使わない)

すぐ使うデータをわざわざ遠くに置くと業務が止まります。
逆に、10年保存するログを手元に置いておくのはコストの無駄です。

クラウドでは「アクセス頻度」に応じて料金体系が変わります。
DS検定ではこの“考え方”を理解しているかが重要です。


定義・仕組み

クラウドストレージは、アクセス頻度によって階層を分けています。

Hot

  • 頻繁にアクセスするデータ
  • 保存コストは高め
  • 取り出しは即時

Cool(または Coldline / Nearline)

  • たまにアクセスするデータ
  • 保存コストはやや安い
  • 取り出しは可能だが、料金が発生することがある

Archive(Glacierなど)

  • ほとんどアクセスしない長期保存データ
  • 保存コストは最安
  • 取り出しに時間がかかる/追加コストがある
  • 最低保存期間が設定されていることが多い

重要なのは、 「保存コスト」と「取り出しコスト・時間」はトレードオフになっているという点です。


どんな場面で使う?

Hotを使う場面

  • Webアプリの画像
  • 分析中のデータ
  • 日次レポート用データ

Coolを使う場面

  • 月次レポート履歴
  • 半年〜1年前の分析データ

Archiveを使う場面

  • 監査ログ
  • 法令対応の長期保存データ
  • 過去バックアップ

DS検定では
「頻繁にアクセスしない」「低コストで保存」
と書かれていたら、Archiveを疑います。


よくある誤解・混同

❌ 誤解1:Archiveは遅いから使えない

→ 目的が「保存」なら問題ありません。

❌ 誤解2:どのクラウドでも名前が同じ

→ AWS・GCP・Azureで名称が異なります。

クラウド アーカイブ層
AWS S3 Glacier
GCP Archive
Azure Blob Archive

DS検定では
「Persistent Disk」などを混ぜてくることがありますが、
それは仮想マシン用ディスクであり、アーカイブ用途ではありません。


まとめ(試験直前用)

  • Hot=頻繁に使う
  • Cool=たまに使う
  • Archive=ほぼ使わない
  • 保存コストと取り出し性能はトレードオフ
  • 「低コスト」「長期保存」「頻繁にアクセスしない」がキーワードならArchive

“アクセス頻度で選ぶ”
これを思い出せれば選択肢は切れます。


【対応スキル項目(ビジネス力シート)】

  • データ利活用
  • データ活用環境理解
  • ★ データの保存・管理方法の特徴を理解している
  • ★ クラウドサービスの基本的な仕組みを理解している

人間中心のAI社会原則とは?AIと社会のルールを理解する【DS検定】

  • Source: pages\ds\human-centered-ai-principles.md
  • Permalink: /ds/human-centered-ai-principles/

まず結論

  • 人間中心のAI社会原則とは、AIの開発・利用を「人間の尊厳・権利・社会の利益を守る形で進めるための基本原則」です。
  • DS検定では、AIの技術だけでなく「AIを社会でどう使うべきか」という倫理・社会ルールの理解を問う問題として登場します。

直感的な説明

AIはとても強力な技術ですが、
もしルールなく使われると次のような問題が起きる可能性があります。

  • AIが差別的な判断をしてしまう
  • 個人情報が過剰に利用される
  • AIの判断理由が分からない
  • AIの誤判断で事故が起きる

つまり

AIは便利だが、社会として守るべきルールが必要

という考え方が生まれました。

そこで日本政府が示したのが

「人間中心のAI社会原則」

です。

これは
AIは人間のために使うべき技術である

という考え方を明確にしたものです。


定義・仕組み

人間中心のAI社会原則は、
2019年に日本政府(内閣府)が示したAIの基本原則です。

AIの発展を促進しながら、
社会的リスクを防ぐための考え方を示しています。

主な原則は次の通りです。

① 人間中心の原則

AIは
人間の尊厳・基本的人権を守る形で使うべき

という原則です。

AIが人間の意思決定を完全に支配するのではなく、
最終判断は人間が行うという考え方が重要です。


② 教育・リテラシーの原則

AI社会では

  • AIの仕組み
  • AIの限界
  • AIのリスク

を理解することが重要です。

そのため
AIリテラシー教育の必要性が強調されています。


③ 公正競争の確保

AI技術が一部の企業や国だけに独占されると
社会の公平性が損なわれる可能性があります。

そのため
公平な競争環境を保つことが重要とされています。


④ 公平性・説明責任・透明性

AIの判断は

  • 差別がないか
  • なぜその判断になったか

を説明できる必要があります。

つまり

ブラックボックスAIの問題への対応です。


⑤ 安全性

AIシステムが

  • 誤作動
  • 暴走
  • 事故

を起こさないように
安全性を確保することが求められます。


⑥ プライバシー保護

AIは大量のデータを利用します。

そのため

  • 個人情報
  • 行動データ
  • 位置情報

などのプライバシー保護が重要になります。


⑦ セキュリティ確保

AIシステムはサイバー攻撃の対象になる可能性があります。

そのため

  • AIの不正利用
  • AIへの攻撃
  • データ改ざん

を防ぐためのセキュリティ対策が必要です。


参考(内閣府)

人間中心のAI社会原則
https://www8.cao.go.jp/cstp/aigensoku.pdf


どんな場面で使う?

この原則は次のようなAI利用で重要になります。

AIサービス

  • レコメンドAI
  • 採用AI
  • クレジット審査AI

AIが人の評価や判断を行う場合、
公平性や説明可能性が重要になります。


自動運転

AIが事故判断を行う場合、

  • 誰が責任を持つのか
  • 安全性は確保されているか

といった問題が生まれます。


医療AI

  • AI診断
  • 医療画像解析

AIが医療判断に関わる場合、
安全性と説明責任が重要になります。


DS検定では

AIの社会的ルールや倫理問題

として登場することが多いテーマです。


よくある誤解・混同

誤解①

AIを規制する法律

これは誤りです。

人間中心のAI社会原則は

法律ではなく「基本理念・ガイドライン」

です。


誤解②

日本だけの概念

実は似た考え方は世界中で議論されています。

  • OECD AI原則
  • EU AI規制
  • AI倫理ガイドライン

つまり

AI倫理の国際的な流れの一部

です。


DS検定のひっかけ

DS検定では次のような形で問われます。

AIの社会問題として

  • 公平性
  • 透明性
  • プライバシー
  • 安全性

が並んでいた場合、

それらをまとめた考え方として

人間中心のAI社会原則

が登場することがあります。


まとめ(試験直前用)

  • 人間中心のAI社会原則は AI社会の基本ルール
  • 日本政府(2019年)が提示
  • AIは 人間の尊厳・権利を守る形で使う
  • 公平性・透明性・安全性・プライバシーが重要
  • DS検定では AI倫理・AI社会問題の文脈で出題

【対応スキル項目(AI利活用スキルシート)】

  • AI利活用
  • AI倫理・社会

★ AIの利活用における社会的影響や倫理的課題を理解している
★ AIの活用に伴う法的・社会的リスクを理解している


仮説思考とは?データ分析の出発点【DS検定】

  • Source: pages\ds\hypothesis-thinking.md
  • Permalink: /ds/hypothesis-thinking/

仮説思考とは?


まず結論

仮説思考(Hypothesis Thinking)とは、

最初に仮説(予測や仮の答え)を立ててからデータ分析を行う考え方です。

DS検定では、

  • データ分析
  • ビジネス課題解決
  • データドリブン意思決定

の基本的な考え方として登場します。


直感的な説明

例えば売上が減少したとします。

仮説思考を使わない場合

  • とりあえずデータを全部見る
  • グラフをたくさん作る
  • 何が原因か分からない

となりがちです。

一方、仮説思考では

まず仮説を立てます。

  • 新しい競合が増えた
  • 広告効果が下がった
  • 商品価格が高い

その仮説を検証するために

  • 売上データ
  • 広告データ
  • 市場データ

を分析します。

つまり

仮説 → データ分析 → 検証

という流れになります。


定義・仕組み

仮説思考は次のプロセスで進めます。


① 仮説を立てる

問題の原因について

もっとも可能性が高い説明

を仮説として設定します。

  • 売上減少の原因は広告効果の低下

② 必要なデータを集める

仮説を検証するために

  • 広告クリック率
  • アクセス数
  • 売上データ

などを収集します。


③ 分析する

データを分析して

仮説が正しいか確認します。

  • CTRの変化
  • コンバージョン率

④ 仮説を修正

仮説が違っていれば

  • 新しい仮説を立てる
  • 再度分析する

というプロセスを繰り返します。


どんな場面で使う?


データ分析

データ分析では

目的のない分析

を避けるために仮説思考を使います。


ビジネス問題解決

売上低下や顧客離れなどの原因を

効率よく特定できます。


AI・データサイエンス

機械学習でも

  • 特徴量設計
  • モデル改善

などで仮説が重要になります。


よくある誤解・混同


仮説は「推測」?

❌ 単なる思いつきではない

仮説は

  • 既存データ
  • ドメイン知識
  • 経験

などをもとに立てます。


仮説が間違っていたら失敗?

❌ 仮説が間違うことは普通

重要なのは

仮説を検証して学習すること

です。


まとめ(試験直前用)

仮説思考とは

仮説を立ててからデータ分析を行う方法

です。

流れ

  • 仮説
  • データ収集
  • 分析
  • 検証

DS検定では

「仮説を立てて検証する分析プロセス」

という表現が出たら

仮説思考

と判断できることが重要です。


【対応スキル項目(ビジネス力シート)】

  • ビジネス課題理解
  • データ活用
  • 仮説検証型分析

クラウドサービスのIAMポリシーとは?(アクセス制御の基本)【DS検定】

  • Source: pages\ds\iam-policy.md
  • Permalink: /ds/iam-policy/

まず結論

IAMポリシーとは、「誰が」「どのリソースに」「何をしてよいか」を定義するアクセス権限ルールです。
DS検定では「認証」と「認可」の違いを理解できているかが問われます。


直感的な説明

会社のオフィスを想像してみてください。

  • 社員証を持っている → その人が誰かを確認する(認証)
  • 会議室に入れる人を決める → 入ってよいかを決める(認可)

IAMポリシーは、
「営業部の人は売上データを閲覧できる」
「管理者だけが削除できる」
といったルールブックのようなものです。

クラウドでは、このルールを細かく設定しないと、 誤って重要データを削除してしまうリスクがあります。


定義・仕組み

IAM(Identity and Access Management)は
ユーザーやグループに対してアクセス権限を管理する仕組みです。

IAMポリシーでは主に次の3つを定義します。

  • 誰に(ユーザー・グループ・ロール)
  • どのリソースに(ストレージ・データベースなど)
  • 何を許可するか(読み取り・書き込み・削除など)

ポイントはここです。

IAMポリシーは「ログインさせる仕組み」ではありません。
ログイン後に何ができるかを決める仕組みです。

DS検定ではここを区別させてきます。


どんな場面で使う?

使う場面

  • クラウドストレージのアクセス管理
  • チームごとのデータ閲覧制御
  • 本番環境と開発環境の権限分離
  • 最小権限の原則を守る設計

誤解しやすい場面

  • 「アクセスキーを発行すれば安全」→ それは認証情報
  • 「暗号化しているから安全」→ それはデータ保護

IAMポリシーは利用権限の管理です。


よくある誤解・混同

① 認証との混同

  • 認証(Authentication)
    → 本人確認
  • 認可(Authorization)
    → 何をしてよいかの許可

IAMポリシーは「認可」に該当します。

DS検定では
「アクセスキー」「多要素認証」「IAMポリシー」を並べて出題し、
区別できるかを問われることが多いです。


② 暗号化との混同

  • 暗号化 → データを読めなくする
  • IAMポリシー → 操作できる人を制限する

役割がまったく違います。


③ ネットワーク制御との混同

  • ファイアウォール → 通信経路の制御
  • IAMポリシー → ユーザー権限の制御

DS検定では
「ネットワークポリシー」と混ぜて出すことがあります。


まとめ(試験直前用)

  • IAMポリシー=「何をしてよいか」を決めるルール
  • 認証ではなく「認可」の仕組み
  • ユーザーやグループ単位で権限を設定する
  • 暗号化やネットワーク制御とは役割が違う

選択肢で「本人確認」「暗号化」と書かれていたら誤り。
「特定のユーザーやグループに対するアクセス制御」とあれば正解方向です。


【対応スキル項目(AI利活用スキルシート)】

  • AIを活用するための基盤理解
  • セキュリティ・リスク管理
  • ★ AIシステムの利用における情報セキュリティ及びリスク管理の重要性を理解している

画像のフィルタ処理とは?(ノイズ除去と特徴強調の基本)【DS検定】

  • Source: pages\ds\image-filter-processing.md
  • Permalink: /ds/image-filter-processing/

まず結論

画像のフィルタ処理とは、画像データに対してノイズ除去や特徴強調などの処理を行い、分析や認識に使いやすい形にする前処理のことです。

DS検定では
「画像はピクセル値の集合として処理される」
という点と、
ノイズ除去やエッジ強調などの前処理の目的
を理解しているかが問われます。


直感的な説明

写真を撮ったとき、次のような経験はありませんか。

  • 少し暗いので 明るさを調整する
  • ぼやけているので 輪郭をはっきりさせる
  • ザラザラしたノイズを 除去する

スマホの写真編集アプリでもよく行う処理です。

実はAIによる画像分析でも、
そのままの画像を使うのではなく、分析しやすい状態に整える処理
を行うことが多くあります。

例えば、

  • ノイズを除去する
  • 輪郭(エッジ)を強調する
  • 明るさやコントラストを調整する

といった処理です。

このような処理をまとめて
画像のフィルタ処理と呼びます。


定義・仕組み

画像はAIから見ると
「ピクセル値の集合」です。

例えば1枚の画像は、

  • 明るさ(濃淡)
  • RGB値(色)

といった数値の集合として扱われます。

そのため、画像の処理は基本的に

ピクセル値を計算によって変換する処理

になります。

代表的なフィルタ処理には次のようなものがあります。

ノイズ除去(平滑化フィルタ)

画像のザラザラしたノイズを減らす処理です。

例えば

  • 平均化フィルタ
  • ガウシアンフィルタ
  • メディアンフィルタ

などがあります。

これにより
本来の特徴が見えやすくなる
という効果があります。


エッジ強調(輪郭抽出)

画像の輪郭(エッジ)を強調する処理です。

代表例

  • Sobelフィルタ
  • Laplacianフィルタ

製品検査や文字認識などでは
輪郭情報が重要になるためよく使われます。


色変換

画像を別の表現に変換する処理です。

例えば

  • RGB → グレースケール
  • RGB → HSV

などがあります。

分析では
色を減らして処理を簡単にする
ことも多いです。


どんな場面で使う?

画像のフィルタ処理は
画像分析の前処理としてよく使われます。

例えば次のような場面です。

製造業の外観検査

製品のキズや欠陥を検出する場合

  • ノイズ除去
  • エッジ強調

を行うことで
欠陥部分を見つけやすくすることができます。


医療画像解析

MRIやCT画像では

  • ノイズ除去
  • コントラスト調整

などを行い
病変を見やすくする処理を行います。


自動運転

カメラ画像から

  • 車線
  • 歩行者
  • 標識

を検出するために
画像の前処理が行われます。


よくある誤解・混同

誤解①

AIは画像をそのまま理解している

これは誤解です。

AIは画像を

ピクセル値の数値データ

として処理しています。

そのためノイズなども
数値の特徴として誤認識する可能性があります。

そのためフィルタ処理によって
不要なノイズを除去することが重要になります。


誤解②

フィルタ処理=画像をきれいにするだけ

これも誤解です。

画像処理の目的は

  • ノイズ除去
  • 特徴強調
  • 分析しやすくする

など
AIが特徴を抽出しやすくすることです。


DS検定のひっかけ

DS検定では次のような理解が問われます。

選択肢で

  • 「AIは画像をそのまま理解する」
  • 「画像は数値ではない」

と書かれていたら 誤りです。

画像は

ピクセル値(数値データ)の集合

として処理されます。


まとめ(試験直前用)

  • 画像は ピクセル値の集合(数値データ)
  • フィルタ処理は 画像分析の前処理
  • 主な目的
    • ノイズ除去
    • 特徴強調
    • 画像変換
  • AIがノイズを特徴と誤認識しないようにするために重要

DS検定では
「画像=ピクセル値の集合」
という前提を理解しているかがよく問われます。


【対応スキル項目(AI利活用スキルシート)】

  • スキルカテゴリ名
    AIの技術理解

  • サブカテゴリ名
    画像・音声処理

★ 画像・動画・音声などのデータに対する基本的な処理方法を理解している


不純度とは?決定木での「混ざり具合」の意味【DS検定】

  • Source: pages\ds\impurity.md
  • Permalink: /ds/impurity/

まず結論

不純度とは、データがどれだけ混ざっているか(クラスがどれだけバラバラか)を表す指標です。
DS検定では、「良い分岐とは何か?」を判断させる問題で問われます。


直感的な説明

たとえば、あるグループに

  • すべて「合格」
  • すべて「不合格」

のどちらかだけが入っていれば、とても分かりやすい状態です。

→ これは「純粋(不純度が低い)」です。

一方で、

  • 合格と不合格が半々に混ざっている

→ これは「混ざっている(不純度が高い)」状態です。

つまり、

不純度が低い = クラスがはっきりしている
不純度が高い = クラスが混ざっている

これが本質です。


定義・仕組み

不純度とは、

あるノード(分岐後のグループ)のクラスの混ざり具合

を数値化したものです。

代表的な指標は2つあります。

① ジニ不純度(Gini impurity)

  • ランダムフォレストでよく使われる
  • 計算が軽い

② エントロピー(Entropy)

  • 情報利得で使われる
  • 情報理論ベース

どちらも考え方は同じです。

クラスが均等に混ざるほど値は大きくなる
1種類だけになると最小になる

DS検定では、数式よりも

「混ざり具合を測る指標」

と理解していれば十分です。


どんな場面で使う?

① 決定木の分岐基準

決定木は、

「どの特徴量で分けると一番きれいに分かれるか?」

を判断します。

このとき、

分岐後の不純度が小さくなるように特徴量を選ぶ

というルールを使います。

つまり、

  • 不純度が大きく下がる分岐 = 良い分岐

です。


② ランダムフォレストの内部

ランダムフォレストも、各決定木で
不純度を下げる方向に分岐します。

その「どれだけ下げたか」の合計が
特徴量重要度に使われることがあります。


よくある誤解・混同

❌ 不純度が大きいほど良い

→ 逆です。

小さいほど良い状態です。

DS検定では
「不純度が最大のときが最良」といった選択肢が出たら誤りです。


❌ 不純度 = 情報利得

→ 違います。

  • 不純度 → 今の混ざり具合
  • 情報利得 → 分岐でどれだけ不純度が減ったか

この違いはよく問われます。


❌ 不純度が低い = モデルが高精度

→ 必ずしもそうではありません。

1つのノードが純粋でも、
全体として汎化できるとは限りません。

ここは「過学習」と絡めて出題されることがあります。


まとめ(試験直前用)

  • 不純度 = クラスの混ざり具合
  • 小さいほど良い状態
  • 決定木は不純度を下げる方向に分岐する
  • 情報利得は「不純度の減少量」
  • 不純度と精度は同義ではない

対応スキル項目(AI利活用スキルシート)

  • AIの理解
  • 機械学習の基本理解
  • ★ 機械学習モデルの基本的な仕組みを理解している

インプテーションとは?(欠損値補完の基本)【DS検定】

  • Source: pages\ds\imputation.md
  • Permalink: /ds/imputation/

まず結論

インプテーションとは、欠損しているデータを平均値・中央値・最頻値などで補う手法です。
DS検定では「欠損値をどう扱うか」を判断できるかが問われます。


直感的な説明

アンケートで「年齢」が未回答の人がいたとします。
そのままでは平均年齢が計算できません。

そこで「この列の平均値で埋めよう」と考えるのがインプテーションです。

業務でもよくあります。
センサー値が一部欠けている、売上データが一部抜けているなど、
「欠けているけど分析は続けたい」という場面で使われます。

重要なのは、
欠損をそのままにすると分析ができないことがある
という点です。


定義・仕組み

インプテーション(Imputation)とは、
欠損値(missing value)を何らかの値で補完する処理です。

代表的な方法は以下です。

  • 平均値で埋める
  • 中央値で埋める
  • 最頻値で埋める
  • 近いデータを使って推定する

DS検定リテラシーでは、
高度な数式よりも「欠損を削除するか、補完するかの判断」が重要です。

ポイントは、

  • 欠損を削除するとデータが減る
  • 補完すると値に人工的な情報が入る

というトレードオフがあることです。


どんな場面で使う?

使う場面

  • データ数が少なく、削除すると困る場合
  • 機械学習モデルに欠損が入力できない場合
  • ビジネス上、平均的な値で扱っても問題ない場合

注意が必要な場面

  • 欠損に意味がある場合(例:未回答=拒否)
  • 欠損が特定の層に偏っている場合
  • 精度を重視する分析の場合

DS検定では、
「とりあえず平均で埋めればよい」と書かれていたら要注意です。


よくある誤解・混同

① ノーマライゼーションとの混同

ノーマライゼーションは「値のスケールをそろえる」処理です。
欠損を埋める処理ではありません。

② エンコーディングとの混同

エンコーディングは「カテゴリ変数を数値化する」処理です。
欠損とは関係ありません。

③ オーバーサンプリングとの混同

オーバーサンプリングは「不均衡データで少数クラスを増やす」方法です。
欠損処理とは目的がまったく違います。

DS検定では、
「平均で置き換える」と書いてあればインプテーション、
「0〜1にそろえる」とあればノーマライゼーション、
と切り分けられるかがポイントです。


まとめ(試験直前用)

  • インプテーション=欠損値を補う手法
  • 代表例は平均・中央値・最頻値での補完
  • 削除とのトレードオフを意識する
  • 「スケール調整」や「カテゴリ変換」と混同しない

DS検定では
「欠損をどう扱うか」という判断問題として出題されることが多いです。


【対応スキル項目(データサイエンス力シート)】

  • データ前処理
  • データの品質管理
  • ★ 欠損値や外れ値を適切に扱うことができる

インシデント管理とは?障害対応と報告の基本【DS検定】

  • Source: pages\ds\incident-management.md
  • Permalink: /ds/incident-management/

まず結論

インシデント管理とは、システム障害・セキュリティ問題・業務トラブルなどの「問題(インシデント)」を早期に発見し、報告・対応・再発防止を行う管理活動です。

DS検定では、問題発生時に「迅速な報告・共有・対応」が重要であることを理解しているかが問われます。


直感的な説明

ITシステムやデータ分析プロジェクトでは、さまざまなトラブルが起こります。

例えば次のようなものです。

サーバーが停止した

データが消えた

個人情報が漏えいした

分析結果が誤っていた

このような問題を放置すると

サービス停止

企業信用の低下

経営判断のミス

につながる可能性があります。

そこで企業では

問題を発見したらすぐに共有し、組織として対応する仕組み

を作っています。

これが インシデント管理(Incident Management) です。


定義・仕組み

インシデント(Incident)

インシデントとは

業務やサービスに悪影響を与える可能性がある出来事

を指します。

必ずしも重大事故である必要はありません。

システムエラー

セキュリティ警告

データ処理失敗

小さな問題でも、将来的に大きな事故につながる可能性があります。


インシデント管理の基本プロセス

一般的には次の流れで管理されます。

インシデント発見 ↓ レポートラインへ報告 ↓ 影響範囲の確認 ↓ 対応・復旧 ↓ 原因分析 ↓ 再発防止

DS検定では

問題を発見したら迅速に報告すること

が重要なポイントになります。


レポートラインとの関係

インシデント管理では

レポートライン(正式な報告経路)

が重要になります。

つまり

問題を発見した人が

上司や管理者へ報告し

組織として対応する

という流れになります。

DS検定では

問題を発見したときにどう行動するべきか

という形で出題されることがあります。


どんな場面で使う?

インシデント管理は次のような場面で使われます。

ITシステム

サーバ障害

ネットワーク障害

データベース停止

情報セキュリティ

不正アクセス

情報漏えい

データ分析

データ欠損

モデル異常

分析結果の誤り

DS検定では

データ分析も企業の業務活動の一部

として扱われるため、インシデント管理の考え方が重要になります。


よくある誤解・混同

誤解①:重大事故だけがインシデント

これは誤解です。

インシデントは

事故の前段階の問題

も含みます。

小さな問題でも早期対応することで

重大事故を防ぐことができます。


誤解②:自分で解決してから報告する

DS検定ではこの考え方は 誤り とされます。

正しい行動は

問題を発見した時点で報告する

です。


誤解③:IT部門だけの仕事

インシデント管理は

IT

データ分析

業務プロセス

すべてに関係する活動です。

そのため

組織全体での対応

が重要になります。


まとめ(試験直前用)

インシデント=業務やサービスに影響する問題

インシデント管理=問題の 報告・対応・再発防止

小さな問題でも早期対応が重要

問題発見 → レポートラインへ報告

DS検定では 迅速な報告と共有 が重要ポイント


【対応スキル項目(ビジネス力シート)】

スキルカテゴリ:活動マネジメント

サブカテゴリ:リスクマネジメント

★ 担当するタスクの遅延や障害などを発見した場合、迅速かつ適切に報告ができる


増分バックアップと差分バックアップの違いとは?【DS検定リテラシー】

  • Source: pages\ds\incremental-vs-differential-backup.md
  • Permalink: /ds/incremental-vs-differential-backup/

まず結論

増分バックアップは「直前のバックアップからの差分だけ」を保存し、差分バックアップは「最初のフルバックアップからの差分」を毎回保存する方法です。
DS検定では「復元の手順」と「データ量の増え方」を判断できるかが問われます。


直感的な説明

毎日レポートを更新しているとします。

  • 月曜日にフルバックアップ(全部保存)
  • 火曜日に一部修正
  • 水曜日にさらに修正

このとき、

増分バックアップは
「火曜は月曜との差分」「水曜は火曜との差分」を保存します。

差分バックアップは
「火曜は月曜との差分」「水曜も月曜との差分」を保存します。

つまり、

  • 増分は“リレー形式”
  • 差分は“毎回スタート地点に戻る形式”

というイメージです。


定義・仕組み

増分バックアップ(Incremental Backup)

  • 直前のバックアップ以降に変更された部分のみを保存
  • データ量は小さくなりやすい
  • 復元時は「フル+すべての増分」が必要

ポイントは
「バックアップ同士が連鎖している」ことです。

1つでも欠けると復元できません。


差分バックアップ(Differential Backup)

  • 最後のフルバックアップ以降の変更分を毎回保存
  • 日数がたつほどデータ量は増える
  • 復元時は「フル+最新の差分」だけでよい

ポイントは
「常にフルを基準にしている」ことです。


どんな場面で使う?

増分バックアップが向く場面

  • 毎日の変更量が多い
  • 保存容量を抑えたい
  • ネットワーク負荷を下げたい

データベースのログ保存などでよく使われます。

ただし、復元に時間がかかる点は注意です。


差分バックアップが向く場面

  • 復元の速さを優先したい
  • 運用をシンプルにしたい

災害復旧や業務停止リスクが大きいシステムでは有効です。


よくある誤解・混同

❌「どちらも前回との差分を保存する」

これは誤りです。

増分は前回との差分ですが、
差分は“最初のフルとの差分”です。


❌「増分のほうが復元が速い」

逆です。

増分は
フル → 増分1 → 増分2 → … と順番に適用する必要があります。

DS検定では

  • 「復元が簡単なのはどちらか」
  • 「保存容量が小さいのはどちらか」

という形で問われることが多いです。

選択肢で
「復元時に必要なバックアップの数」に注目すると切れます。


まとめ(試験直前用)

  • 増分は「直前との差分」保存量は小さいが復元は複雑
  • 差分は「フルとの差分」保存量は増えるが復元は簡単
  • 復元に必要なファイル数が違う
  • DS検定では“保存効率か復元効率か”を判断させる

対応スキル項目(データエンジニアリング力シート)

  • データ管理
  • データ保全
  • ★ データのバックアップおよびリカバリの基本的な仕組みを理解している

インダストリー4.0とは?第4次産業革命の本質とドイツ戦略【DS検定】

  • Source: pages\ds\industry4-0.md
  • Permalink: /ds/industry4-0/

まず結論

インダストリー4.0とは、ドイツ政府が提唱した、IoT・データ・AIを活用して製造業を高度化する第4次産業革命構想です。
DS検定では「単なるAI導入」と区別できるかが問われます。


直感的な説明

これまでの工場は

  • 人が機械を操作する
  • 問題が起きてから対応する
  • 経験に頼る

という世界でした。

インダストリー4.0では

  • 機械がセンサーでつながり
  • データがリアルタイムに集まり
  • AIが状況を判断し
  • 自律的に最適化される

という「つながる工場」になります。

つまり、

データが循環して、自分で賢くなる工場

これが本質です。


定義・仕組み

インダストリー4.0は、ドイツ連邦政府が打ち出した産業政策です。

産業革命の流れ:

  1. 第1次:蒸気機関
  2. 第2次:電力
  3. 第3次:IT化
  4. 第4次:IoT+データ+AI

重要なのは

  • 製造のオートメーション化
  • データ化
  • コンピュータ化
  • サイバーフィジカルシステム(CPS)
  • スマートファクトリー

といった統合的な仕組みです。

政策との関係

  • 2016年:ドイツ「デジタル戦略2025」
  • 2018年:ドイツ「AI国家戦略」

インダストリー4.0の中で、
AIはイノベーションを支える重要技術の一つとして位置づけられています。

DS検定では
「インダストリー4.0=AI戦略」と誤認させる選択肢が出やすいので注意です。


どんな場面で使う?

代表例

アディダスの「スピードファクトリー」

  • 生産設備のIoT化
  • 高度な自動化
  • 少量多品種の短期生産

※ただし2020年に閉鎖

ここがポイントです。

インダストリー4.0は「理論的構想」であり、
必ずしも成功事例だけではないという点も理解しておきましょう。


よくある誤解・混同

❌ AI導入=インダストリー4.0

違います。

AIは構成要素の一つです。
選択肢で

「AIを活用することがインダストリー4.0である」

とあれば誤りです。


❌ DXと同じ

DXは企業全体の変革概念。
インダストリー4.0は製造業中心の国家戦略モデルです。


❌ 日本の戦略

発祥はドイツです。
「AI国家戦略」と混同させる問題が出やすいです。


まとめ(試験直前用)

  • ドイツ政府の第4次産業革命構想
  • 製造業の高度化が中心
  • IoT+データ+AIの統合
  • AIは構成要素の一つ
  • DXやAI戦略と混同しない

迷ったら

“製造業 × データ循環 × 自律最適化”

で判断。


【対応スキル項目(AI利活用スキルシート)】

  • AI活用理解
  • AIの社会実装
  • ★ AIの活用事例を理解し、適切な場面で説明できる
  • ★ AI導入に伴うビジネス変革の方向性を理解している

情報利得とは?分岐の良さを判断する基準【DS検定】

  • Source: pages\ds\information-gain.md
  • Permalink: /ds/information-gain/

まず結論

情報利得とは、ある特徴量で分岐したときに「どれだけ不確実性が減ったか」を表す指標です。
DS検定では、「どの特徴量で分けるのが良いかを判断する基準は何か?」を問う問題で使われます。


直感的な説明

たとえば、
「売れる商品」と「売れない商品」を分類したいとします。

ある特徴量(例:価格帯)で分けたら、 片方はほぼ「売れる」だけ、もう片方はほぼ「売れない」だけになった。

→ これはとても良い分け方です。

なぜなら、分けた後は「ほぼ答えが決まっている」状態だからです。
この「分けたことでどれだけスッキリしたか」を数値にしたものが情報利得です。


定義・仕組み

情報利得は、

  • 分岐する前の「不確実さ」
  • 分岐した後の「不確実さ」

の差で決まります。

不確実さには「エントロピー」という指標を使います。

難しく考えなくて大丈夫です。
ポイントは次の1行です。

情報利得が大きい = 分けた結果、クラスがはっきりした

つまり、

  • 情報利得が大きい → 良い分岐
  • 情報利得が小さい → 分けてもあまり意味がない

という判断になります。

DS検定では「情報利得が大きい特徴量を選ぶ」と理解していれば十分です。


どんな場面で使う?

① 決定木の分岐基準

最も代表的な用途です。

決定木では、 「どの特徴量で分岐するか?」を決める必要があります。

このとき、

情報利得が最大になる特徴量を選ぶ

というルールが使われます。


② ランダムフォレストの内部理解

ランダムフォレストは決定木の集合です。
それぞれの木の中で、情報利得が使われています。

DS検定では、

  • 「分岐の基準は何か?」
  • 「特徴量の重要度はどう決まるか?」

と問われることが多いです。


よくある誤解・混同

❌ 情報利得が小さいほど重要

→ 逆です。大きいほど良い分岐です。

DS検定ではここをひっかけてきます。


❌ 情報利得 = 特徴量重要度

→ 完全に同じではありません。

情報利得は「1回の分岐」の評価です。
特徴量重要度は「木全体・森全体での貢献度」です。


❌ 情報利得が高い = 因果関係がある

→ これは誤りです。

あくまで「分類に役立つ」だけで、 原因とは限りません。


❌ Gini不純度と同じもの

→ 似ていますが別物です。

  • 情報利得 → エントロピーを使う
  • Gini → ジニ不純度を使う

どちらも「どれだけ混ざっているか」を測る指標です。

DS検定では「分岐の基準として使われる指標」として整理しておきましょう。


まとめ(試験直前用)

  • 情報利得 = 分岐でどれだけ不確実性が減ったか
  • 大きいほど良い分岐
  • 決定木の分岐基準として使われる
  • 因果を示す指標ではない
  • Gini不純度と混同しない

対応スキル項目(AI利活用スキルシート)

  • AIの理解
  • 機械学習の基本理解
  • ★ 機械学習モデルの基本的な仕組みを理解している

継承とは?クラス設計の基本を整理【DS検定リテラシー】

  • Source: pages\ds\inheritance.md
  • Permalink: /ds/inheritance/

まず結論

  • 継承とは、あるクラスの性質や機能を別のクラスが引き継ぐ仕組みのこと。
  • DS検定では「ポリモーフィズム」「カプセル化」との違いを判断させる問題としてよく問われる。

直感的な説明

「親の特徴を子が受け継ぐ」と考えると分かりやすいです。

たとえば、

  • 動物クラス(Animal)
  • 犬クラス(Dog)

があるとします。

犬は「動物の一種」なので、

  • 食べる
  • 寝る

といった動物の基本的な機能をそのまま使えます。

これが 継承 です。

業務システムでも、

  • 社員クラス
  • 営業社員クラス
  • エンジニア社員クラス

のように「共通部分をまとめておく」ことで、設計を整理できます。


定義・仕組み

継承とは、

既存のクラス(親クラス・スーパークラス)の属性やメソッドを、
新しいクラス(子クラス・サブクラス)が引き継ぐ仕組み

のことです。

ポイントは次の3つです。

  1. 共通機能を再利用できる
  2. コードの重複を減らせる
  3. 「〜は〜の一種である」という関係を表現できる

DS検定では、用語の厳密な文法よりも、

  • 「何を引き継ぐ仕組みなのか」
  • 「どんな設計思想か」

を理解しているかが問われます。


どんな場面で使う?

使う場面

  • 共通の機能を持つクラスをまとめたいとき
  • 「AはBの一種」という関係が明確なとき
  • 大規模開発で設計を整理したいとき

使うと誤解しやすい場面

  • 単に似ているだけのクラスを無理に継承させる場合
  • 「コードを使い回したいだけ」で継承を使う場合

設計上、「本当に“〜の一種”と言えるか?」が判断基準です。


よくある誤解・混同

① ポリモーフィズムとの混同

DS検定では
「同じ呼び出しで異なる動作をする」
という記述が出てきます。

これは継承ではなく ポリモーフィズム です。

  • 継承 → 引き継ぐ仕組み
  • ポリモーフィズム → 同じ呼び出しで振る舞いが変わる性質

選択肢では、

「異なる型を単一のインターフェースで扱う」

と書かれていたら、継承ではなくポリモーフィズムです。


② カプセル化との混同

  • データを隠す
  • 外部から直接触れさせない

これは カプセル化 です。

継承は「隠す」概念ではありません。


③ Pythonでは継承が必須?

Pythonでは、継承しなくても
「同じメソッドを持っていれば」動作します(ダックタイピング)。

つまり、

  • ポリモーフィズムは継承がなくても成立する

ここを混同しないことが重要です。

DS検定では
「継承はポリモーフィズムの必須条件である」
という選択肢があれば 誤り と判断できます。


まとめ(試験直前用)

  • 継承=親クラスの機能を子クラスが引き継ぐ仕組み
  • 「〜は〜の一種」という関係を表す設計
  • ポリモーフィズムとは別概念
  • 「同じ呼び出しで動作が変わる」はポリモーフィズム
  • Pythonではポリモーフィズムに継承は必須ではない

【対応スキル項目(AI利活用スキルシート)】

  • AIの基礎理解
  • オブジェクト指向や基本的な情報システムの概念を理解している
  • ★ AIを活用したシステムの基本的な構造を理解している

内部統制とは?企業の不正やミスを防ぐ仕組み【DS検定】

  • Source: pages\ds\internal-control.md
  • Permalink: /ds/internal-control/

まず結論

内部統制とは、企業の業務が適切に行われるように、不正やミスを防ぐための仕組みのことです。

DS検定では、企業活動においてリスクを抑え、適正な業務運営を行うための管理体制を理解しているかが問われます。


直感的な説明

企業では多くの人が働き、多くのシステムやデータが使われています。

そのため次のような問題が起きる可能性があります。

データ入力ミス

不正な会計処理

情報の不正利用

システム設定ミス

もしこのような問題が自由に起きてしまうと

誤った経営判断

法律違反

社会的信用の低下

につながります。

そこで企業では

不正やミスが起きにくい仕組み

を作ります。

例えば

複数人による確認

権限管理

業務ルール

このような仕組み全体を 内部統制(Internal Control) と呼びます。


定義・仕組み

内部統制とは

企業の業務が適正かつ効率的に行われるようにするための管理体制

を指します。

一般的には次の目的があります。

業務の有効性・効率性

財務報告の信頼性

法令遵守(コンプライアンス)

資産の保全

つまり

業務ルール + 管理体制 + チェック体制 ↓ 不正・ミスを防ぐ

という仕組みです。


データ活用における内部統制

データサイエンスでも内部統制は重要です。

例えば

データアクセス権限の管理

モデル更新の承認

分析結果のレビュー

などが必要になります。

DS検定では

データ活用でも企業管理の仕組みが必要

という理解が重要です。


どんな場面で使う?

内部統制は次のような場面で重要になります。

会計

不正会計防止

会計データ管理

ITシステム

アクセス権管理

操作ログ管理

データ分析

分析結果のレビュー

データ管理ルール

組織運営

業務手順

承認フロー

DS検定では

企業がリスクを防ぐための組織的仕組み

として理解しておくことが重要です。


よくある誤解・混同

混同①:リスクマネジメント

リスクマネジメントは

リスクを特定・評価・管理する活動

です。

一方

内部統制は

日常業務の中で不正やミスを防ぐ仕組み

です。


混同②:監査

監査は

内部統制が正しく機能しているかを確認する活動

です。

つまり

概念 内容

内部統制 不正やミスを防ぐ仕組み 監査 仕組みが機能しているか確認

という関係になります。


混同③:ITだけの問題

内部統制は

IT

会計

業務プロセス

すべてに関係する仕組みです。

DS検定では

企業管理の仕組みとして理解すること

が重要になります。


まとめ(試験直前用)

内部統制=企業の不正やミスを防ぐ仕組み

業務ルール・権限管理・チェック体制で構成

目的:業務効率・財務信頼性・法令遵守

リスクマネジメントは リスク管理の活動

監査は 内部統制をチェックする仕組み

DS検定では

企業の管理体制としての内部統制

を理解しているかが問われます。


【対応スキル項目(ビジネス力シート)】

スキルカテゴリ:ビジネスコンプライアンス

サブカテゴリ:法令遵守

★ 法令・社会規範・社内規程を遵守して業務を遂行できる


数字やグラフの持つメッセージを理解するとは?(統計情報の正しい読み取り)【DS検定】

  • Source: pages\ds\interpret-statistics.md
  • Permalink: /ds/interpret-statistics/

まず結論

数字やグラフの持つメッセージを理解するとは、統計データをそのまま受け取るのではなく、「何を意味しているのか」「比較は適切か」を考えて読み取ることです。

DS検定では、 「数字は正しいが解釈が誤っている」選択肢を見抜けるか がよく問われます。


直感的な説明

ニュースやSNSでは、次のような数字をよく見ます。

「感染者数が2倍に増えた」

「売上が過去最高を更新」

「満足度90%」

一見すると、すごく大きな変化のように見えます。

しかし、よく見ると

母数が違う

集計方法が違う

比較条件が違う

ことがあります。

例えば次の2つは、印象が大きく変わります。

表現 実際の意味

感染者数が100人増えた 人口が多い地域かもしれない 感染率が2倍になった 検査数が増えただけかもしれない

つまり、

数字は事実でも、解釈を間違えると誤った判断になる

ということです。

このような誤解が広がる現象は インフォデミック(Infodemic) と呼ばれることもあります。


定義・仕組み

エビデンスベースドとは

エビデンスベースド(Evidence-Based)とは、思い込みや感覚ではなく、データや根拠に基づいて判断する考え方です。

日本語では

「根拠に基づく意思決定」

と説明されることが多いです。

例えばビジネスでは次のような判断があります。

判断方法 例

勘や経験 「なんとなく売れそう」 エビデンスベースド 「過去データから売れる確率が高い」

データサイエンスでは

統計データ

実験結果

調査データ

などを根拠として判断します。

ただし重要なのは、

データがあるだけでは不十分

ということです。

そのデータが

正しく比較されているか

適切な指標か

誤解を招くグラフではないか

を確認する必要があります。

つまり、

エビデンスベースドで判断するためには 統計情報を正しく読み取る力が必要

になります。


① 絶対数なのか比率なのか

例:

表現 意味

感染者数 絶対数 感染率 比率

人口が多い地域は、感染者数が多くなりやすいため 比率で比較する必要があります。

DS検定では 「絶対数と割合を混同させる問題」がよく出ます。


② 同じ条件で比較しているか

例えば

調査方法

集計期間

対象人数

が変わると、数字は変わります。

年 集計方法

2022年 店舗調査 2023年 オンライン調査

この場合、 単純比較はできません。


③ 都合の良いデータだけ使っていないか

グラフは見せ方で印象が変わります。

縦軸の範囲を極端に狭くする

一部の期間だけ表示する

特定の条件だけ抜き出す

こうした手法は ミスリーディングな可視化と呼ばれることがあります。


④ 相関関係と因果関係を混同していないか

例:

アイスの売上が増える

溺水事故が増える

この2つは相関があります。

しかし原因は

夏の気温

です。

つまり

相関 ≠ 因果

です。

DS検定では 「相関がある → 原因である」 という選択肢が典型的な誤りです。


どんな場面で使う?

この考え方は、次の場面で非常に重要です。

ニュースを読むとき

失業率

感染率

経済指標

数字だけを見ると誤解することがあります。


ビジネス分析

売上の増減

顧客満足度

市場シェア

条件を揃えない比較は誤った意思決定につながります。


データ分析

データ分析では

前処理

可視化

指標の解釈

のすべてで

数字の意味を正しく理解する力

が必要になります。


よくある誤解・混同

誤解①

数字は客観的だから正しい

→ 誤り

数字は事実でも

集計方法

表示方法

比較方法

で印象が変わります。


誤解②

グラフはそのまま信じてよい

→ 注意

グラフは

軸の設定

表示範囲

対象期間

によって

印象操作が可能です。


誤解③

相関があれば原因である

→ 誤り

DS検定では

相関と因果の混同

が頻出のひっかけです。


まとめ(試験直前用)

統計情報は 数字の意味を考えて読むことが重要

エビデンスベースドとは 根拠(データ)に基づく判断

絶対数か割合か を確認する

同じ条件で比較しているか を確認する

相関=因果ではない

DS検定では 「数字は正しいが解釈が誤り」の選択肢がよく出る。


対応スキル項目

【対応スキル項目(データサイエンス力シート)】

スキルカテゴリ名 データの理解・検証

サブカテゴリ名 統計情報への正しい理解

★ ニュース記事などで統計情報に接したときに、数字やグラフの持つメッセージを理解できる


逆行列とは何か?求め方と意味をやさしく整理【DS検定】

  • Source: pages\ds\inverse-matrix.md
  • Permalink: /ds/inverse-matrix/

まず結論

逆行列とは、「ある行列の変換を打ち消して元に戻すための行列」です。
DS検定では「計算」よりも、「元に戻せるかどうか」「逆行列が存在する条件」を判断できるかが問われます。


直感的な説明

行列は「変換」を表します。

たとえば、

  • 座標を回転させる
  • データを別の軸に変換する
  • 数値の組を別の組に写す

といった操作です。

逆行列は、その変換を元に戻す操作です。

行列 = 変換
逆行列 = その変換を打ち消すもの

と理解できれば十分です。


定義・仕組み

行列 A に対して、

「A をかけると元に戻る行列」を
A の逆行列といいます。

ポイントはここです。

  • すべての行列に逆行列があるわけではない
  • 正方行列(行と列の数が同じ)である必要がある
  • 行列式が 0 でないときだけ存在する

行列式が0とは?(2×2行列で確認)

2×2行列

\[A = \begin{pmatrix} a & b \\ c & d \end{pmatrix}\]

の行列式は

\[ad - bc\]

で計算されます。

ここが重要です。

  • ad − bc ≠ 0 → 逆行列が存在する
  • ad − bc = 0 → 逆行列は存在しない

では、なぜでしょうか?

ad − bc = 0 のとき、

  • 行や列が「重なっている」
  • 情報がつぶれている
  • 変換が一意でなくなる

という状態になります。

つまり、

元に戻せない変換になっている

ということです。

DS検定では、
「行列式が0のとき逆行列は存在する」と書いてあれば誤りです。


逆行列の求め方(意味重視)

2×2行列の場合、逆行列は次の形になります。

\[A^{-1} = \frac{1}{ad-bc} \begin{pmatrix} d & -b \\ -c & a \end{pmatrix}\]

ここで重要なのは式を暗記することではありません。

  • 分母に行列式がある
  • 行列式が0なら割れない
  • だから逆行列は存在しない

という構造を理解することです。

DS検定ではこの「存在条件」が問われます。


どんな場面で使う?

① 連立方程式を解くとき

Ax = b
という形の式で、

x = A⁻¹b

と変形できます。

回帰分析の背後にある理論として登場します。


② 多変量解析の理解

  • 重回帰分析
  • 分散共分散行列
  • 正規分布の理論

などで逆行列が使われます。

ただし試験では

「なぜ逆行列が必要なのか」

が問われます。


よくある誤解・混同

❌ すべての行列に逆行列がある

→ 正方行列で、行列式が0でない場合だけ。

DS検定では
「どんな行列でも逆行列を持つ」と書かれていたら誤りです。


❌ 転置行列と逆行列の混同

転置は「縦横を入れ替える」操作。
逆行列は「元に戻す」操作。

まったく別物です。


❌ 行列式=逆行列

行列式は「数値」。
逆行列は「行列」。

役割が違います。


まとめ(試験直前用)

  • 逆行列=変換を元に戻す行列
  • 正方行列かつ 行列式≠0 のときだけ存在
  • 行列式が0なら割れない=逆行列なし
  • 転置行列とは別物
  • DS検定では「存在条件」を問われる

「元に戻せるか?」が判断基準。


【対応スキル項目(データサイエンス力シート)】

  • 数理・統計基礎
  • 線形代数の基礎理解
  • ★ 逆行列の定義、および逆行列を求めることにより行列表記された連立方程式が解けることを理解している

改正個人情報保護法とは?日本のデータ保護ルール【DS検定】

  • Source: pages\ds\japan-personal-information-protection-act.md
  • Permalink: /ds/japan-personal-information-protection-act/

まず結論

  • 改正個人情報保護法とは、日本における個人データの取り扱いルールを定めた法律です。
  • DS検定では GDPR・CCPAと並ぶ「世界的なプライバシー規制」の一つとして理解すること が重要です。

企業は

  • 個人情報を適切に管理する
  • 利用目的を明確にする
  • 不正利用を防ぐ

といった義務を負います。


直感的な説明

例えば企業が

  • 会員情報
  • 購入履歴
  • 位置情報
  • Webの閲覧履歴

などを集めているとします。

もし法律がなければ、

  • 勝手に第三者へ販売する
  • 本人の知らない用途で使う
  • 管理がずさんで漏えいする

といった問題が起きてしまいます。

そこで必要になるのが

個人情報保護法です。

日本ではこの法律が改正され、
企業によるデータ利用のルールが強化されました。

DS検定では

「データ活用とプライバシー保護のバランス」

を理解しているかが問われます。


定義・仕組み

個人情報保護法

日本における
個人情報の取得・利用・管理を規制する法律です。

2022年の改正により、次のようなポイントが強化されました。

① 個人の権利の強化

利用者は

  • データ開示請求
  • 利用停止請求
  • 削除請求

などが可能になりました。

つまり

自分のデータをコントロールする権利

が強化されています。


② 企業の責任の強化

企業は

  • 利用目的の明示
  • 適切な安全管理
  • 漏えい時の報告

などが義務になります。

特に

個人情報漏えいが発生した場合は
個人情報保護委員会への報告が必要

になります。


③ 越境データ移転への対応

海外企業にデータを提供する場合も
利用者への説明などが必要になります。

これは

  • GDPR
  • CCPA

などの影響を受けた改正です。

つまり

個人情報保護は世界共通のルールになりつつある

ということです。


どんな場面で使う?

個人情報保護法は、ほぼすべての企業活動に関係します。

例えば

EC・会員サービス

企業が

  • 名前
  • 住所
  • メールアドレス

などを管理する場合です。


データ分析

企業が

  • 購買履歴
  • 行動履歴
  • 利用ログ

を分析する場合も対象になります。

データサイエンスでは

データ分析を行う前に
個人情報の扱いを確認することが重要です。

DS検定では

「データは自由に使えるわけではない」

という前提が重要になります。


よくある誤解・混同

誤解①

個人情報 = 名前や住所だけ

これは誤りです。

次のような情報も
個人情報として扱われることがあります。

  • IPアドレス
  • Cookie
  • 位置情報
  • 顔画像

DS検定では

「個人を識別できる可能性があるか」

がポイントになります。


誤解②

データ分析なら自由に使える

これも誤りです。

データ分析であっても

  • 利用目的
  • 匿名化
  • 同意

などが必要になります。


誤解③

日本だけ規制が弱い

現在は

  • GDPR(EU)
  • CCPA(アメリカ)
  • 個人情報保護法(日本)

など

世界的にプライバシー規制が強化されています。

DS検定では

データ活用のリスク管理

という文脈で出題されます。


まとめ(試験直前用)

  • 個人情報保護法は 日本の個人データ保護の法律
  • 2022年改正で 企業責任と個人権利が強化
  • 漏えい時には 報告義務
  • 世界では GDPR・CCPAなど規制が強化

DS検定では

「データ活用とプライバシー保護のバランス」

を理解しているかが問われます。


【対応スキル項目(ビジネス力シート)】

  • ビジネスにおけるデータ活用
  • 法律・倫理

★ 個人情報保護やプライバシー保護に関する法制度を理解している


日本語の形態素解析ツールとは?代表例と違いを整理【DS検定】

  • Source: pages\ds\japanese-morphological-analysis-tools.md
  • Permalink: /ds/japanese-morphological-analysis-tools/

まず結論

日本語の形態素解析ツールとは、文章を「意味をもつ最小単位(形態素)」に分解するためのソフトウェアです。

DS検定では、「どれが形態素解析ツールか」を判断できるかが問われます。
特に MeCab・CaboCha・NLTK・TensorFlow の違いを切り分けられるか がポイントです。


直感的な説明

日本語は、英語のように単語がスペースで区切られていません。

例:

私は昨日映画を見ました。

これをそのままでは、コンピュータは単語として認識できません。

形態素解析ツールを使うと、次のように分解できます。

私 / は / 昨日 / 映画 / を / 見 / ました

つまり、

  • 文章を「単語レベル」に分ける
  • それぞれの品詞(名詞・動詞など)を判定する

これが形態素解析の役割です。

DS検定では、「前処理として何をしているか」を理解できているかが問われます。


定義・仕組み

■ 定義

形態素解析とは、

文章を意味をもつ最小単位に分解し、品詞などの情報を付与する処理

です。

■ 代表的な日本語形態素解析ツール

  • MeCab(メカブ)
    日本語形態素解析の定番ツール。DS検定で最も出やすい。

  • Sudachi
    比較的新しい日本語形態素解析ツール。複数の分割モードがある。

  • Janome
    Pythonのみで動作する軽量な形態素解析ツール。

  • Juman++
    京都大学発の高精度形態素解析ツール。

■ よく混同されるもの

  • CaboCha → 係り受け解析(構文解析)
  • NLTK → 主に英語向けの自然言語処理ライブラリ
  • TensorFlow → 機械学習フレームワーク

DS検定では
「自然言語処理ライブラリ」と「形態素解析ツール」を区別できるかが重要です。


どんな場面で使う?

■ 使う場面

  • テキストデータの前処理
  • 感情分析
  • キーワード抽出
  • チャットボット開発
  • アンケート分析

自然言語処理のほぼ最初のステップです。

■ 使うと誤解しやすい場面

形態素解析をすれば「意味理解」までできると思うのは誤りです。

形態素解析はあくまで

単語に分解する段階

意味理解や分類はその後の機械学習モデルの役割です。


よくある誤解・混同

❌ CaboChaは形態素解析ツールである

→ 主目的は係り受け解析

❌ TensorFlowは自然言語処理ツールだから正解

→ これは機械学習フレームワーク

❌ NLTKは有名だから日本語も標準対応している

→ 主に英語向け

DS検定では、

「日本語の形態素解析を行うことができるものはどれか」

と問われることが多いです。

選択肢に MeCab があれば最優先で選ぶ のが基本戦略です。


まとめ(試験直前用)

  • 日本語はスペースがないため、まず形態素解析が必要
  • 代表的ツールは MeCab
  • CaboChaは係り受け解析
  • TensorFlowは機械学習基盤
  • 「前処理か?学習か?」で切り分ける

迷ったら、

単語に分ける処理かどうか?

これを判断基準にする。


【対応スキル項目(AI利活用スキルシート)】

  • AIの基礎理解
  • 自然言語処理の基礎
  • ★ テキストデータの前処理の概要を理解している
  • ★ 自然言語処理の基本的な流れを理解している

k匿名性とは?データ匿名化の基本をわかりやすく解説【DS検定】

  • Source: pages\ds\k-anonymity.md
  • Permalink: /ds/k-anonymity/

まず結論

  • k匿名性(k-anonymity)とは、データの中で同じ属性を持つ人が最低k人存在するようにする匿名化手法です。
  • DS検定では 「個人が特定されないようにするデータ加工の考え方」として問われることがあります。

簡単に言うと

「このデータだけでは個人を特定できない状態にする仕組み」

です。


直感的な説明

例えば次のようなデータがあるとします。

年齢 地域 性別 病気
32 松山市 男性 A

このままだと、

  • 年齢
  • 地域
  • 性別

の組み合わせで
誰のデータか特定できてしまう可能性があります。

そこで次のように加工します。

年齢 地域 性別 病気
30代 愛媛県 男性 A
30代 愛媛県 男性 B
30代 愛媛県 男性 C

この場合

同じ属性の人が3人います。

つまり

k = 3

3匿名性(3-anonymity)になります。

これにより

特定の個人を識別することが難しくなります。


定義・仕組み

k匿名性とは

データの準識別子(年齢・地域など)の組み合わせが
少なくともk人以上存在するように加工する匿名化手法

です。

ここで重要なのが

準識別子(quasi identifier)

という概念です。

準識別子とは

  • 年齢
  • 郵便番号
  • 性別
  • 地域

など

単体では個人を特定できないが
組み合わせると特定できる可能性がある情報

です。

k匿名性では

これらを

  • 範囲化(30代など)
  • 集約(県レベルなど)

することで

同じ属性を持つ人を増やします。


どんな場面で使う?

k匿名性は主に

医療データ公開

例えば

  • 病院の統計データ
  • 疫学研究データ

などです。

患者データを公開する際に

個人が特定されないようにする必要があります。


公共データ公開

政府が公開する

  • 人口統計
  • 交通データ
  • 健康データ

などでも使われます。

DS検定では

データ公開とプライバシー保護

という文脈で出題されることがあります。


よくある誤解・混同

誤解①

k匿名性 = 完全匿名

これは誤りです。

k匿名性でも

外部データと組み合わせると
個人が特定される可能性

があります。


誤解②

匿名化すれば安全

これも誤りです。

実際には

  • l多様性
  • t近接性

などの改良手法があります。

DS検定では

匿名化にも限界がある

という理解が重要です。


誤解③

匿名加工情報との関係

k匿名性は

匿名化を実現する技術の一例

です。

つまり

  • 匿名加工情報 → 法律の概念
  • k匿名性 → 技術的手法

という違いがあります。


まとめ(試験直前用)

  • k匿名性は 同じ属性の人がk人以上になるようにする匿名化手法
  • 年齢・地域など 準識別子 を加工して匿名化する
  • 医療データや公共データ公開で利用される
  • 完全匿名ではなく 匿名化にも限界がある

DS検定では

匿名化技術の基本概念

として理解しておくと
選択肢を判断しやすくなります。


【対応スキル項目(ビジネス力シート)】

  • ビジネスにおけるデータ活用
  • 法律・倫理

★ 個人情報保護やプライバシー保護に関する法制度を理解している


カーネル(Kernel)とは?画像フィルタ処理の計算ルール【DS検定】

  • Source: pages\ds\kernel.md
  • Permalink: /ds/kernel/

まず結論

カーネル(Kernel)とは、画像の畳み込み処理で使われる小さな行列で、画像をどのように変換するかを決める「計算ルール」です。

DS検定では

フィルタ処理

畳み込み

カーネル

の関係を理解しているかが問われることがあります。


直感的な説明

画像のフィルタ処理は

「周りのピクセルを見て値を決める」

という計算でした。

このとき

どのような計算をするかを決める表

がカーネルです。

例えば次のような表です。

1 1 1 1 1 1 1 1 1

この表を画像の上に重ねて

ピクセル値

カーネルの値

を掛け合わせて計算します。

つまり

カーネル=画像処理のルールを表した行列

です。


定義・仕組み

カーネルとは

畳み込み(Convolution)処理で使われる小さな行列

です。

一般的には

3×3

5×5

などのサイズの行列が使われます。

畳み込み処理では

① カーネルを画像の一部に重ねる ② 対応する値を掛ける ③ 合計して新しいピクセル値を作る ④ カーネルを1ピクセルずらす

という処理を画像全体に繰り返します。

このとき

カーネルの値が画像処理の結果を決めます。


カーネルの例

ぼかし処理の例

1 1 1 1 1 1 1 1 1

周囲の値を平均することで

→ 画像が滑らかになる


エッジ検出の例

-1 -1 -1 -1 8 -1 -1 -1 -1

輪郭部分の変化が強調され

→ エッジが強調される


どんな場面で使う?

カーネルは

画像フィルタ処理の中心的な仕組みです。

例えば

ノイズ除去

ぼかし

シャープ化

エッジ検出

など多くの画像処理で使われます。


CNN(畳み込みニューラルネットワーク)

CNNでは

カーネルを学習によって自動で作ります。

つまり

人が決めるカーネル

ではなく

AIが特徴を学習したカーネル

が使われます。

これによって

模様

輪郭

などの特徴を検出できます。


よくある誤解・混同

誤解①

カーネル=畳み込み

これは正しくありません。

カーネル

→ 計算ルール

畳み込み

→ そのルールを使った計算方法

という関係です。


誤解②

カーネルは画像処理だけのもの

実際には

CNN

信号処理

音声処理

などでも使われる概念です。


DS検定のひっかけ

DS検定では

フィルタ

カーネル

畳み込み

の関係が混同されることがあります。

整理すると

フィルタ処理 ↓ 畳み込み(計算方法) ↓ カーネル(計算ルール)

です。


まとめ(試験直前用)

カーネルは 畳み込み処理で使う小さな行列

画像処理の「計算ルール」を表す

カーネルの値によって

ぼかし

ノイズ除去

エッジ検出 などの処理が決まる

CNNではカーネルをAIが学習する

DS検定では

カーネル=計算ルール 畳み込み=計算方法

と整理できると迷いにくくなります。


【対応スキル項目(AI利活用スキルシート)】

スキルカテゴリ名 AIの技術理解

サブカテゴリ名 画像・音声処理

★ 画像・動画・音声などのデータに対する基本的な処理方法を理解している


ストレッチングとは?(ハッシュ強化の仕組み)【DS検定】

  • Source: pages\ds\key-stretching.md
  • Permalink: /ds/key-stretching/

まず結論

ストレッチングとは、ハッシュ計算を何度も繰り返して、計算コストを意図的に高くすることで攻撃を困難にする技術です。
DS検定では「ソルトとの違い」や「何を防ぐのか」を判断させる問題が出やすいです。


直感的な説明

攻撃者がパスワードを破る方法の一つは「総当たり攻撃」です。

コンピュータは1秒間に何百万回も計算できます。
そこで防御側はこう考えます。

1回のハッシュ計算を重くすればよい。

例えば、

  • 通常のハッシュ → 一瞬で終わる
  • ストレッチング → 何千回も繰り返す

すると、攻撃者の試行回数が激減します。

つまり、

攻撃を“できなくする”のではなく、“時間的に現実的でなくする”技術です。


定義・仕組み

ストレッチングは、

  • ハッシュ関数を繰り返し適用する
  • 計算回数を増やす
  • CPUやメモリ負荷を高める

ことで安全性を高めます。

代表的な仕組み:

  • PBKDF2
  • bcrypt
  • Argon2

これらは「ソルト+ストレッチング」をまとめて実装しています。


どんな場面で使う?

使う場面

  • パスワード保存
  • 認証システム
  • セキュリティ重視のデータ管理

使わない場面

  • 高速処理が最優先の場面
  • 単なるデータ識別用途

ストレッチングは「わざと遅くする」技術なので、
用途を間違えると性能問題になります。


よくある誤解・混同

① ソルトとの違い

DS検定で最も狙われる混同ポイントです。

  • ソルト → 同じパスワードでも違うハッシュにする
  • ストレッチング → 計算を重くする

❌ ソルトは計算を重くする
⭕ それはストレッチング


② レインボーテーブルとの関係

  • レインボーテーブル対策 → ソルト
  • 総当たり対策 → ストレッチング

ここを整理できるかが判断ポイントです。


③ 暗号化との混同

❌ ストレッチングは暗号化
⭕ あくまでハッシュの強化

復号はできません。


まとめ(試験直前用)

  • ストレッチング=計算を何度も繰り返す
  • 目的は総当たり攻撃の遅延
  • ソルトは別技術(役割が違う)
  • 暗号化ではない
  • 「計算を重くする」と書いてあれば正解方向

【対応スキル項目(AI利活用スキルシート)】

  • AIを支えるデータと技術の理解
  • セキュリティ・リスク理解
    ★ AI・データ活用に伴うセキュリティリスクを理解している
    ★ データの適切な管理・保護の重要性を理解している

KPIとKGIの違いとは?目標管理の基本を整理【DS検定】

  • Source: pages\ds\kpi-kgi.md
  • Permalink: /ds/kpi-kgi/

まず結論

KGI(Key Goal Indicator)は最終的な目標を示す指標、KPI(Key Performance Indicator)はその目標達成のための途中の指標です。

DS検定では「KGIが最終目標、KPIがその進捗管理」という関係を理解しているかが問われます。

試験では特に

KPIとKGIの役割の違い

KPIがKGI達成のための指標であること

を理解しているかがポイントになります。


直感的な説明

例えばECサイトの売上を伸ばしたいとします。

最終的な目標は

売上を1億円にする

といったものです。

これは KGI です。

しかし売上は突然増えるわけではありません。

その途中には

サイト訪問数

商品閲覧数

購入率

などの指標があります。

これらを改善していくことで

最終目標に近づきます。

この 途中の管理指標 が KPI です。


定義・仕組み

KGI(Key Goal Indicator)

企業や組織の 最終的な目標を示す指標 です。

売上

利益

市場シェア


KPI(Key Performance Indicator)

KGIを達成するための 進捗を管理する指標 です。

新規顧客数

サイト訪問数

購入率


つまり

KPI(途中の指標) ↓ KGI(最終目標)

という関係になります。

企業ではKPIを定期的に確認することで

目標達成に近づいているかを管理します。


どんな場面で使う?

経営目標の管理

企業の目標達成状況を管理するために使われます。

KGI

売上10億円

KPI

月間新規顧客数

購入率


データドリブン経営

データにもとづいた意思決定のために

KPIを定量的に管理します。


プロジェクト管理

プロジェクトの進捗を確認するためにも使われます。


よくある誤解・混同

KPIとKGIの逆転

DS検定では次のような誤り選択肢が出ることがあります。

KPIが最終目標を表す

これは誤りです。

KGI → 最終目標

KPI → 途中の管理指標

です。


KGIが複数あるという誤解

通常KGIは

最終目標として1つ設定されることが多いです。

一方でKPIは

複数設定されることがあります。


まとめ(試験直前用)

KGIは最終目標を示す指標

KPIは目標達成の途中指標

KPIを改善することでKGIに近づく

DS検定では KPIとKGIの役割の違い が問われる

試験では

「最終目標を示す指標」

と書かれていたら

KGIと判断するのがポイントです。


【対応スキル項目(ビジネス力シート)】

ビジネス理解

データ活用

★ データを活用した意思決定の重要性を理解している


最小権限の原則とは?ゼロトラストとの関係を整理【DS検定リテラシー】

  • Source: pages\ds\least-privilege.md
  • Permalink: /ds/least-privilege/

まず結論

最小権限の原則(Least Privilege Principle)とは、
業務に必要な最小限の権限だけを与えるというセキュリティの基本原則です。

DS検定では、「過剰な権限を与えるリスク」を理解しているかが問われます。


直感的な説明

会社で例えると、

  • 一般社員が「全社の給与データ」を編集できる
  • アルバイトが「システム管理者権限」を持っている

これは明らかに危険です。

最小権限の原則は、

「できることを増やす」のではなく
「本当に必要なことだけ許可する」

という発想です。


定義・仕組み

最小権限の原則は、

  • ユーザー
  • アプリケーション
  • サービスアカウント

などに対して、

必要最低限のアクセス権のみを付与する

という設計思想です。

なぜ重要か?

権限が大きいほど、

  • 情報漏えいリスクが増える
  • 不正操作の被害が拡大する
  • 内部不正が重大化する

つまり、被害範囲を小さくするための考え方です。


どんな場面で使う?

ビジネス環境

  • クラウドのアクセス権設定
  • データベースの閲覧・編集権限
  • API利用制御
  • AIモデル管理

データサイエンス業務では、

  • 学習データ
  • 個人情報
  • 分析レポート

などを扱うため、権限設計は極めて重要です。

ゼロトラストの中核となる原則でもあります。


よくある誤解・混同

① 管理しやすいから全員に管理者権限を与える

これは最小権限の原則に反します。

DS検定では、 「利便性のため広い権限を与えるのが合理的」といった選択肢は誤りです。


② MFAがあれば大丈夫

多要素認証は「本人確認の強化」。
最小権限は「許可範囲の制限」。

役割が違います。


③ ゼロトラスト=最小権限

ゼロトラストは考え方全体。
最小権限はその具体的な実装原則の一つです。


まとめ(試験直前用)

  • 必要最小限の権限だけ与える
  • 被害範囲を小さくするのが目的
  • 利便性よりリスク管理を優先
  • ゼロトラストの重要要素

迷ったら、

「この権限、本当に必要か?」

で判断してください。


【対応スキル項目(AI利活用スキルシート)】

  • AI利活用基礎
  • AIを活用するための技術理解
  • ★ AIを活用したサービスの仕組みやリスクを理解している
  • ★ データの取り扱いに関するセキュリティや倫理的配慮の重要性を理解している

LEFT JOINとWHEREの関係とは?(SQLのひっかけ問題)【DS検定】

  • Source: pages\ds\left-join-where.md
  • Permalink: /ds/left-join-where/

まず結論

LEFT JOINのあとにWHEREで右テーブル条件を書くと、LEFT JOINが実質INNER JOINのような動きになることがある。

DS検定では 「LEFT JOINなのに全件出ないのはなぜか?」 という判断をさせる問題がよく出ます。


直感的な説明

「LEFT JOIN」は本来、

左の表は全部残す

という操作です。

しかし、そのあとで

“条件に合わない行を消す”

というWHEREが実行されます。

たとえば:

従業員は全員出す(LEFT JOIN)

でも「アクティブなプロジェクトだけ」に絞る(WHERE)

とすると、

👉 プロジェクトが無い人はNULLになる
👉 NULLは条件に合わないので消える

結果として、

「アクティブな案件に参加している人だけ」が残ります。

つまり、LEFT JOINなのに全員は出ません。


定義・仕組み

SQLの処理順は次のように考えます。

  1. FROM
  2. JOIN(ONで結合)
  3. WHERE(結合後の絞り込み)
  4. SELECT(表示)

例:

SELECT E.name, P.project_name FROM Employees E LEFT JOIN Projects P ON E.id = P.employee_id WHERE P.status = ‘active’;

処理の流れ

① まずLEFT JOINが実行される
→ 全従業員が残る
→ プロジェクトがない人はP側がNULLになる

② そのあとWHEREがかかる

P.status = ‘active’

  • active → 残る
  • inactive → 消える
  • NULL → 消える(ここが重要)

つまり、

WHEREは「結合後の表」にかかる

ため、NULL行が消えてしまいます。


ではどう書けばよいか?

もし

全従業員を表示しつつ、activeだけ結合したい

なら、条件はONに書きます。

LEFT JOIN Projects P ON E.id = P.employee_id AND P.status = ‘active’

これなら、

  • 従業員は全員残る
  • activeのみ結合
  • それ以外はNULL

になります。


どんな場面で使う?

✔ 実務での例

  • 社員一覧を出す
  • 進行中プロジェクトだけを横に表示したい

このとき、WHEREに書いてしまうと

「プロジェクト未所属社員が消える」

というバグになります。


✔ DS検定で問われるポイント

DS検定では

  • LEFT JOINとINNER JOINの違い
  • WHEREとONの違い
  • NULLの扱い

を理解しているかを問われます。

計算問題ではなく、

「このSQLはどんな結果になるか?」

という判断問題が多いです。


よくある誤解・混同

❌ 「LEFT JOINなら必ず左は全部出る」

→ WHEREの書き方次第で消える


❌ 「WHEREもJOIN条件の一部」

→ 違う
ONは「結合の条件」
WHEREは「結合後のフィルタ」


❌ 「NULLは条件に合うこともある」

→ 比較演算では基本的にNULLは成立しない
DS検定ではここがひっかけになります。


DS検定での典型問題

次のSQLはどのような結果になるか?

選択肢では:

  • 「すべての従業員が表示される」
  • 「アクティブ案件の人だけ表示される」

のどちらかで迷わせてきます。

判断基準は:

👉 WHEREが右テーブル条件ならLEFTは崩れる


まとめ(試験直前用)

  • WHEREはJOIN後にかかる
  • NULLはWHERE条件を通らない
  • 右テーブル条件をWHEREに書くとLEFTがINNER化する
  • 「LEFTなのに全件出ない」=WHEREが原因

DS検定では 「JOINの種類」より 「どこに条件が書いてあるか」を見抜くことが重要。


【対応スキル項目(データエンジニアリング力シート)】

  • データ基盤
  • データベース
  • ★ SQLを用いてデータの抽出・結合・集計ができる
  • ★ データベースの基本構造と操作(SELECT、JOINなど)を理解している

LLMのTemperatureとは?出力のランダム性を理解する【DS検定】

  • Source: pages\ds\llm-temperature.md
  • Permalink: /ds/llm-temperature/

まず結論

Temperature(テンペラチャー)とは、大規模言語モデル(LLM)の出力のランダム性を調整するパラメータです。
DS検定では、「生成AIの出力が安定する/創造的になる理由を理解しているか」を判断させる問題として問われます。


直感的な説明

Temperatureは、
「AIの回答のブレ具合をどれくらい許すか」 を決めるダイヤルのようなものです。

  • 低い値(例:0.2)
    → 毎回ほぼ同じ、安定した回答になる
  • 高い値(例:0.8)
    → 表現が多様になり、創造的になるが、ブレやすい

たとえば、

  • マニュアル回答をさせたいとき
    → 低Temperature
  • アイデア出しやコピー作成
    → 高Temperature

という使い分けになります。

「なぜAIの出力が毎回違うのか?」という疑問の正体が、このTemperatureです。


定義・仕組み

大規模言語モデルは、
「次に来る単語の確率」を計算して文章を生成しています。

Temperatureは、その確率の偏りをどれくらい強調するかを調整する仕組みです。

  • 低Temperature
    → 確率の高い単語をほぼ必ず選ぶ
    → 出力が安定する

  • 高Temperature
    → 確率の低い単語も選ばれやすくなる
    → 出力が多様になる

重要なのは、

Temperatureは「正確さ」を直接調整するものではない

という点です。

DS検定では、「Temperatureを下げると正解率が上がる」といった表現があれば注意が必要です。


どんな場面で使う?

使うべき場面

  • FAQ自動応答(安定性重視)
  • レポート要約
  • コード生成
  • マニュアル回答

→ 低Temperatureが適する


  • キャッチコピー作成
  • アイデア出し
  • 物語生成

→ 高Temperatureが適する


使うと誤解しやすい場面

  • ハルシネーション対策としてTemperatureを下げる
    → 一部は安定するが、根本解決ではない

DS検定では、「ハルシネーション=Temperatureが高いから起きる」と書かれていたら誤りです。


よくある誤解・混同

① Temperature = 正確性の調整

❌ 低くすると必ず正確になる
⭕ 出力が安定するだけ


② Temperature = 学習の強さ

❌ モデルを再学習している
⭕ 推論時の出力制御パラメータ


③ RAGとの混同

RAGは外部データを検索して回答する仕組み。
Temperatureは「出力の揺らぎ」の調整。

DS検定では、
「検索強化」と「出力制御」を混同させる問題が出やすいです。


まとめ(試験直前用)

  • Temperatureは「出力のランダム性」の調整
  • 低い → 安定、高い → 多様
  • 正確性そのものを保証するものではない
  • RAGや学習方法とは別の概念

「出力のブレを制御する仕組み」かどうかで判断する


【対応スキル項目(AI利活用スキルシート)】

  • AIを活用した業務遂行
  • 生成AIの活用
  • ★ 生成AIの特性(出力の不確実性やばらつき)を理解し、適切に活用できる
  • ★ 生成AIの出力を過信せず、人間が適切に確認・判断できる

ロジスティック回帰とは?(オッズ・対数オッズから理解する)【DS検定】

  • Source: pages\ds\logistic-regression.md
  • Permalink: /ds/logistic-regression/

まず結論

ロジスティック回帰とは、「ある事象が起こる確率」を予測するための分類手法です。
DS検定では「回帰という名前だが分類に使う」という点と、「オッズ・対数オッズ・シグモイド関数」の関係を理解しているかが問われます。


直感的な説明

たとえば、

  • この顧客は商品を買うか?
  • このメールは迷惑メールか?
  • この取引は不正か?

のように、「Yes / No」を予測したい場面があります。

ここで問題になるのは、
予測結果を“確率”として出したいという点です。

単純な直線(通常の回帰)だと、
予測値がマイナスになったり、1を超えたりしてしまいます。

そこで、

  1. まず「確率」を「オッズ」に変換する
  2. さらに「対数」を取って直線で扱える形にする
  3. 最後にシグモイド関数で0〜1に戻す

という流れを使います。

この流れ全体がロジスティック回帰です。


定義・仕組み

① オッズとは?

確率を p とすると、オッズは

\[p / (1 - p)\]

です。

意味は
「起こる確率 ÷ 起こらない確率」

です。

たとえば、

  • 起こる確率 0.8
  • 起こらない確率 0.2

なら、オッズは 4 です。
「4倍起こりやすい」という解釈になります。


② 対数オッズ(ロジット)

オッズに対数を取ったものを対数オッズといいます。

\[log(p / (1 - p))\]

これをロジット関数と呼びます。

なぜ対数を取るのか?

  • オッズは 0〜∞
  • 対数を取ると −∞〜+∞

つまり、
直線モデルで扱える形に変換できるのです。


③ シグモイド関数

ロジットの逆関数がシグモイド関数です。

\[σ(x) = 1 / (1 + e^{-x})\]

この関数の特徴は、

  • 出力が必ず 0〜1 の範囲
  • S字カーブになる
  • 中心は 0.5

です。

ロジスティック回帰は、

  • 入力を直線で計算
  • それをシグモイド関数に通す
  • 確率に変換する

という仕組みになっています。

DS検定では
「ロジスティック回帰とシグモイド関数の関係」が問われることが多いです。


どんな場面で使う?

使う場面

  • 二値分類(Yes / No)
  • 発生確率を出したいとき
  • ビジネスで意思決定に使うとき

例:

  • 購買確率
  • 解約確率
  • 不正発生確率

確率として出るため、
優先順位付けやリスク管理に使いやすいのが特徴です。


使うと誤解しやすい場面

  • 数値予測(売上金額など)には向かない
  • 多クラス分類ではそのまま使えない(拡張が必要)

DS検定では
「連続値予測に使う」と書いてあれば誤りです。


よくある誤解・混同

① 回帰だから数値予測?

名称に「回帰」が入っていますが、
実際は分類手法です。

DS検定ではここをよく混同させてきます。


② シグモイド関数=ロジスティック回帰?

厳密には、

  • シグモイド関数は“変換関数”
  • ロジスティック回帰は“モデル全体”

です。

「シグモイド関数そのものが学習モデル」と書いてあれば誤りです。


③ オッズと確率の混同

  • 確率は 0〜1
  • オッズは 0〜∞

DS検定では
「オッズは確率そのもの」と書いてあれば誤りです。


まとめ(試験直前用)

  • ロジスティック回帰は二値分類の手法
  • 確率 → オッズ → 対数オッズで直線化する
  • シグモイド関数で 0〜1 に戻す
  • 「回帰」という名前だが分類で使う

迷ったら、

確率を直線で扱うための変換モデル

と覚えておくと判断できます。


【対応スキル項目(AI利活用スキルシート)】

  • AIを理解する力
  • 機械学習の基礎理解
  • ★ 代表的な機械学習手法の特徴を理解している

機械学習アルゴリズム一覧チートシート(教師あり・教師なし・強化学習)【DS検定】

  • Source: pages\ds\machine-learning-algorithms-cheatsheet.md
  • Permalink: /ds/machine-learning-algorithms-cheatsheet/

まず結論

機械学習アルゴリズムは「教師あり学習・教師なし学習・強化学習」の3つに分類されます。

DS検定では

アルゴリズム名

学習タイプ

主な用途

を結び付けて判断する問題がよく出ます。

つまり

「このアルゴリズムはどの学習タイプか?」

を判断できることが重要です。


直感的な説明

機械学習のアルゴリズムは、役割で整理すると理解しやすくなります。

目的 代表アルゴリズム

数値予測 線形回帰 分類 ロジスティック回帰・SVM グループ分け k-means 画像認識 CNN 文章生成 GPT

DS検定では

用途 → アルゴリズム

の対応を問う問題がよく出ます。


定義・仕組み

教師あり学習(Supervised Learning)

正解付きデータを使って学習する方法です。

回帰(数値予測)

アルゴリズム 特徴

線形回帰 最も基本的な回帰モデル リッジ回帰 過学習を抑える Lasso回帰 特徴量選択が可能


分類

アルゴリズム 特徴

ロジスティック回帰 分類モデル k近傍法(kNN) 近いデータで判断 SVM 境界を最大化 決定木 ルールベース分類 ランダムフォレスト 決定木の集合 勾配ブースティング 弱学習器を組み合わせる

実務では

XGBoost

LightGBM

などもよく使われます。


教師なし学習(Unsupervised Learning)

正解がないデータからパターンを見つけます。

クラスタリング

アルゴリズム 特徴

k-means 最も有名なクラスタリング 階層クラスタリング 階層構造を作る DBSCAN 密度ベースクラスタリング


次元削減

アルゴリズム 特徴

PCA 主成分分析 t-SNE 可視化向け UMAP 高次元可視化


強化学習(Reinforcement Learning)

試行錯誤しながら最適行動を学習します。

アルゴリズム 特徴

Q学習 基本的強化学習 Deep Q Network 深層学習との組み合わせ 方策勾配法 行動方針を直接学習


ディープラーニング手法

モデル 用途

CNN 画像認識 RNN 時系列データ LSTM 長期時系列 GAN データ生成 VAE 生成モデル YOLO 物体検出


LLM関連モデル

モデル 用途

Transformer LLMの基盤モデル GPT 文章生成 BERT 文章理解


どんな場面で使う?

用途 アルゴリズム

売上予測 線形回帰 顧客セグメント k-means 不正検知 ランダムフォレスト 画像認識 CNN 物体検出 YOLO 文章生成 GPT


よくある誤解・混同

ロジスティック回帰

名前に回帰が付いていますが

分類アルゴリズムです。

DS検定では非常に狙われます。


k-means

教師なし学習です。

教師あり学習と混同する問題がよく出ます。


YOLO

画像分類ではなく

物体検出アルゴリズムです。


GAN

分類モデルではなく

データ生成モデルです。


まとめ(試験直前用)

機械学習は 教師あり・教師なし・強化学習

DS検定では アルゴリズム名 → 学習タイプ が頻出

ロジスティック回帰は 分類

k-meansは 教師なし学習

GAN・YOLO・Transformerは ディープラーニング系


対応スキル項目

【対応スキル項目(AI利活用スキルシート)】

スキルカテゴリ名 AI・人工知能

サブカテゴリ名 機械学習

★ 機械学習にあたる解析手法の名称を3つ以上知っており、手法の概要を説明できる


機械学習の解析手法とは?(代表的アルゴリズムを整理)【DS検定】

  • Source: pages\ds\machine-learning-methods.md
  • Permalink: /ds/machine-learning-methods/

まず結論

機械学習の解析手法とは、データからパターンを学習し予測や分類を行うアルゴリズムのことです。

DS検定では

教師あり学習

教師なし学習

強化学習

の3分類を理解し、さらに代表的なアルゴリズム名を判断できるかがよく問われます。

選択肢では

「この手法はどの学習タイプに属するか」を判断させる問題が多いです。


直感的な説明

機械学習の手法は、目的によって大きく3つに分かれます。

教師あり学習

→ 正解付きデータで学習する

過去の売上データ → 将来の売上を予測

メール → スパムかどうか判定


教師なし学習

→ 正解なしでデータの構造を見つける

顧客データを分析して

若年層グループ

ファミリー層

高所得層

のように自然なグループ分けをする。


強化学習

→ 試行錯誤しながら最適な行動を学ぶ

自動運転

ゲームAI

ロボット制御

報酬が大きくなる行動を学習していきます。


定義・仕組み

機械学習の代表的な解析手法は次のように整理できます。

教師あり学習の代表手法

教師あり学習では

特徴量(説明変数) → 目的変数

の関係を学習します。

代表アルゴリズム

回帰系(数値を予測)

線形回帰

リッジ回帰

Lasso回帰

住宅価格予測 売上予測


分類系(カテゴリを予測)

代表手法

ロジスティック回帰

k近傍法(kNN)

サポートベクターマシン(SVM)

決定木

ランダムフォレスト

勾配ブースティング

実務では

XGBoost

LightGBM

などがよく使われます。


ニューラルネットワーク

人間の神経回路を模したモデル。

画像認識 音声認識 自然言語処理

などで利用されます。


教師なし学習の代表手法

教師なし学習では

データの構造や関係性を見つけます


クラスタリング

似たデータをまとめる

代表手法

k-means

階層クラスタリング

DBSCAN

顧客セグメント分析

商品のカテゴリ分け


次元削減

データの特徴を圧縮する

代表手法

主成分分析(PCA)

t-SNE

UMAP

データ可視化

特徴量圧縮


強化学習の代表手法

環境の中で

行動 → 報酬 → 学習

を繰り返します。

代表手法

Q学習

Deep Q Network(DQN)

方策勾配法

Actor-Critic

AlphaGo

ロボット制御

自動運転


ディープラーニング系の代表手法

DS検定では

ニューラルネットワーク系のモデル名が問われることがあります。

代表例

GAN(Generative Adversarial Network)

生成モデル

AI画像生成

データ生成


VAE(Variational Autoencoder)

確率的生成モデル

データ生成

潜在空間学習


YOLO

リアルタイム物体検出

自動運転

防犯カメラ


CNN

画像認識モデル

顔認識

医療画像解析


RNN / LSTM

時系列データ処理

音声認識

翻訳


LLM(大規模言語モデル)関連

最近のAIでは

自然言語処理モデルが重要になっています。

代表例

Transformer

LLMの基盤となるモデル

GPT

BERT


GPT(Generative Pre-trained Transformer)

生成AIモデル

ChatGPT

文章生成

プログラム生成


BERT

理解系モデル

検索エンジン

文書分類


どんな場面で使う?

代表的な用途

目的 代表手法

売上予測 線形回帰 顧客分類 k-means 画像認識 CNN 物体検出 YOLO 文章生成 GPT レコメンド ニューラルネットワーク


実務と試験でのズレ

実務では

XGBoost

LightGBM

Deep Learning

が主流です。

しかしDS検定では

ロジスティック回帰

決定木

SVM

など基礎アルゴリズムがよく出題されます。


よくある誤解・混同

誤解①

機械学習=ディープラーニング

これは誤りです。

正しくは

AI └ 機械学習 └ ディープラーニング


誤解②

k-meansは教師あり学習

これは誤り。

教師なし学習です。


誤解③

ロジスティック回帰は回帰

名前に回帰が付いていますが

分類アルゴリズムです。

DS検定ではよく狙われます。


誤解④

YOLOは画像分類

YOLOは

物体検出(Object Detection)

です。


まとめ(試験直前用)

機械学習は 教師あり・教師なし・強化学習 に分類

DS検定では アルゴリズム名 → 学習タイプ を判断させる問題が多い

ロジスティック回帰は分類に注意

k-meansは教師なし学習

GAN・YOLO・Transformerなどは ディープラーニング手法


対応スキル項目

【対応スキル項目(AI利活用スキルシート)】

スキルカテゴリ名 AI・人工知能

サブカテゴリ名 機械学習

★ 機械学習にあたる解析手法の名称を3つ以上知っており、手法の概要を説明できる


マルウェアとは?代表的な種類と違いを整理【DS検定】

  • Source: pages\ds\malware.md
  • Permalink: /ds/malware/

まず結論

マルウェア(malware)とは、利用者や組織に被害を与えることを目的に作られた悪意あるソフトウェアの総称です。

DS検定では 「ウイルス・ワーム・トロイの木馬などの違いを区別できるか」 が問われることが多く、

特に

自己増殖するか

他のプログラムに寄生するか

有用なソフトを装うか

という違いを理解しておくことが重要です。

直感的な説明

マルウェアは、簡単に言うと

「コンピュータに悪さをするプログラムの総称」です。

例えば企業のパソコンで次のようなことが起きると、大きな問題になります。

機密データが盗まれる

ファイルが暗号化されて使えなくなる

パソコンが遠隔操作される

システムが停止する

このような攻撃の多くは、マルウェアを使って行われます。

DS検定では、データサイエンスの業務でも

顧客データ

個人情報

企業データ

などのデータ資産を守る必要があるため、 基本的なマルウェアの種類を理解していることが前提になります。

定義・仕組み

マルウェア(malware)は

malicious(悪意のある) + software(ソフトウェア)

から作られた言葉です。

代表的な種類は次の通りです。

種類 特徴

コンピュータウイルス 他のプログラムに寄生して感染する ワーム ネットワークを通じて自己増殖する トロイの木馬 有用なソフトを装って侵入する スパイウェア ユーザーの情報を密かに収集する ランサムウェア ファイルを暗号化して身代金を要求する ボット 感染したPCを遠隔操作して攻撃に利用する

ここで重要なのは

マルウェア = 個別の種類ではなく「総称」

という点です。

つまり

マルウェア ├ ウイルス ├ ワーム ├ トロイの木馬 ├ スパイウェア ├ ランサムウェア └ ボット

という関係になります。

どんな場面で使う?

マルウェアは、主に次のようなサイバー攻撃で利用されます。

情報漏えい

スパイウェアなどを使って

顧客情報

パスワード

社内データ

を盗み出す攻撃です。

金銭目的の攻撃

ランサムウェアのように

ファイルを暗号化

復号のための身代金要求

といった攻撃が代表例です。

サービス妨害

ボットに感染した大量のPCを使い

DDoS攻撃

不正アクセス

などが行われることがあります。

DS検定では

「データ資産のリスク」

として理解しておくことが重要です。

よくある誤解・混同

① ウイルスとワームの違い

DS検定でよく問われるポイントです。

項目 ウイルス ワーム

感染方法 他のプログラムに寄生 単体で増殖 拡散方法 ファイルなど ネットワーク 特徴 実行されると感染 自動的に拡散

判断ポイント

寄生する → ウイルス 単体で増殖 → ワーム

② トロイの木馬との違い

トロイの木馬は

「自己増殖しない」

という特徴があります。

代わりに

有用なソフトを装ってインストールさせる

という手口を使います。

フリーソフトを装う

偽アップデート

偽アプリ

③ マルウェア = ウイルスではない

これは非常に多い誤解です。

DS検定では

「マルウェアの一種としてコンピュータウイルスがある」

という関係が正しいです。

つまり

マルウェア > ウイルス

です。

選択肢で

マルウェアはコンピュータウイルスの一種である

と書かれていたら 誤り になります。

まとめ(試験直前用)

マルウェア = 悪意あるソフトの総称

DS検定では ウイルス / ワーム / トロイの木馬の違い がよく出る

判断基準

特徴 該当

他プログラムに寄生 ウイルス 単体で自己増殖 ワーム 有用ソフトを装う トロイの木馬

選択肢では

「マルウェア = ウイルス」 と書かれていたら誤りと判断できます。


【対応スキル項目(データエンジニアリング力シート)】

ITセキュリティ

攻撃と防御手法

★ マルウェアなどによる深刻なリスクの種類(消失・漏洩・サービスの停止など)を常に意識している


マネージドサービスとは?クラウド環境構築の基本概念を整理【DS検定】

  • Source: pages\ds\managed-service.md
  • Permalink: /ds/managed-service/

まず結論

マネージドサービスとは、インフラやシステムの運用管理をクラウド事業者が代行してくれるサービス形態のことです。
DS検定では「サービスの分類を正しく判断できるか」が問われます。


直感的な説明

自分でサーバを立てて、OSを設定して、バックアップを管理するのは大変です。
マネージドサービスは、その面倒な部分を「クラウド側がやってくれる仕組み」です。

たとえば、機械学習をしたいときに、

  • サーバ準備からGPU設定まで自分でやる
  • 「ボタン一つで学習環境が整う」サービスを使う

この違いが「マネージドかどうか」です。


定義・仕組み

マネージドサービスとは、次のような運用管理をクラウドベンダーが担うサービスです。

  • インフラの構築
  • OSやミドルウェアの管理
  • スケーリング
  • パッチ適用
  • バックアップ

利用者は「アプリケーション開発や分析作業」に集中できます。

例えば次は、いずれも代表的なマネージドサービスです。

  • Amazon SageMaker
  • Google Cloud AI Platform
  • Amazon RDS
  • BigQuery

重要なのは、

  • マネージドサービス:サービスの種類(分類)
  • SageMaker / BigQuery など:具体的な製品名

という切り分けです。


どんな場面で使う?

マネージドサービスに含まれる主な分類

マネージドサービスは広い概念で、次のような種類が含まれます。

  1. データベース系
    • Amazon RDS
    • Google Cloud SQL
    • Azure SQL Database
    • サーバ構築やバックアップを自分でやらなくてよい
  2. データ分析系
    • Amazon Redshift
    • BigQuery
    • Azure Synapse
    • データウェアハウスをクラウド側が管理する
  3. コンテナ・アプリ実行系
    • AWS Fargate
    • Google Cloud Run
    • Azure Container Apps
    • サーバ管理なしでアプリを動かせる
  4. 機械学習系
    • Amazon SageMaker
    • Google Cloud AI Platform
    • Azure Machine Learning
    • 学習・デプロイまでをフルマネージドで提供
  5. ストレージ系
    • Amazon S3
    • Google Cloud Storage
    • Azure Blob Storage
    • ハードディスク管理を自分でしない
  6. 認証・セキュリティ系
    • AWS Cognito
    • Azure Active Directory
    • Firebase Authentication
    • ユーザー管理をクラウドに任せる

共通点は「管理をクラウド側に任せる」ことです。

使う場面

  • 機械学習環境をすぐに立ち上げたい
  • データベースを運用管理なしで使いたい
  • インフラ管理の人員を最小化したい
  • ビジネススピードを重視したい

誤解しやすい場面

IaaS(仮想サーバ貸与)もクラウドですが、次の違いがあります。

  • IaaS:OS管理は利用者が行う
  • マネージドサービス:OS管理もクラウドに任せられる

ここが大きな違いです。


よくある誤解・混同

① マネージドサービス=機械学習サービス?

違います。
機械学習プラットフォームはマネージドサービスの一種です。

マネージドサービスは広い概念で、その中に機械学習基盤やデータベース基盤などが含まれます。

② クラウドサービス=すべてマネージド?

違います。
EC2のような仮想サーバは利用者側で管理が必要なため、完全なマネージドではありません。

③ DS検定のひっかけ

DS検定では、次のような誤答を選ばせる問題が出やすいです。

  • ❌ 例1:ア=データストレージ、イ=Amazon RDS
    → RDSはデータベース製品名であり、「マネージドサービス」という分類ではない。
  • ❌ 例2:ア=分析サービス、イ=BigQuery
    → BigQueryは分析基盤の具体例。分類としてはマネージドサービスの一種。
  • ❌ 例3:ア=クラウドプラットフォーム、イ=AWS Lambda
    → Lambdaはサーバレス実行環境であり、機械学習やデータ基盤全体の分類ではない。
  • ❌ 例4:ア=IaaS
    → IaaSは仮想サーバ貸与モデル。OS管理は利用者が行うため、マネージドとは異なる。

DS検定では「具体例」と「サービス分類」を混同させる出題が多いため、次の基準で判断するのが有効です。

インフラやOSの管理を利用者が行うかどうか


まとめ(試験直前用)

  • マネージドサービスは、インフラやOS運用をクラウドに任せるサービス形態
  • 製品名(SageMaker、BigQueryなど)と分類名(マネージドサービス)を区別する
  • IaaSはクラウドだが、OS管理は利用者側で行う点が異なる
  • DS検定では「具体例」と「分類」の混同を狙った設問に注意する

対応スキル項目(ビジネス力シート)

  • ITシステムの基礎理解
  • クラウドサービスの基礎理解
  • ★ サービス分類と具体的な製品・機能の違いを理解している

マッピング処理とは?データを対応づける基本操作【DS検定】

  • Source: pages\ds\mapping.md
  • Permalink: /ds/mapping/

まず結論

マッピング処理とは、ある値を別の値に対応づけて変換する処理です。

DS検定では、「カテゴリやコードを別の意味のある値に置き換える前処理」として理解できるかが問われます。


直感的な説明

例えば、アンケートデータに次のような値が入っていたとします。

顧客ID 性別

1 1 2 2 3 1

このままだと 「1 = 男性」「2 = 女性」なのかが分かりません。

そこで、

1 → 男性 2 → 女性

という対応ルールを作って変換します。

顧客ID 性別

1 男性 2 女性 3 男性

このように、 ある値を別の値に対応づけて置き換える操作を マッピング処理(mapping)と呼びます。

データ分析では、

コード → 意味のある値

カテゴリ → 数値

数値 → ラベル

などの変換でよく使われます。


定義・仕組み

マッピング処理とは、データの値を別の値に対応づけて変換する処理です。

多くの場合は、対応表(ルール)を使います。

例:

元の値 変換後

A 優良顧客 B 一般顧客 C 要フォロー

このルールを使って、

A → 優良顧客 B → 一般顧客 C → 要フォロー

のように変換します。

データ分析では特に次のような場面で使われます。

コード値 → 説明

カテゴリ → 数値

数値 → ラベル

Pythonのデータ分析では、

map

replace

などの処理としてよく登場します。

つまりマッピング処理は、 データの意味を整理する前処理の一つです。


どんな場面で使う?

① コードデータを意味のある値に変換

例:

商品カテゴリ

101 102 103

商品カテゴリ

食品 日用品 家電


② カテゴリを数値に変換(機械学習前処理)

例:

満足度

高 中 低

高 → 3 中 → 2 低 → 1


③ 数値をラベル化

例:

年齢

0〜19 → 未成年 20〜64 → 現役世代 65〜 → 高齢者

このように、

分析しやすい形にデータを変換する

のがマッピング処理です。


よくある誤解・混同

① エンコード処理との混同

DS検定では次のような混同に注意が必要です。

用語 意味

マッピング 値を別の値に置き換える エンコーディング 機械学習のためにカテゴリを数値化する

つまり、

エンコードはマッピングの一種です。


② データ結合(Join)との混同

選択肢では次のような誤解が出やすいです。

❌ マッピング = テーブルを結合する処理

⭕ マッピング = 値を対応づけて変換する処理

テーブルを結合する処理は JOINです。


③ 集計処理との混同

❌ 値をまとめる処理

⭕ 値を置き換える処理

マッピングは 計算ではなく変換です。


まとめ(試験直前用)

マッピング処理 = 値を別の値に対応づけて変換する処理

コード → 意味のある値に変換するときによく使う

カテゴリ → 数値変換にも使われる

JOIN(結合)や集計処理とは別物

DS検定では、

「値を対応づけて置き換える処理」

と書かれていたら マッピング処理を思い出すと判断しやすくなります。


【対応スキル項目(データサイエンス力シート)】

データ理解・前処理

データ加工

★ データの前処理(欠損値処理、正規化、カテゴリ変数の処理など)を理解している


MapReduceとは?(分散処理の基本モデル)【DS検定リテラシー】

  • Source: pages\ds\mapreduce.md
  • Permalink: /ds/mapreduce/

まず結論

MapReduceとは、大量データを「分けて処理し、あとでまとめる」分散処理の仕組みです。
DS検定では「分散処理の流れを理解しているか」を判断させる問題で問われます。


直感的な説明

1億件のデータを1人で集計するのは大変です。

でも、

  • 100人で分担して集計する
  • 最後に結果を合計する

これなら速いですよね。

MapReduceはこの考え方です。

  • Map:分けて処理する
  • Reduce:まとめる

シンプルですが、ビッグデータ処理の基本モデルです。

DS検定では
「MapとReduceの役割を逆に書いた選択肢」がよく出ます。


定義・仕組み

MapReduceは、Hadoopで使われる分散処理モデルです。

処理の流れは3段階です。

① Map

データを分割し、それぞれのノードで処理する

例: 売上データから「商品ごとの売上」を抽出する


② Shuffle(内部処理)

同じキー(商品名など)をまとめる


③ Reduce

同じキーごとに集計する

例: 商品Aの売上を合計する


ポイントは、

  • 分割して並列処理
  • キー単位でまとめる
  • 最終的に集約する

という流れです。


どんな場面で使う?

使う場面

  • 大量ログの集計
  • Webアクセス数のカウント
  • 売上集計
  • キーワード出現回数のカウント

「集計系処理」と相性が良いです。


向かない場面

  • リアルタイム処理
  • 複雑な反復計算(機械学習の学習処理など)

この点でSparkとの違いが出ます。


よくある誤解・混同

① MapとReduceの役割を逆にする問題

DS検定ではよく、

  • Mapが集計する
  • Reduceが分割する

という誤りを混ぜてきます。

正しくは:

  • Map=分けて処理
  • Reduce=まとめて集計

② Hadoopと同義と思ってしまう

Hadoopは基盤全体。
MapReduceはその中の「処理モデル」。

ここは切り分けておきましょう。


③ Sparkとの混同

Sparkも分散処理基盤ですが、

  • MapReduceはディスク中心
  • Sparkはメモリ中心

という違いがあります。

DS検定では
「高速」「インメモリ」という言葉が出たらSpark寄りです。


まとめ(試験直前用)

  • MapReduceは分散処理モデル
  • Map=分割して処理
  • Reduce=まとめて集計
  • 集計系処理と相性が良い
  • Hadoopは基盤、MapReduceは処理方式

【対応スキル項目(データエンジニアリング力シート)】

  • データ基盤
  • 分散処理基盤
  • ★ 分散処理基盤の基本的な仕組みを理解している
  • ★ 分散処理の基本的な処理モデルを理解している

行列の掛け算とは?(行列同士の掛け算)【DS検定リテラシー】

  • Source: pages\ds\matrix-multiplication.md
  • Permalink: /ds/matrix-multiplication/

まず結論

行列同士の掛け算は、「左の行」と「右の列」を組み合わせて、新しい表を作る計算です。 DS検定では「掛け算できる条件(サイズ)」と「順番で結果が変わる」を判断させたい問題が多いです。

直感的な説明

行列は、業務でいうと「表(テーブル)」です。

  • 左の行列:たとえば「商品ごとの販売数」
  • 右の行列:たとえば「販売数 → 売上」に変換する係数(単価など)

この2つを掛けると、 「販売数の表」を「売上の表」にまとめて変換できます。

ポイントは、ただの足し算や要素ごとの掛け算ではなく、 いくつかの項目を“混ぜて合成する”計算になっていることです。

定義・仕組み

行列A(たて m、よこ n)と、行列B(たて n、よこ p)を掛けると、 結果は「たて m、よこ p」の行列になります。

ここで大事なのは 真ん中の n が一致していることです。

  • Aが「行(m)×列(n)」
  • Bが「行(n)×列(p)」

このとき、結果の各マスは Aの1行と、Bの1列を使って作るイメージです。 (行と列をそれぞれ見比べて、対応する要素同士を掛けて足し合わせる)

DS検定では、次のように問われがちです。

  • 「この2つは掛け算できますか?」(サイズの条件)
  • 「AB と BA は同じですか?」(順番)

どんな場面で使う?

使うべき場面

  • 複数の値をまとめて変換したいとき(例:特徴量の線形変換、回転、スケーリング)
  • いくつかの要因を合成して別の指標を作りたいとき(例:重み付けの合計をまとめて計算)
  • モデルの中身を“表の変換”として理解したいとき(例:線形回帰やニューラルネットの「重み」は行列で持てる)

使うと誤解しやすい場面

  • 「同じ形なら掛け算できる」と思ってしまうとき(実は“内側のサイズ一致”が必要)
  • 「要素ごとの掛け算」と混ぜてしまうとき(Excelの感覚でミスしやすい)

よくある誤解・混同

誤解1:同じサイズの行列なら必ず掛け算できる

  • ❌ たて×よこ が同じでも、掛けられるとは限りません。
  • ⭕ 条件は「左の列数=右の行数」です。
  • 選択肢では「同じサイズだから可能」と書かれていたら注意です。

誤解2:AB と BA は同じ

  • ❌ 多くの場合、AB と BA は一致しません。
  • ⭕ 順番が変わると「合成する順番」が変わるので結果も変わります。
  • DS検定では「順番を入れ替えて同じになる」と誤認させてきます。

誤解3:行列の掛け算=要素ごとの掛け算

  • ❌ 行列の掛け算は、同じ場所の要素を掛ける計算ではありません。
  • ⭕ 「行×列」で作る合成の計算です。
  • 「要素ごとの掛け算」は別物(実装でも別演算)なので混同注意です。

まとめ(試験直前用)

  • 掛け算できる条件は「左の列数=右の行数」
  • 結果のサイズは「左の行数 × 右の列数」
  • AB と BA は基本的に別物(順番が大事)
  • “要素ごとの掛け算”と混同する選択肢に注意

【対応スキル項目(データサイエンス力シート)】

  • 数学的理解
  • 線形代数基礎
  • ★ 行列同士、および行列とベクトルの計算方法を正しく理解し、複数の線形式を行列の積で表現できる

MECEとは?モレなくダブりなく整理する思考法【DS検定リテラシー】

  • Source: pages\ds\mece.md
  • Permalink: /ds/mece/

まず結論

MECE(ミーシー)とは、「モレなく・ダブりなく」物事を整理する考え方です。
DS検定では、分類や問題設定が論理的に整理されているかを判断できるかが問われます。


直感的な説明

たとえば「売上が下がった理由」を考えるとします。

  • 天気が悪かった
  • 競合が増えた
  • 商品が売れなくなった

こう並べると、一見それっぽいですが、

  • 「競合が増えた」と「商品が売れなくなった」は関係していない?
  • 他に理由はない?

といった疑問が出てきます。

MECEとは、

  • 抜けている原因はないか(モレ)
  • 同じ意味のものを二重に数えていないか(ダブり)

をチェックする思考法です。

データ分析では、
問題の切り分けが甘いと、分析そのものがズレます。

だからMECEが重要なのです。


定義・仕組み

MECEは次の2つの条件を満たすことです。

  1. Mutually Exclusive(互いに重ならない)
    → 分類が重複していない

  2. Collectively Exhaustive(全体を網羅している)
    → 全体を漏れなくカバーしている

たとえば「顧客を年齢で分類する」場合:

  • 20歳未満
  • 20歳以上

これはモレがなく、ダブりもありません。

一方で、

  • 若者
  • 中年
  • 高齢者

のように曖昧に分けると、
「何歳から中年?」という重なりやモレが発生します。

DS検定では、
分類軸が論理的に成立しているかを見抜けるかがポイントです。


どんな場面で使う?

✔ 使う場面

  • ビジネス課題の要因分解
  • データのカテゴリ設計
  • 仮説の整理
  • KPIの分解

例: 売上 = 客数 × 客単価
→ これはMECEに分解されています。


⚠ 使うと誤解しやすい場面

「とりあえず項目をたくさん出せばMECE」ではありません。

量ではなく、

  • 論理的に重なっていないか
  • 全体を説明できているか

が重要です。


よくある誤解・混同

❌ MECE=きれいに並べること

→ 見た目が整っていても、論理が重なっていればMECEではありません。


❌ MECE=正しい答えを出すこと

→ MECEは「整理の方法」です。
正解を保証するものではありません。


DS検定でのひっかけ

DS検定では、

  • 分類が一部重なっている選択肢
  • 抜けがある選択肢
  • 抽象度がバラバラな選択肢

が出ます。

選択肢では
「論理的に整理されている」
と書かれていたら、

  • 本当にモレはないか?
  • ダブりはないか?

と疑うことが重要です。


まとめ(試験直前用)

  • MECE=モレなく・ダブりなく整理すること
  • 重なりがあればアウト
  • 全体をカバーしていなければアウト
  • 見た目ではなく「論理構造」を確認する
  • DS検定では分類の妥当性を問われる

対応スキル項目

【対応スキル項目(ビジネス力シート)】

  • 論理的思考
  • MECE
  • ★ データや事象の重複に気づくことができる

メタ認知思考とは?自分の思考を客観視する力【DS検定】

  • Source: pages\ds\metacognition.md
  • Permalink: /ds/metacognition/

まず結論

  • メタ認知思考とは「自分の考え方や判断を客観的に見直す思考方法」です。
  • DS検定では、分析結果をそのまま信じるのではなく
    「本当に正しいのか?」と自分の思考をチェックする姿勢が重要になります。

直感的な説明

例えば、データ分析をして次の結果が出たとします。

「広告を出したら売上が上がった」

ここでそのまま結論を出すのではなく、

  • 本当に広告の効果?
  • 季節要因ではない?
  • 他のキャンペーンの影響では?

自分の考えを一段上から見直すのがメタ認知です。

つまり、

「考えている自分を観察する思考」

とも言えます。

データサイエンスでは、この姿勢が非常に重要です。


定義・仕組み

メタ認知(Metacognition)は心理学の概念で、

「自分の認知活動を認知すること」

を意味します。

簡単に言うと

レベル 内容
認知 データを見る・分析する
メタ認知 自分の分析が正しいか考える

例えば分析の場面では、

  • 自分は思い込みで解釈していないか
  • データの前提は正しいか
  • 他の解釈はないか

といった 自己チェックを行います。

この考え方は

  • 仮説検証
  • データ解釈
  • 意思決定

のすべてで重要になります。


どんな場面で使う?

① データ分析の解釈

分析結果を見たとき

  • 本当に因果関係?
  • ただの相関では?

と考える。


② 仮説検証

仮説を検証するとき

  • 自分は仮説に都合の良いデータだけ見ていないか
  • 見落としている要因はないか

をチェックする。


③ ビジネス意思決定

データドリブン経営では

  • データの読み違い
  • バイアス

を防ぐためにメタ認知が重要になります。


よくある誤解・混同

① メタ認知=難しい思考ではない

違います。

メタ認知は単純に

「一度立ち止まって自分の考えを疑うこと」

です。


② データがあれば間違えない

これは大きな誤解です。

データ分析でも

  • 解釈ミス
  • 思い込み
  • 確証バイアス

が起きます。

そのため

分析者自身の思考をチェックすること

が重要になります。


③ AIや分析ツールがあれば不要

これも誤解です。

AIの結果も

  • 学習データ
  • モデルの前提
  • バイアス

の影響を受けます。

そのため

結果をそのまま信じない姿勢

が必要です。


まとめ(試験直前用)

  • メタ認知 = 自分の思考を客観的に見直すこと
  • データ分析では 思い込みやバイアスを防ぐ役割がある
  • 「この解釈は本当に正しいか?」と考える姿勢が重要
  • DS検定では 分析結果の解釈や判断の質に関係する概念

覚え方:

メタ認知 = 「考えている自分をもう一人の自分がチェックする」


多要素認証(MFA)とは?仕組みと必要性を整理【DS検定リテラシー】

  • Source: pages\ds\mfa.md
  • Permalink: /ds/mfa/

まず結論

多要素認証(MFA:Multi-Factor Authentication)とは、
異なる種類の認証要素を2つ以上組み合わせて本人確認を行う仕組みです。

DS検定では、「パスワードだけの認証」との違いや、
「認証強化の考え方」を理解しているかが問われます。


直感的な説明

銀行ATMを思い出してください。

  • キャッシュカード(持っているもの)
  • 暗証番号(知っているもの)

この2つを使っています。

これが多要素認証の考え方です。

1つ破られても、もう1つで守る

セキュリティを「重ねる」仕組みです。


定義・仕組み

認証要素は大きく3種類あります。

① 知識要素(知っているもの)

  • パスワード
  • PINコード

② 所持要素(持っているもの)

  • スマートフォン
  • ワンタイムパスワードトークン
  • ICカード

③ 生体要素(本人そのもの)

  • 指紋
  • 顔認証
  • 虹彩認証

多要素認証とは、
これら異なるカテゴリを2つ以上組み合わせることです。

重要ポイント:

同じカテゴリを2つ使ってもMFAではない

例:

  • パスワード+秘密の質問 → 両方「知識要素」なので厳密にはMFAではない

DS検定ではここが狙われます。


どんな場面で使う?

ビジネス現場

  • クラウドサービスログイン
  • 社内システム管理者アカウント
  • 金融・医療データアクセス

データサイエンス業務との関係

  • 顧客データ保護
  • 個人情報管理
  • モデル学習用データへのアクセス制御

セキュリティ事故は企業の信用問題に直結します。


よくある誤解・混同

① 2回ログインすればMFAだと思う

同じ種類の要素を2回使っても意味はありません。

DS検定では、 「パスワードと秘密の質問で多要素認証である」 と書かれていたら注意です。


② 二段階認証=常にMFA?

二段階認証でも、 同じカテゴリなら厳密には多要素とは言えません。


③ OAuthと混同

OAuthは「認可」の仕組み。
MFAは「認証の強化」の仕組み。

役割がまったく違います。


まとめ(試験直前用)

  • MFA=異なる種類の認証要素を2つ以上
  • 「知識」「所持」「生体」の組み合わせ
  • 同じカテゴリ2つはNG
  • OAuthとは別物(認可ではなく認証強化)

迷ったら、

「これは別カテゴリか?」

で判断してください。


【対応スキル項目(AI利活用スキルシート)】

  • AI利活用基礎
  • AIを活用するための技術理解
  • ★ AIを活用したサービスの仕組みやリスクを理解している
  • ★ データの取り扱いに関するセキュリティや倫理的配慮の重要性を理解している

欠損値の処理方法とは?代表的な手法と使い分け【DS検定】

  • Source: pages\ds\missing-value-handling.md
  • Permalink: /ds/missing-value-handling/

まず結論

  • 欠損値の処理とは、データに存在する「値が記録されていない部分」を適切な方法で扱う前処理のことです。
  • DS検定では「削除するのか」「補完するのか」「どの方法を使うのか」という状況に応じた判断が問われます。

直感的な説明

データ分析では、次のようなデータがよくあります。

顧客ID 年齢 年収
A 25 300
B 32 空欄
C 空欄 450

このような 空欄(欠損値) があると、

  • 平均が計算できない
  • 機械学習モデルが動かない

といった問題が発生します。

そこで分析では、

  • そのデータを削除する
  • 代表値で補う
  • 予測で補う

などの方法で欠損値を処理してから分析を行います。

DS検定では
「欠損値がある場合、どの処理が適切か」
という判断を問われることがあります。


定義・仕組み

欠損値(Missing Value)とは、

本来存在するはずのデータが記録されていない状態です。

例えば次のような理由で発生します。

  • アンケート未回答
  • センサーの測定失敗
  • データ入力ミス
  • システムエラー

欠損値の処理方法は大きく 3つの考え方に分かれます。

① 削除する(Deletion)

欠損を含むデータを削除します。

代表例

  • 行削除(listwise deletion)
  • 列削除

特徴

  • シンプルで分かりやすい
  • ただし データ量が減る

② 代表値で補完する(Imputation)

欠損値を 代表的な値で埋める方法です。

よく使われる代表値

方法 内容
平均値補完 平均値で埋める
中央値補完 中央値で埋める
最頻値補完 最も多い値で埋める

特徴

  • 実装が簡単
  • ただし データのばらつきが小さくなる

③ 推定して補完する

データから 欠損値を予測して埋める方法です。

代表例

  • 回帰補完
  • k近傍法(KNN補完)
  • 機械学習モデル

特徴

  • 精度は高くなる可能性
  • ただし 処理が複雑

DS検定での重要ポイント

DS検定では

  • 欠損値をそのまま分析に使うのは基本NG
  • 何らかの処理を行う必要がある

という点が重要です。


どんな場面で使う?

よくあるデータ分析

例えば

  • 顧客データ分析
  • 売上データ分析
  • アンケート分析

などでは欠損が頻繁に発生します。

年齢 年収
25 300
30 350
欠損 420

この場合

  • 年齢が重要なら 中央値補完
  • 欠損が少なければ 削除

などの判断を行います。


センサーデータ

例えば機械の故障検知では

  • センサー通信エラー
  • 一時的な測定失敗

などで欠損が発生します。

この場合

  • 前後の値で補完
  • 時系列補完

などが使われます。

DS検定では
「状況によって処理方法を選ぶ」ことが重要です。


よくある誤解・混同

誤解①

欠損値はとりあえず平均で埋めればよい

これは誤りです。

平均補完は

  • 分布を歪める
  • 分散を小さくする

可能性があります。


誤解②

欠損値は必ず削除する

これも誤りです。

削除すると

  • データ数が大きく減る
  • バイアスが生まれる

可能性があります。


DS検定の典型的なひっかけ

選択肢でよくあるパターン

❌ 欠損値は分析前に必ず削除する
⭕ 欠損の状況に応じて 削除または補完を選択する

また、

❌ 平均補完はデータ分布を維持する
⭕ 平均補完は 分散を小さくする

という問題もよく出ます。


まとめ(試験直前用)

  • 欠損値とは データが記録されていない状態
  • 主な処理方法は
    ①削除 ②代表値補完 ③推定補完
  • 平均補完は 分散を小さくする
  • DS検定では
    状況に応じた処理方法の選択が重要

対応スキル項目

【対応スキル項目(データサイエンス力シート)】

  • データ理解・前処理
  • データ前処理

★ データの欠損値・外れ値を適切に処理できる


機械学習で解決する代表的なタスクとは?(分類・予測・クラスタリング・異常検知・時系列予測・レコメンド)【DS検定】

  • Source: pages\ds\ml-tasks.md
  • Permalink: /ds/ml-tasks/

まず結論

機械学習で解決する代表的なタスクとは、 データからパターンを学習して問題を解決する処理の種類のことです。

DS検定では特に次のタスクがよく登場します。

分類(Classification)

予測(回帰:Regression)

クラスタリング(Clustering)

異常検知(Anomaly Detection)

時系列予測(Time Series Forecasting)

レコメンド(Recommendation)

DS検定では 「この問題はどのタスクに当たるか?」 を判断させる問題がよく出ます。


直感的な説明

機械学習は簡単に言うと

「データからパターンを学んで判断する仕組み」

です。

企業では次のような目的で使われます。

やりたいこと 機械学習タスク

メールが迷惑メールか判定 分類 売上を予測 回帰 顧客を似たグループに分ける クラスタリング 不正アクセスを見つける 異常検知 将来の需要を予測 時系列予測 商品のおすすめを提示 レコメンド

つまり

「何を判断したいのか」

によってタスクが決まります。


定義・仕組み

分類(Classification)

データを決められたカテゴリに分類するタスクです。

メール → スパム / 通常

画像 → 犬 / 猫

顧客 → 購入する / しない

特徴

出力は カテゴリ

教師あり学習


予測(回帰:Regression)

数値を予測するタスクです。

売上予測

気温予測

来客数予測

特徴

出力は 数値

連続値を扱う

DS検定では

分類(カテゴリ) vs 回帰(数値)

を区別する問題がよく出ます。


クラスタリング(Clustering)

似ているデータを自動でグループ化するタスクです。

顧客の購買傾向からグループ化

商品の特徴から分類

特徴

正解ラベルなし

教師なし学習


異常検知(Anomaly Detection)

通常とは異なるデータを検出するタスクです。

不正クレジットカード利用

サイバー攻撃

設備故障

特徴

正常データとの違いを検出


時系列予測(Time Series Forecasting)

時間の流れを考慮して未来を予測するタスクです。

売上予測

電力需要予測

株価予測

特徴

データに時間順序がある


レコメンド(Recommendation)

ユーザーに合った商品やコンテンツを推薦するタスクです。

ECサイトの商品おすすめ

動画配信サービス

音楽配信サービス


どんな場面で使う?

タスク 活用例

分類 スパム判定、画像認識 回帰 売上予測 クラスタリング 顧客セグメント 異常検知 不正検知 時系列予測 需要予測 レコメンド 商品推薦


機械学習タスクの全体像

機械学習 │ ├─ 教師あり学習 │ ├─ 分類 │ ├─ 回帰 │ └─ 時系列予測 │ └─ 教師なし学習 ├─ クラスタリング └─ 異常検知

(レコメンドは両方の手法が使われる)


よくある誤解・混同

分類 vs クラスタリング

分類 クラスタリング

正解ラベルあり 正解ラベルなし 教師あり学習 教師なし学習


回帰 vs 時系列予測

回帰 時系列

数値予測 時間データ 時間順序なし 時間順序あり


分類・回帰・クラスタリングの一発判定

正解ラベルはあるか?

YES │


MLOpsとは?AIOpsとの違いを一発整理【DS検定リテラシー】

  • Source: pages\ds\mlops.md
  • Permalink: /ds/mlops/

まず結論

  • MLOpsとは、機械学習モデルを継続的に運用・改善するための仕組みです。
  • DS検定では「何を運用しているのか」を判断できるかが問われます。

特に、AIOpsと混同させる問題が出やすいので注意が必要です。


直感的な説明

機械学習は「モデルを作って終わり」ではありません。

  • データが変わる
  • 精度が下がる
  • 再学習が必要になる
  • 本番環境に安全に反映する必要がある

これらを仕組みとして回すのが MLOps です。

たとえるなら、

「モデルを育て続けるための運用ルール」

がMLOpsです。


定義・仕組み

MLOps(Machine Learning Operations)は、

  • データの管理
  • モデルの学習
  • モデルの評価
  • 本番環境へのデプロイ
  • モデルの監視
  • 再学習

といった一連の流れを継続的に管理する仕組みです。

ポイントは、

  • 対象は「機械学習モデル」
  • 目的は「安定運用と継続改善」

であることです。

DS検定では、

  • 継続的インテグレーション(CI)
  • 継続的デリバリー(CD)
  • モデルのバージョン管理

といったキーワードが出たら、MLOpsの文脈である可能性が高いです。


どんな場面で使う?

使う場面

  • AIを本番サービスに組み込む場合
  • モデルを定期的に再学習する場合
  • 精度劣化を監視する必要がある場合

使わない場面

  • 単発の分析レポート作成
  • 実験的なモデル検証だけ

ここが重要です。

MLOpsは「継続運用」が前提
単発分析はMLOpsではない

この違いを覚えておくと、選択肢が切れます。


よくある誤解・混同

❌ MLOps=AIを使った運用自動化

これはAIOpsです。

用語 何を運用する?
MLOps 機械学習モデル
AIOps ITシステム

DS検定では、

  • 「ログの異常検知」
    → AIOps

  • 「モデルの再学習パイプライン」
    → MLOps

といった形で出題されます。


❌ モデル監視=AIOps

モデルの精度低下監視はMLOpsです。

AIOpsは「システムの異常監視」です。

ここを混同させる選択肢は非常に典型的です。


まとめ(試験直前用)

  • MLOpsは「モデルの運用管理」
  • 継続的改善・再学習がキーワード
  • 運用対象がモデルならMLOps
  • 運用対象がIT基盤ならAIOps

迷ったら、

「何を運用しているのか」で判断する

これがDS検定での切り分け基準です。


【対応スキル項目(AI利活用スキルシート)】

  • AIの利活用
  • AI導入・運用
  • ★ AIを活用した業務改善・効率化の事例を理解している
  • ★ AI導入における運用上の課題を理解している

形態素解析と係り受け解析とは?(自然言語処理の基本)【DS検定】

  • Source: pages\ds\morphological-dependency-parsing.md
  • Permalink: /ds/morphological-dependency-parsing/

まず結論

形態素解析は文章を意味のある最小単位(形態素)に分解する処理、 係り受け解析は文章中の単語や文節が「どこと関係しているか」を解析する処理です。

DS検定では

形態素解析 → 単語分割

係り受け解析 → 文の構造理解

という役割の違いを理解しているかが問われることが多いです。


直感的な説明

自然言語処理では、文章をそのまま機械が理解することはできません。 そのため、まず文章を分解し、次に構造を理解します。

例えば次の文章です。

私は昨日ラーメンを食べた。

①形態素解析(単語に分ける)

文章を意味のある最小単位に分解します。

単語 品詞

私 名詞 は 助詞 昨日 名詞 ラーメン 名詞 を 助詞 食べ 動詞 た 助動詞

つまり

文章 → 単語の列

に変換する処理です。


②係り受け解析(関係を理解する)

次に、単語や文節の関係を分析します。

私は → 食べた 昨日 → 食べた ラーメンを → 食べた

つまり

どの言葉がどの言葉を説明しているか

を解析します。

イメージ

文章

形態素解析(単語に分割)

係り受け解析(文構造を理解)


定義・仕組み

形態素解析(Morphological Analysis)

文章を

意味を持つ最小単位(形態素)

に分解し、

品詞

原形

活用

などを判定する処理です。

日本語は英語と違い

単語の間にスペースがありません。

これは美味しいです。

形態素解析

形態素 品詞

これ 名詞 は 助詞 美味しい 形容詞 です 助動詞 。 記号

この結果は

テキストマイニング

文書分類

感情分析

検索

などの前処理として利用されます。


形態素解析から機械学習への流れ

DS検定では次の流れもよく問われます。

文章

形態素解析

単語リスト

ベクトル化(Bag of Wordsなど)

機械学習

つまり

文章 → 数値データ

に変換する最初の処理が

形態素解析です。


係り受け解析(Dependency Parsing)

係り受け解析は

文節同士の関係(依存関係)

を解析する処理です。

太郎は花子に本を渡した

係り受け

太郎は → 渡した 花子に → 渡した 本を → 渡した

このように

主語

目的語

修飾語

などの関係を理解できます。


どんな場面で使う?

形態素解析が使われる場面

テキストマイニング

文書分類

感情分析

検索エンジン

SNS分析

多くの場合

自然言語処理の最初のステップ

として使われます。


係り受け解析が使われる場面

文の意味理解

機械翻訳

情報抽出

質問応答システム

要約

文章の意味をより深く理解する必要がある場合に使われます。


代表的なツールと特徴

DS検定では

形態素解析ツールや係り受け解析ツールの名前

が問われることがあります。

形態素解析ツール

ツール 特徴

MeCab 最も有名。高速で多くのシステムで使用される Janome Pythonで使いやすい JUMAN 京都大学開発。精度重視

ポイント

DS検定では

MeCabが代表例として出題されやすいです。


係り受け解析ツール

ツール 特徴

KNP 京都大学開発の高精度解析 CaboCha 日本語係り受け解析で広く利用

係り受け解析は

形態素解析

文節解析

の結果を使って行われることが多いです。


よくある誤解・混同

誤解①

形態素解析=文章理解

これは誤りです。

形態素解析は

単語に分けるだけ

です。

文章の構造理解は

係り受け解析

が担当します。

DS検定では

「文章の意味を理解する処理」

と書かれていたら

係り受け解析を選びます。


誤解②

形態素解析と係り受け解析は同じ処理

これは誤りです。

処理 役割

形態素解析 単語に分解 係り受け解析 文構造理解

DS検定では

この違いを問う問題が非常に多いです。


誤解③

英語と同じ処理でよい

英語

I eat ramen

日本語

私はラーメンを食べた

日本語はスペースがないため

形態素解析が特に重要になります。


まとめ(試験直前用)

形態素解析 → 文章を意味のある最小単位に分解する

係り受け解析 → 文節同士の関係を解析する

覚え方

形態素解析 → 単語分割

係り受け解析 → 文構造解析

DS検定では

形態素解析と係り受け解析の役割の違い

を理解していれば選択肢を切れます。


【対応スキル項目(AI利活用スキルシート)】

スキルカテゴリ名 AIによるデータ活用

サブカテゴリ名 自然言語処理

★ 形態素解析や係り受け解析の概念を説明できる


自然言語処理におけるクリーニングとは?(前処理の基本)【DS検定】

  • Source: pages\ds\nlp-cleaning.md
  • Permalink: /ds/nlp-cleaning/

まず結論

自然言語処理におけるクリーニングとは、テキストから不要な情報を取り除き、モデルが扱いやすい形に整える前処理のことです。
DS検定では「どの処理が前処理にあたるか」を判断させる問題として問われることが多いです。


直感的な説明

たとえば、アンケートの自由記述を分析するとします。

  • 絵文字😊
  • URL
  • 不要な記号
  • 全角・半角のゆれ

これらがそのままだと、同じ意味の言葉でも別物として扱われてしまいます。

クリーニングは、
「読む前にノイズを取り除く作業」です。

ビジネスの現場では、
顧客の声分析やSNS分析などで必ず行われる重要な工程です。


定義・仕組み

クリーニングとは、

テキストデータから分析に不要な情報を除去し、形式を整える処理

を指します。

具体例:

  • 記号・HTMLタグの除去
  • 大文字・小文字の統一
  • 全角・半角の統一
  • 不要な空白の削除
  • ストップワードの除去

ポイントは、

「意味を持たないノイズを減らす」こと

です。

DS検定では、
「不要情報の除去=クリーニング」
と判断できるかが問われます。


どんな場面で使う?

使う場面

  • 感情分析
  • 文書分類
  • トピック分析
  • チャットログ分析

モデルに入力する前は、ほぼ必ず実施します。

誤解しやすい場面

  • 単語に分割する処理(トークン化)
  • 数値ベクトルに変換する処理(ベクトル化)
  • 形態素解析

これらは「クリーニング後」に行われる工程です。


よくある誤解・混同

① トークン化との混同

選択肢では
「単語に分割する処理」と書かれていたら注意。

それはトークン化であり、
クリーニングではありません。


② ベクトル化との混同

「数値表現に変換する」と書かれていたら、
それはベクトル化です。

クリーニングはまだ数値にしません。


③ 形態素解析との混同

「品詞を付与する」と書かれていたら、
それは形態素解析です。

DS検定では

  • 不要情報の除去 → クリーニング
  • 単語分割 → トークン化
  • 数値変換 → ベクトル化

この流れを整理できているかを問われます。


まとめ(試験直前用)

  • クリーニング=不要情報の除去
  • 前処理段階で行う
  • 単語分割ではない
  • 数値変換でもない
  • 「ノイズを減らす」が判断基準

DS検定では
「これは除去か? 分割か? 数値化か?」
と自問すれば正解に近づきます。


【対応スキル項目(AI利活用スキルシート)】

  • AIの基礎理解
  • 自然言語処理の基礎
  • ★ 自然言語処理の基本的な処理の流れを理解している

NLTKとは?自然言語処理ライブラリの役割を整理【DS検定】

  • Source: pages\ds\nltk.md
  • Permalink: /ds/nltk/

まず結論

NLTKとは、自然言語処理(NLP)を学習・実装するためのPythonライブラリです。

DS検定では、「NLTKは日本語の形態素解析ツールではない」という切り分けができるかが問われます。


直感的な説明

NLTKは、

文章をコンピュータで扱うための道具箱

のようなものです。

例えば英語の文章であれば、

  • 単語に分ける
  • 品詞を判定する
  • 頻出単語を調べる
  • 文の構造を分析する

といった処理を行えます。

ただし重要なのは、

主に英語向けの学習用ライブラリ

という点です。

DS検定では、
「日本語の形態素解析ができるか?」という問いに対して、
NLTKを選んでしまうミスがよくあります。


定義・仕組み

■ 定義

NLTK(Natural Language Toolkit)は、

自然言語処理を学習・研究するためのPythonライブラリ

です。

大学の授業や教材でよく使われます。

■ できること

  • トークン化(単語分割)
  • 品詞タグ付け
  • 構文解析
  • 単語頻度分析
  • コーパスの利用

■ 位置づけ

自然言語処理の流れでいうと、

  1. 前処理(単語分割など)
  2. 特徴量作成
  3. モデル学習

の「前処理〜分析」部分をサポートするツールです。

ただし、

  • 日本語特化ではない
  • 産業用途より教育用途が中心

という特徴があります。


どんな場面で使う?

■ 使う場面

  • 自然言語処理の学習
  • 英語テキストの分析
  • 研究用途

例えば、英語レビューの頻出単語分析などで使われます。

■ 使うと誤解しやすい場面

NLTKを「日本語形態素解析ツール」と思うのは誤りです。

日本語で単語分割を行うなら、

  • MeCab
  • Sudachi
  • Janome

などが代表的です。


よくある誤解・混同

❌ NLTKは日本語の形態素解析ツールである

→ 主に英語向けライブラリ

❌ NLTKは機械学習フレームワークである

→ それはTensorFlowやPyTorch

❌ NLTKは係り受け解析専用ツールである

→ それはCaboChaなど

DS検定では、

「日本語の形態素解析を行うことができるものはどれか」

と問われることが多いです。

選択肢にNLTKがあった場合、

日本語特化か?英語中心か?

で判断します。


まとめ(試験直前用)

  • NLTKは自然言語処理用Pythonライブラリ
  • 主に英語向け
  • 日本語形態素解析ツールではない
  • 機械学習フレームワークでもない
  • 「対象言語は何か?」で切り分ける

DS検定では
ツールの役割と対象を区別できるか が重要です。


【対応スキル項目(AI利活用スキルシート)】

  • AIの基礎理解
  • 自然言語処理の基礎
  • ★ 自然言語処理の基本的な流れを理解している
  • ★ テキストデータの前処理の概要を理解している

標準正規分布と正規分布の違いとは?【DS検定リテラシー】

  • Source: pages\ds\normal-and-standard-normal.md
  • Permalink: /ds/normal-and-standard-normal/

まず結論

  • 正規分布は「平均を中心に左右対称に広がる山型の分布」
  • 標準正規分布は「平均0・分散1にそろえた特別な正規分布」
  • Zは標準化された確率変数であり、確率を求めるための共通スケール

DS検定では
👉 正規分布の性質
👉 標準化(Z変換)の意味
👉 Zを使う理由

を理解しているかが問われます。


直感的な説明

正規分布とは?

身長やテストの点数のように、

  • 真ん中が多い
  • 両端が少ない

という山型の分布です。

中心が「平均」です。


標準正規分布とは?

たとえば、

  • 平均170cmの身長
  • 平均65点のテスト

単位が違うと比較できません。

そこで、

👉 「平均との差が何個分の標準偏差か?」

に変換します。

その結果できるのが
標準正規分布(Zの世界)です。


定義・仕組み

① 正規分布の公式

正規分布は、次の式で表されます。

\[f(x)=\frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\]

意味だけ押さえましょう。

  • μ(ミュー)=平均
  • σ(シグマ)=標準偏差
  • xが平均から離れるほど確率は小さくなる

式の形は覚えなくてよいですが、

👉 平均と分散で形が決まる

ことが重要です。


② 標準正規分布

標準正規分布は

  • 平均 = 0
  • 分散 = 1

の正規分布です。

式の形は同じですが、μ=0、σ=1になります。


③ 確率変数Zの公式(標準化)

標準化は次の式です。

\[Z=\frac{X-\mu}{\sigma}\]

意味は:

  • X = 元の値
  • μ = 平均
  • σ = 標準偏差
  • Z = 「平均から何σ離れているか」

つまり、

👉 単位を消して共通スケールに変換する操作

これがZです。


どんな場面で使う?

① 確率を求めるとき

例: 「180cm以上の人はどれくらいか?」

  1. Zに変換
  2. 標準正規分布表を見る

この流れになります。

DS検定ではこの考え方が問われます。


② 異常値の判断

  • Z > 2 → やや珍しい
  • Z > 3 → かなり珍しい

品質管理や異常検知で使います。


③ 異なる指標の比較

テスト点数と売上のように
単位が違うデータでも比較できます。


よくある誤解・混同

❌ 正規分布は平均0である

→ それは標準正規分布だけ。


❌ 標準正規分布は別物

→ 正規分布の特殊ケース。


❌ Zは確率そのもの

→ Zは位置(標準化された値)。
確率はZから求める。


DS検定の典型ひっかけ

選択肢で:

  • 「正規分布は平均0である」→ ×
  • 「標準正規分布は任意の平均をとる」→ ×
  • 「Zは確率である」→ ×

と切れるようにしておきましょう。


まとめ(試験直前用)

  • 正規分布は平均μ・標準偏差σで決まる
  • 標準正規分布は μ=0、σ=1
  • Z = (X−μ)/σ で標準化する
  • Zは確率ではなく「位置」
  • DS検定では「なぜ標準化するか」を問われる

【対応スキル項目(データサイエンス力シート)】

  • 数理・統計基礎力
  • 確率・統計の基礎理解
  • ★ 正規分布などの代表的な確率分布の特徴を理解している

第2正規化と第3正規化の違いを整理(候補キーから考える)【DS検定】

  • Source: pages\ds\normalization-2nf-3nf.md
  • Permalink: /ds/normalization-2nf-3nf/

まず結論

第2正規化は「キーの一部にだけ依存している列がないか」を確認するもの、第3正規化は「非キー属性が非キー属性を決めていないか」を確認するものです。
DS検定では「どの依存関係がどの正規形違反か」を判断できるかが問われます。


直感的な説明

正規化は「データの重複や矛盾を防ぐ整理ルール」です。

イメージとしては、

  • 第2正規化:
    「セット販売なのに、片方だけで決まる情報が混ざっていないか?」

  • 第3正規化:
    「担当者を通して間接的に決まる情報が、同じ表に入っていないか?」

というチェックです。

たとえば、

学生ID 科目ID 学生名 点数

この表は「学生 × 科目」の成績を表しています。

しかし、

  • 学生ID → 学生名

が成り立つなら、
「学生名」は学生だけで決まる情報です。

このとき、
キーの一部(学生ID)だけで決まる列があるため、第2正規化違反になります。


定義・仕組み

まず候補キーを決める

正規化は、まず候補キーを決めないと始まりません。

候補キーとは:

その表の1行を一意に決められる最小の属性(またはその組)

例:

学生ID 科目ID 点数

この表が「学生 × 科目」の成績なら、

  • 学生IDだけでは1行は決まらない
  • 科目IDだけでも決まらない
  • 学生IDと科目IDの組なら決まる

よって候補キーは:

(学生ID, 科目ID)
= 複合候補キー


第2正規化(2NF)

条件:

  1. 第1正規形である
  2. キーの一部にのみ依存する属性がない

つまり、

キーの一部 → 非キー属性

があると2NF違反です。

例:

学生ID 科目ID 学生名 点数
  • 候補キー: (学生ID, 科目ID)
  • 学生ID → 学生名

これは「キーの一部依存」
→ 2NF違反


第3正規化(3NF)

条件:

  1. 第2正規形である
  2. 非キー属性が非キー属性を決めていない

つまり、

非キー → 非キー

があると3NF違反です。

例:

学生ID 学部ID 学部名
  • 学生IDがキー
  • 学部ID → 学部名

ここで、

  • 学部IDは非キー
  • 学部名も非キー

非キー → 非キー
→ 3NF違反(推移的従属)


どんな場面で使う?

  • データベース設計
  • マスターデータの整理
  • BIやデータ分析基盤の構築
  • 重複データによる更新ミスの防止

DS検定では、

  • 「この表は第2正規形か?」
  • 「どの依存関係が問題か?」

と問われることが多いです。

計算は出ません。

判断問題です。


よくある誤解・混同

① 候補キーと複合キーの混同

  • 候補キー = 1行を決められるもの
  • 複合キー = 複数列で構成されたキー

「複合キー=候補キー」ではありません。
複合キーは候補キーの一種です。


② 2NFと3NFを同時に考えてしまう

正しい順番は:

  1. 候補キーを決める
  2. 部分関数従属(2NF)を見る
  3. 推移的従属(3NF)を見る

DS検定では
「いきなり3NFの話をしている選択肢」は要注意です。


③ 列が2つあるから複合キーだと思ってしまう

誤りです。

「1行を決めるのに2つ必要なとき」に複合キーになります。


まとめ(試験直前用)

  • 候補キー=1行を一意に決める最小属性
  • 2NF=キーの一部依存を禁止
  • 3NF=非キー→非キーを禁止
  • 正規化は必ず「キー決定→2NF→3NF」の順
  • DS検定では依存関係の種類を見抜けるかがポイント

対応スキル項目(データエンジニアリング力シート)

  • データベース
  • データベース設計
  • ★ データの正規化の目的と方法を理解している

NoSQLデータストアとは?RDBとの違いと使いどころを整理【DS検定】

  • Source: pages\ds\nosql-datastore.md
  • Permalink: /ds/nosql-datastore/

まず結論

NoSQLデータストア(NoSQL Database)とは、従来のリレーショナルデータベース(RDB)とは異なる仕組みでデータを保存・管理するデータベースの総称です。

DS検定では
「RDBとの違い」「スケーラビリティ」「非構造データへの対応」を理解しているかがよく問われます。

特に試験では

  • NoSQLはSQLが使えない
  • NoSQLはRDBの完全な代替

のような極端な選択肢がひっかけとして出ます。


直感的な説明

RDB(リレーショナルデータベース)は
Excelの表のようなデータ管理です。

顧客ID 名前 年齢
001 山田 35
002 鈴木 29

このように
列構造が決まっています。

しかし最近のデータは

  • SNS投稿
  • Webログ
  • IoTデータ
  • 画像・動画

など

  • データ量が巨大
  • データ構造が一定でない

という特徴があります。

このようなデータを扱うために使われるのが
NoSQLデータストアです。


定義・仕組み

NoSQL(Not Only SQL)とは

RDB以外の方式でデータを管理するデータベースの総称です。

主な特徴

  • SQL以外の方法(APIなど)で操作する
  • テーブル構造に固定されない
  • スケーラビリティ(拡張性)が高い
  • 分散処理に強い
  • 低レイテンシ処理に強い

重要なのは

スケーラビリティ

です。

RDB
→ サーバー性能を上げる(スケールアップ)

NoSQL
→ サーバーを増やして処理(スケールアウト)

という設計思想になっています。


NoSQLの4つの種類(DS検定頻出)

NoSQLは大きく次の4種類に分類されます。

種類 特徴 代表例
キーバリュー型 keyとvalueのペアで保存 Redis、DynamoDB
ドキュメント型 JSONなどの文書形式で保存 MongoDB、CouchDB
カラム指向型 列単位でデータを管理 HBase、Cassandra
グラフ型 ノードと関係でデータ管理 Neo4j

DS検定では

「NoSQLの分類」→「代表例」

を対応させる問題が出ることがあります。


代表的なNoSQLデータストア

DS検定でよく登場する代表例です。

データストア 主な特徴
HBase Hadoop上で動作する列指向データベース。大規模データのリアルタイム処理に強い
Cassandra 分散処理性能が高いカラム型データベース。高可用性
MongoDB JSON形式のドキュメント型DB。Webサービスで広く利用
CouchDB JSONドキュメント型DB。HTTP APIで操作
Redis キーバリュー型。非常に高速でキャッシュ用途
Amazon DynamoDB AWSのフルマネージドNoSQL
Cloudant IBMのクラウドNoSQL
Azure Cosmos DB Microsoftの分散NoSQL

DS検定では

細かい仕様よりも

  • 分散処理
  • スケーラビリティ
  • 非構造データ

がポイントになります。


どんな場面で使う?

大量データ処理

  • Webログ
  • SNS投稿
  • IoTデータ

大量データでは
分散処理できるNoSQLが有利です。


非構造データ

  • JSON
  • APIレスポンス
  • Webデータ

RDBの固定スキーマに合わない場合
NoSQLが使われます。


高速リアルタイム処理

  • キャッシュ
  • セッション管理
  • レコメンド

Redisなどがよく使われます。


よくある誤解・混同

誤解①

NoSQLはSQLを使わない

誤りです。

NoSQLは

Not Only SQL

つまり

SQLだけではない

という意味です。


誤解②

NoSQLはRDBの完全な代替

これも誤りです。

RDBが得意

  • トランザクション
  • 厳密な整合性

NoSQLが得意

  • 大量データ
  • 分散処理

用途が異なります。


誤解③

NoSQLは構造がない

正しくは

固定スキーマがない

です。


DS検定の典型ひっかけ

次の選択肢に注意してください。

❌ NoSQLはSQLを使用しない
❌ NoSQLはRDBの完全な後継

正しくは

✔ SQL以外の方法でも操作できる
✔ RDBと用途を分けて使う


まとめ(試験直前用)

  • NoSQLは RDB以外のデータベースの総称
  • 大量データ・分散処理・柔軟スキーマに強い
  • NoSQLは 4種類(KV・ドキュメント・カラム・グラフ)
  • MongoDB / Redis / Cassandra などが代表例
  • DS検定では RDBとの違いが最重要

対応スキル項目(データエンジニアリング力シート)

  • スキルカテゴリ名
    データ蓄積

  • サブカテゴリ名
    分散技術

  • ★ NoSQLデータストア(HBase、Cassandra、Mongo DB、CouchDB、Redis、Amazon DynamoDB、Cloudant、Azure Cosmos DBなど)にAPIを介してアクセスし、新規データを登録できる | 顧客ID | 名前 | 年齢 | |—|—|—| | 001 | 山田 | 35 | | 002 | 鈴木 | 29 |

このように
列構造が固定されています。

しかし最近のデータは次のような特徴があります。

  • SNS投稿
  • Webログ
  • IoTセンサーデータ
  • 画像・動画

つまり

  • データ量が非常に多い
  • データの形がバラバラ

こうしたデータを扱うために使われるのが
NoSQLデータストアです。

NoSQLは

  • 表構造に縛られない
  • サーバーを増やして拡張できる
  • 大量データ処理に強い

という特徴があります。


定義・仕組み

NoSQL(Not Only SQL)とは
RDB以外の方式でデータを管理するデータベースの総称です。

NoSQLには次のような特徴があります。

  • SQL以外の方法(APIなど)で操作する
  • テーブル構造に固定されない
  • スケーラビリティ(拡張性)が高い
  • 大規模分散処理に強い
  • 低レイテンシ処理に強い

ここで重要なのが

スケーラビリティ

です。

RDB
→ サーバー性能を上げる(スケールアップ)

NoSQL
→ サーバーを増やして処理(スケールアウト)

という設計思想になっています。


代表的なNoSQLデータストア

DS検定でよく例として挙がる代表的なNoSQLは次の通りです。

データストア 主な特徴
HBase Hadoop上で動作する列指向データベース。大規模データのリアルタイム読み書きに強い
Cassandra 高い可用性と分散処理性能を持つカラム型データベース。大規模クラスタで利用される
MongoDB JSON形式(ドキュメント型)でデータを保存。柔軟なスキーマでWebサービスでよく使われる
CouchDB JSONドキュメント型DB。HTTPベースのAPIで操作できる
Redis キーバリュー型データベース。非常に高速でキャッシュやセッション管理に使われる
Amazon DynamoDB AWSのフルマネージドNoSQL。自動スケーリングで大規模サービスに対応
Cloudant IBMのクラウド型ドキュメントDB。CouchDBベース
Azure Cosmos DB Microsoftの分散NoSQLデータベース。世界規模の分散システムに対応

DS検定では
細かい技術仕様ではなく

  • NoSQLは種類が多い
  • 分散処理に強い
  • APIで操作する

という理解ができていれば十分です。


どんな場面で使う?

NoSQLは次のような用途で使われます。

大量データ処理

  • Webアクセスログ
  • SNS投稿
  • IoTデータ

データ量が非常に多い場合
NoSQLの分散処理が有効です。


非構造データ

  • JSON
  • APIデータ
  • Webデータ

テーブル構造に固定されないため
柔軟にデータを扱えます。


高速リアルタイム処理

  • キャッシュ
  • セッション管理
  • レコメンド

Redisなどがよく使われます。


よくある誤解・混同

誤解①

NoSQLはSQLを使えない

これは誤りです。

NoSQLは

Not Only SQL

つまり

SQLだけではない

という意味です。

SQL風クエリを使えるNoSQLもあります。


誤解②

NoSQLはRDBの完全な代替

これも誤りです。

RDBが得意

  • トランザクション処理
  • 厳密な整合性

NoSQLが得意

  • 大量データ
  • 分散処理

用途が異なります。


誤解③

NoSQLは構造がない

正しくは

固定スキーマがない

です。

データ構造はありますが
柔軟に変更できます。


DS検定の典型ひっかけ

DS検定では次のような選択肢に注意します。

❌ NoSQLはSQLを使用しないデータベース
❌ NoSQLはRDBの完全な後継技術

正しくは

✔ SQL以外の方法でも操作できるデータベース
✔ RDBと用途を分けて使う


まとめ(試験直前用)

  • NoSQLは RDB以外のデータベースの総称
  • 大量データ・分散処理・柔軟スキーマが強み
  • MongoDB / Redis / Cassandra など多くの種類がある
  • RDBの代替ではなく用途の違い
  • DS検定では スケーラビリティと非構造データ対応が重要

対応スキル項目(データエンジニアリング力シート)

  • スキルカテゴリ名
    データ蓄積

  • サブカテゴリ名
    分散技術

  • ★ NoSQLデータストア(HBase、Cassandra、Mongo DB、CouchDB、Redis、Amazon DynamoDB、Cloudant、Azure Cosmos DBなど)にAPIを介してアクセスし、新規データを登録できる


NoSQLとは?リレーショナルDBとの違いを整理【DS検定】

  • Source: pages\ds\nosql.md
  • Permalink: /ds/nosql/

まず結論

NoSQLとは、表(テーブル)形式に縛られずにデータを保存できるデータベースの総称です。

DS検定では、
「リレーショナルデータベース(RDB)との違いを判断できるか」
「ビッグデータや分散環境に適している理由を説明できるか」
が問われることが多いです。


直感的な説明

リレーショナルDBは、
「きっちり整理されたエクセルの表」のようなものです。

一方、NoSQLは、
「形式がバラバラでも、とにかく大量に保存できる倉庫」のようなものです。

例えば:

  • SNSの投稿データ
  • ECサイトの閲覧履歴
  • IoTセンサーのログ

こうしたデータは、 ・項目が毎回同じとは限らない
・とにかく量が多い
という特徴があります。

こういうときに強いのが NoSQL です。


定義・仕組み

NoSQL(Not Only SQL)は、

  • テーブル構造に固定されない
  • スキーマ(項目構造)を厳密に決めなくても保存できる
  • 分散環境での処理を前提に設計されている

という特徴を持つデータベースの総称です。

代表例:

  • キー・バリュー型
  • ドキュメント型(例:MongoDB)
  • カラム型(例:HBase)
  • グラフ型

なぜ必要になったのか?

従来のRDBは、

  • 厳密な整合性
  • トランザクション管理

に強い反面、

  • データ量が爆発的に増える
  • サーバを横に増やして処理する(スケールアウト)

という用途には不向きでした。

そこで、 「多少の整合性よりも、処理速度と拡張性を優先する」
という思想で生まれたのが NoSQL です。


どんな場面で使う?

使うべき場面

  • ビッグデータ処理
  • SNS・ログ・IoTデータ
  • 項目が頻繁に変わるデータ
  • クラウド分散環境

DS検定では、
「分散技術」「クラウド」「API経由でのデータ登録」
とセットで出題されることが多いです。

使うと誤解しやすい場面

  • 会計システム
  • 銀行取引管理

のような、 絶対に整合性が崩れてはいけない場面では
RDBの方が適しています。


よくある誤解・混同

❌ NoSQLはSQLが使えない

→ 「Not Only SQL」の意味です。
SQLが使えないわけではありません。


❌ NoSQLは上位互換

→ 目的が違います。
RDBとNoSQLは「得意分野が違う」だけです。


❌ NoSQLは整合性がない

→ 「最終的整合性(Eventually Consistent)」を採用する設計が多い、という意味です。
完全に無秩序というわけではありません。


DS検定でのひっかけ

選択肢で:

  • 「ACID特性を強く保証する」
  • 「テーブル正規化を前提とする」

と書かれていたら、それはRDBの特徴です。

NoSQLは

  • 分散処理
  • スケールアウト
  • 柔軟なスキーマ

がキーワードです。


まとめ(試験直前用)

  • NoSQL=テーブルに縛られないDB
  • ビッグデータ・分散処理向け
  • 整合性より拡張性を優先する設計が多い
  • RDBとの「役割の違い」を理解することが最重要
  • 「ACID・正規化」はRDB側

DS検定では
「どちらが適切か」を判断できるかが問われます。


対応スキル項目(データエンジニアリング力シート)

  • データ蓄積
  • 分散技術
  • ★ NoSQLデータストア(HBase、Cassandra、Mongo DB、CouchDB、Amazon DynamoDB、Azure Cosmos DB、Google Cloud Firestoreなど)にAPIを介してアクセスし、新規データを登録できる

OAuthとは?仕組みとアクセストークンの流れを整理【DS検定リテラシー】

  • Source: pages\ds\oauth.md
  • Permalink: /ds/oauth/

まず結論

OAuth(オーオース)は、パスワードを渡さずに、外部サービスへアクセス権を安全に委任する仕組みです。
DS検定では「認証」と「認可」の違い、そして「アクセストークンの役割」を判断できるかが問われます。


直感的な説明

たとえば、あるWebサービスで「Googleアカウントでログイン」というボタンを押した経験はありませんか?

このとき、

  • あなたのパスワードは相手サービスに渡っていません
  • Googleが「この人は本人です」と保証し
  • その証明として「アクセストークン」が発行されます

OAuthは、

🔑 パスワードを渡すのではなく
🎫 “入場券(トークン)” を使ってアクセスする仕組み

と考えると理解しやすいです。


定義・仕組み

OAuthは「認可(Authorization)」のための仕組みです。

登場人物

  • ユーザー
  • サービスプロバイダー(認可サーバー)
  • リソースサーバー(データを持つ側)
  • クライアントアプリ

基本的な流れ(認可コードフロー)

  1. ユーザーがログイン・同意
  2. 認証コードを取得
  3. 認証コードを使ってアクセストークンを取得
  4. アクセストークンでAPIにアクセス

重要なのは:

  • データ取得に使うのは「アクセストークン」
  • 認証コードは「引き換え券」

DS検定では
「最初に取得するのは何か?」
「APIアクセスに使うのは何か?」
を問われることが多いです。


どんな場面で使う?

使う場面

  • SNSアカウント連携
  • 外部API利用
  • クラウドサービス連携
  • 業務システムのシングルサインオン

ビジネス文脈で重要な理由

  • パスワード漏えいリスクを減らせる
  • アクセス権限を細かく制御できる
  • API連携を安全に実現できる

企業のデータ連携やクラウド活用ではほぼ必須の仕組みです。


よくある誤解・混同

① 認証と認可の混同

  • 認証(Authentication)=本人確認
  • 認可(Authorization)=アクセス許可

OAuthは「認可」の仕組みです。

DS検定では
「OAuthは認証の仕組みである」と書かれていたら注意です。


② 認証コードとアクセストークンの混同

  • 認証コード → 引き換え用
  • アクセストークン → データ取得用

選択肢で 「リソース取得に使うのは認証コード」と書いてあれば誤りです。


③ 暗号鍵との混同

OAuthは公開鍵暗号を利用することはありますが、

  • 公開鍵そのもの=OAuth ではありません。

鍵の仕組みと混同させる問題も出やすいです。


まとめ(試験直前用)

  • OAuth=アクセス権を安全に委任する仕組み
  • データ取得に使うのはアクセストークン
  • 最初に取得するのは認証コード
  • 認証と認可を混同しない

迷ったら、

「APIを叩けるのはどれ?」
と自分に問い直してください。


【対応スキル項目(AI利活用スキルシート)】

  • AI利活用基礎
  • AIを活用するための技術理解
  • ★ AIを活用したサービスの仕組みやリスクを理解している
  • ★ データの取り扱いに関するセキュリティや倫理的配慮の重要性を理解している

OLAPとは?BIツール分析の基本概念をわかりやすく解説【DS検定】

  • Source: pages\ds\olap.md
  • Permalink: /ds/olap/

まず結論

OLAP(Online Analytical Processing)とは、多次元データをさまざまな視点から分析するための技術です。

DS検定では、BIツールの操作として出てくる

スライス

ダイス

ドリルダウン

ドリルアップ

などが OLAP操作として理解されます。

つまり

BIツール分析の基本概念

が OLAP です。


直感的な説明

ビジネスでは、売上データなどを

地域

商品

といった 複数の視点(次元)で分析します。

例えば売上データ

年 地域 商品 売上

2024 東京 A 100 2024 大阪 B 120 2023 東京 B 90

このデータを

年別売上

地域別売上

商品別売上

のように 自由な視点で分析する仕組みが OLAP です。

BIツールでは

Power BI

Tableau

Looker

などが OLAP 的な分析を行います。


定義・仕組み

OLAPとは

多次元データを高速に分析するための技術

です。

ここで重要なのが

多次元データ(データキューブ)

という考え方です。

例えば売上データは

地域

商品

の3つの軸を持っています。

これを立体的に表すと

データキューブ

になります。

商品 ↑ | 地域 ← データ → 年

OLAPでは、この多次元データに対して

スライス

ダイス

ドリルダウン

ドリルアップ

などの操作を行います。


どんな場面で使う?

OLAPは主に

BIツールによるデータ分析

で使われます。

例えば

売上分析

地域別売上 ↓ 店舗別売上


マーケティング分析

商品カテゴリ別売上 ↓ 商品別売上


経営ダッシュボード

年別売上 ↓ 月別売上

このような

ビジネスデータの多角的分析

で使われます。


よくある誤解・混同

DS検定では次の用語と混同されることがあります。


OLAP vs OLTP

用語 意味

OLAP 分析処理 OLTP 業務処理

OLTP

商品購入

顧客登録

在庫更新


OLAP

売上分析

顧客分析

経営レポート

つまり

OLTP:日常業務 OLAP:データ分析

です。


OLAPとBIツールの関係

BIツールは

OLAP分析を行うためのツール

です。

つまり

OLAP(分析技術) ↓ BIツール(分析ツール)

という関係になります。


まとめ(試験直前用)

OLAP:多次元データ分析の技術

BIツール分析の基本概念

OLAP操作

スライス:1条件で切る

ダイス:複数条件で切る

ドリルダウン:詳細へ

ドリルアップ:集計へ

DS検定では

OLTP(業務処理)とOLAP(分析処理)の違い

がよく問われます。


【対応スキル項目(データサイエンス力シート)】

データ理解・可視化

データ可視化

★ データの特徴を理解し、適切な可視化手法を選択できる


オープンデータとは?公共データ活用の基本【DS検定】

  • Source: pages\ds\open-data.md
  • Permalink: /ds/open-data/

まず結論

オープンデータとは、誰でも自由に利用・再配布・加工できる形で公開されたデータのことです。

DS検定では、「公開されているデータ」と「自由に使えるデータ」の違いを判断できるかが問われます。

また、日本では高度情報通信ネットワーク社会推進戦略本部(IT戦略本部)が中心となって、オープンデータ政策が推進されてきました。


直感的な説明

たとえば自治体が、

  • 人口統計
  • 交通量データ
  • 医療機関情報
  • 災害発生件数

をCSV形式で公開しているとします。

これを企業が活用すれば、

  • 出店戦略の立案
  • 防災アプリの開発
  • 地域課題の分析
  • AI学習データへの活用

が可能になります。

つまりオープンデータとは、

社会全体でデータを共有し、価値を生み出す仕組み

です。


定義・仕組み

オープンデータには、一般的に次の条件があります。

  1. 誰でもアクセスできる
  2. 無償または低コストで利用できる
  3. 再配布・加工が許可されている
  4. 機械判読可能な形式(CSVなど)で提供されている

ここで重要なのは、

「公開されている」だけでは不十分

という点です。

PDFで閲覧できても、
再利用が禁止されていればオープンデータではありません。


高度情報通信ネットワーク社会推進戦略本部とは?

日本では、政府のIT政策を統括する組織として

高度情報通信ネットワーク社会推進戦略本部(IT戦略本部)

が設置されました。

この本部が中心となって、

  • 電子政府の推進
  • データ活用政策
  • オープンデータ戦略

が進められました。

DS検定では、

  • オープンデータ推進の主体
  • 政府のIT戦略組織の名称

を問われることがあります。

名称が長いため、
「IT戦略本部=オープンデータ推進の中核」と覚えると整理しやすいです。


どんな場面で使う?

使うべき場面

  • 公共政策の分析
  • 地域ビジネス立案
  • 社会課題の可視化
  • AIモデルの学習用データ取得

注意が必要な場面

  • 個人情報が含まれる場合
  • 利用規約が曖昧な場合
  • 商用利用制限がある場合

「公開=自由利用可能」ではありません。


よくある誤解・混同

❌ 公開されていればオープンデータ

→ ⭕ 利用・再配布・加工が許可されていることが条件

❌ オープンデータはすべて無料

→ ⭕ 原則無料だが、低コスト提供もある

❌ 政府が公開していれば自動的にオープン

→ ⭕ 利用条件を確認する必要がある

DS検定では、

「自治体のWebサイトに掲載されている統計」

という表現だけでオープンデータと判断させようとする選択肢に注意です。


まとめ(試験直前用)

  • オープンデータ=自由に利用・再配布・加工できるデータ
  • 「公開」と「自由利用」は別物
  • 機械判読可能な形式が重要
  • 日本ではIT戦略本部が政策推進
  • DS検定では公開データとの違いが狙われる

対応スキル項目(ビジネス力シート)

  • データ活用
  • データ利活用の理解
  • ★ 公開データや外部データを適切に活用できる

オペレーショナルリスクとは?レピュテーションリスクとの違いを整理【DS検定】

  • Source: pages\ds\operational-risk.md
  • Permalink: /ds/operational-risk/

まず結論

オペレーショナルリスクとは、業務プロセス・人・システムなどの問題によって業務が正常に行えなくなるリスクのことです。

DS検定では、業務上のミスやシステム障害などの「業務リスク」と、企業の評判が下がる「レピュテーションリスク」を区別できるかが問われます。


直感的な説明

企業の業務は、多くの人・システム・手順によって成り立っています。

例えば次のような問題が起きることがあります。

データ入力ミス

分析プログラムのバグ

サーバー障害

作業手順のミス

このような問題が起きると

業務が止まる

データが間違う

サービスが提供できなくなる

といった影響が出ます。

このように

業務の運用そのものに問題が起きるリスク

を オペレーショナルリスク と呼びます。

DS検定では、データ分析やITシステムも「業務プロセスの一部」であるため、

業務リスクとして理解することが重要になります。


定義・仕組み

オペレーショナルリスク(Operational Risk)

業務プロセス・人・システム・外部要因などによって業務が正常に行えなくなるリスク

金融庁やリスク管理の分野では、次のような要因が挙げられます。

人的ミス

システム障害

業務手順の不備

外部要因(災害など)

つまり

業務プロセスの問題 ↓ 業務が正常に動かない ↓ 損失やサービス停止

という形でリスクが発生します。


データサイエンスにおけるオペレーショナルリスク

データ分析プロジェクトでも、次のような問題が起きます。

例:

データ処理プログラムのバグ

ETL処理停止

モデル更新の失敗

データ入力ミス

これらは

業務運用の問題

であり、オペレーショナルリスクに分類されます。


どんな場面で使う?

オペレーショナルリスクは次のような場面で重要になります。

ITシステム運用

サーバ障害

データベース停止

バッチ処理エラー

データ分析業務

データ前処理ミス

モデル更新ミス

データ欠損

業務プロセス

作業手順ミス

入力ミス

DS検定では

システム障害や人的ミスなどはオペレーショナルリスク

として理解することが重要です。


よくある誤解・混同

混同①:レピュテーションリスク

DS検定でよくある混同が

レピュテーションリスクとの違いです。

リスク 内容

オペレーショナルリスク 業務やシステムの問題 レピュテーションリスク 評判の低下

例えば

システム障害 → オペレーショナルリスク

SNS炎上 → レピュテーションリスク

ただし

システム障害 ↓ ニュース報道 ↓ 企業評価低下

となると

両方のリスクが発生することもあります。


混同②:すべてITリスク

オペレーショナルリスクは

業務手順

システム

すべてを含むリスクです。

DS検定では

人的ミスもオペレーショナルリスク

として出題されることがあります。


混同③:小さなミスはリスクではない

小さなミスでも

データ分析の誤り

経営判断のミス

につながる可能性があります。

そのため

早期発見・報告(レポートライン)

が重要になります。


まとめ(試験直前用)

オペレーショナルリスク=業務運用の問題によるリスク

原因は 人・業務手順・システム

例:人的ミス、システム障害、データ処理エラー

レピュテーションリスクは 企業評判の低下

DS検定では 業務リスクと評判リスクを区別する問題が出やすい


【対応スキル項目(ビジネス力シート)】

スキルカテゴリ:活動マネジメント

サブカテゴリ:リスクマネジメント

★ 担当するタスクの遅延や障害などを発見した場合、迅速かつ適切に報告ができる


過学習と分岐の深さの関係とは?決定木の注意点【DS検定】

  • Source: pages\ds\overfitting-tree-depth.md
  • Permalink: /ds/overfitting-tree-depth/

まず結論

決定木では、分岐を深くしすぎると過学習が起きやすくなります。
DS検定では、「木の深さと汎化性能の関係」を正しく理解できているかが問われます。


直感的な説明

決定木は、

条件をどんどん細かくしていくモデル

です。

分岐を増やしていくと、

  • 学習データにはぴったり合う
  • しかし未知データには弱くなる

という状態が起きます。

たとえば、

  • 「価格が1000円以上」
  • 「レビューが★4以上」
  • 「発売日が○月○日」

と細かく分けすぎると、 そのデータ専用のルールになってしまいます。

これが過学習です。


定義・仕組み

過学習とは?

学習データに適合しすぎて、未知データで性能が落ちる状態


分岐の深さ(木の深さ)とは?

決定木では、

  • 分岐の回数が増える
  • ノードが増える
  • 条件が細かくなる

これを「木が深い」といいます。


なぜ深いと過学習するのか?

深くなるほど、

  • ノード内のデータ数が少なくなる
  • たまたまのノイズにも適合してしまう

つまり、

本質ではなく偶然に合わせてしまう

のが原因です。

DS検定では

「木を深くすると常に良い性能になる」

という選択肢は誤りです。


どんな場面で使う?

① ハイパーパラメータ調整

決定木やランダムフォレストには、

  • max_depth(最大深さ)
  • min_samples_split
  • min_samples_leaf

といった制御パラメータがあります。

過学習を防ぐために、

深さを制限する

ことが重要です。


② バイアス・バリアンスの理解

  • 浅すぎる → 表現力不足(アンダーフィット)
  • 深すぎる → 過学習(オーバーフィット)

このバランスを問う問題が出ます。


よくある誤解・混同

❌ 木は深いほど精度が高い

→ 学習データでは高くなりますが、汎化性能は保証されません。


❌ 過学習は決定木だけの問題

→ どのモデルでも起こります。

ただし、決定木は特に起きやすいモデルです。


❌ ランダムフォレストは過学習しない

→ 単独の木よりは抑えられますが、 理論的に「絶対しない」わけではありません。


❌ 分岐を増やすと必ず不純度は下がるから問題ない

→ 学習データでは下がります。 しかし、それが良いとは限りません。


まとめ(試験直前用)

  • 木を深くしすぎると過学習しやすい
  • 過学習 = 学習データに合わせすぎ
  • 深さはハイパーパラメータで制御する
  • 浅すぎるとアンダーフィット
  • 「深いほど良い」は誤り

対応スキル項目(AI利活用スキルシート)

  • AIの理解
  • 機械学習の基本理解
  • ★ 機械学習モデルの基本的な仕組みを理解している

対応があるデータと対応がないデータの違いとは?【DS検定】

  • Source: pages\ds\paired-vs-independent-data.md
  • Permalink: /ds/paired-vs-independent-data/

まず結論

対応があるデータとは「同じ対象を2回測ったデータ」、対応がないデータとは「別々の対象同士を比べるデータ」です。

DS検定では、「どの検定を選ぶべきか」を判断させる問題としてよく問われます。
ここを間違えると、t検定の種類をすべて誤って選ぶことになります。


直感的な説明

✅ 対応があるデータ(ペアデータ)

例:

  • ダイエット前とダイエット後の体重
  • 研修前と研修後のテスト点数
  • 同じ機械の改良前と改良後の性能

同じ人・同じ対象を2回測っているので、1対1のペアになっています。

つまり、「変化」を見たいときのデータです。


✅ 対応がないデータ(独立データ)

例:

  • A社の売上とB社の売上
  • 男性グループと女性グループの平均身長
  • A工場とB工場の不良率

別々の集団同士を比べるので、1対1のペア関係はありません。

こちらは「グループ間の差」を見たいときです。


定義・仕組み

■ 対応があるデータ

  • 同一対象を2条件で測定したデータ
  • 個々の差(前後の差)に意味がある
  • 分析では「差の平均」を検定する

使う検定:

  • 対応のあるt検定

ポイント: 「1標本の検定」と似た考え方になります(差が0かどうかを見るため)


■ 対応がないデータ

  • 異なる集団同士の比較
  • 各グループの平均を直接比較する

使う検定の流れ:

  1. 分散が等しいか確認(F検定)
  2. 分散が等しい → スチューデントのt検定
  3. 分散が異なる → ウェルチのt検定

DS検定では
「分散が等しいと仮定しているか?」が重要な判断ポイントになります。


どんな場面で使う?

✔ 対応があるデータを使う場面

  • 改善効果の検証
  • 施策前後の比較
  • 同一人物の変化分析

👉 ビジネスでは「施策の効果検証」で非常によく使います。


✔ 対応がないデータを使う場面

  • A/Bテスト
  • 異なる店舗比較
  • 異なる顧客層比較

👉 マーケティング分析ではこちらが頻出です。


よくある誤解・混同

❌ 「前後比較=必ずt検定」

→ その前に確認すべきは
対応がある giving なのか?ないのか?

DS検定では
「同じ対象かどうか」が最大の判断ポイントです。


❌ 「分散が等しいかは気にしなくてよい」

→ 対応がない場合は重要です。

選択肢で

  • 「分散が等しいと仮定する」
  • 「分散が異なる場合にも使える」

と書いてあったら注意。


❌ 「データ数が同じなら対応がある」

→ 間違いです。

データ数が同じでも
同一対象かどうかが本質です。


まとめ(試験直前用)

  • 同じ対象を2回測定 → 対応があるデータ
  • 別々の集団比較 → 対応がないデータ
  • 対応がある → 対応のあるt検定
  • 対応がない → 分散確認 → スチューデント or ウェルチ

DS検定では
「同じ人か?別の人か?」をまず判断すること。

ここを外さなければ選択肢はかなり切れます。


対応スキル項目

【対応スキル項目(データサイエンス力シート)】

  • スキルカテゴリ:データ理解
  • サブカテゴリ:統計解析
  • ★ 検定の前提条件(対応の有無、分散の等質性など)を理解し、適切な手法を選択できる
  • ★ 仮説検定の考え方(帰無仮説・対立仮説)を理解している

一般的な論文構成とは?流れを理解する【DS検定リテラシー】

  • Source: pages\ds\paper-structure.md
  • Permalink: /ds/paper-structure/

まず結論

一般的な論文構成とは、「何を明らかにしたいのか」から始まり、「どうやって検証し」「何が分かり」「どう解釈できるか」を順番に示す文章の型です。

DS検定では、「論理的な説明の流れを理解しているか」「主張と根拠が整理されているか」を判断させる問題として問われることが多いです。


直感的な説明

論文構成は、いわば「料理のレシピ」に似ています。

  • なぜこの料理を作るのか(背景)
  • どんな材料・手順を使うのか(方法)
  • 実際にどうなったか(結果)
  • それはどういう意味があるのか(考察)

この順番が崩れると、
「結局なにが言いたいの?」
となってしまいます。

データ分析レポートや提案資料でも、
この流れが整理されているかどうかで、説得力が大きく変わります。


定義・仕組み

一般的な論文構成は、次のような流れになります。

① 序論(Introduction)

  • 研究の背景
  • 問題意識
  • 目的(何を明らかにするのか)

ここが曖昧だと、以降の内容がぶれてしまいます。


② 方法・アプローチ(Method)

  • どんなデータを使ったのか
  • どんな手法を使ったのか
  • どのように検証したのか

DS検定では、
「方法」と「結果」を混同させる選択肢が出ることがあります。


③ 結果(Result)

  • 分析の結果、何が得られたか
  • 数値や傾向の事実

ここでは解釈を入れすぎないことが重要です。


④ 考察(Discussion)

  • なぜその結果になったのか
  • 意味や示唆
  • 限界や今後の課題

結果と考察を分けて書くのが、論文の基本です。


シンプルな型

ビジネス寄りに簡略化すると:

  • 序論 → 本論 → 結論
    という三段構成になります。

どんな場面で使う?

使うべき場面

  • 分析レポート作成
  • 研究報告
  • 社内提案資料
  • データ分析結果の説明

DS検定では、
「論理構成が適切な説明はどれか」という形で問われることがあります。


誤解しやすい場面

  • いきなり結果から話してしまう
  • 結論だけ述べて根拠がない
  • 方法と考察が混ざっている

選択肢では
「背景がなく突然結論を述べる文章」が誤りとして出ることがあります。


よくある誤解・混同

❌ 結果と考察は同じ

→ ⭕ 違います。
結果は「事実」、考察は「解釈」です。


❌ 序論はあいさつ文

→ ⭕ 研究目的を明確にする最重要パートです。


DS検定での典型的ひっかけ

  • 「手法の説明なのに考察が書かれている」
  • 「結論に新しいデータが出てくる」
  • 「目的が書かれていないのに分析が始まる」

構成の論理順が崩れている選択肢は、まず疑いましょう。


まとめ(試験直前用)

  • 論文構成は「目的→方法→結果→考察」の流れ
  • 結果=事実、考察=解釈
  • 背景や目的がない説明は要注意
  • DS検定では「論理の順番が正しいか」を問われることが多い

「主張と根拠がつながっているか?」
これが判断基準です。


【対応スキル項目(ビジネス力シート)】

  • 論理的思考
  • ストーリーライン
  • ★ 一般的な論文構成について理解している (序論⇒アプローチ⇒検討結果⇒考察や、序論⇒本論⇒結論 など)

主成分分析(PCA)とは?次元削減の基本をわかりやすく整理【DS検定】

  • Source: pages\ds\pca.md
  • Permalink: /ds/pca/

まず結論

主成分分析(PCA:Principal Component Analysis)とは、 多くの特徴量を、情報をできるだけ保ちながら少ない次元にまとめる「次元削減」の手法です。

DS検定では、

次元の呪いの対策として使われる

多くの変数を少数の「主成分」にまとめる

という理解ができているかが問われます。


直感的な説明

例えば、次のようなデータを考えます。

身長 体重

170 65 175 70 180 75

このデータを見ると

身長が高い人ほど体重も重い

という関係があります。

つまり

身長

体重

の2つの情報は かなり似た情報 を持っています。

主成分分析は、

この2つを別々に扱うのではなく 「体格」という1つの軸にまとめよう

と考える方法です。

つまり

2次元データ → 1次元にまとめる

これが 次元削減です。


定義・仕組み

主成分分析は、

データのばらつき(分散)が大きい方向を見つけて、新しい軸を作る方法です。

少しイメージしてみます。

元のデータ

身長 → 体重 ↑

このように2軸があります。

しかしデ


PDCAサイクルとは?継続的改善の基本フレームワーク【DS検定】

  • Source: pages\ds\pdca-cycle.md
  • Permalink: /ds/pdca-cycle/

まず結論

PDCAサイクル(PDCA Cycle)とは、計画→実行→評価→改善の4つのステップを繰り返して業務や品質を改善していくフレームワークです。

DS検定では 継続的な業務改善の基本的な考え方として出題されることが多いです。

試験では特に

PoC

KPI

などと混同させる問題が出ることがあります。


直感的な説明

例えばECサイトの売上を改善したいとします。

まず

Plan(計画)

新しいキャンペーンを計画する

次に

Do(実行)

実際にキャンペーンを実施する

その後

Check(評価)

売上やアクセスデータを分析する

最後に

Act(改善)

結果をもとに次の施策を改善する

このように

計画→実行→評価→改善

を繰り返すことで

業務を継続的に改善していきます。

これが PDCAサイクル です。


定義・仕組み

PDCAは次の4つのステップで構成されます。

Plan(計画)

改善のための目標や計画を立てます。

売上を10%増やす


Do(実行)

計画を実際に実行します。

新しい広告キャンペーンを実施


Check(評価)

結果をデータで評価します。

売上データ

アクセスログ


Act(改善)

評価結果をもとに改善します。

成功した施策を強化

効果が低い施策を修正


このサイクルを繰り返すことで

継続的な改善(Continuous Improvement)

が可能になります。


どんな場面で使う?

品質管理

製造業では品質改善のために使われます。


データドリブン経営

データを分析しながら

改善施策

業務改善

を行うときに活用されます。


プロジェクト管理

業務やプロジェクトの改善にも使われます。


よくある誤解・混同

PoCとの違い

DS検定では次の混同がよく出ます。

概念 内容

PoC 技術やアイデアの実現可能性を検証 PDCA 業務改善のサイクル

つまり

PoC → 実現できるか試す

PDCA → 改善を繰り返す

という違いがあります。


KPIとの関係

KPIは

Check(評価)の段階で

進捗を確認する指標として使われます。


まとめ(試験直前用)

PDCAは 継続的改善のフレームワーク

Plan → Do → Check → Act

計画・実行・評価・改善のサイクル

PoCは 実現可能性の検証

KPIは 進捗管理指標

DS検定では

「計画→実行→評価→改善」

と書かれていたら

PDCAサイクルと判断するのがポイントです。


【対応スキル項目(ビジネス力シート)】

ビジネス理解

データ活用

★ データを活用した意思決定の重要性を理解している


ピアソンの相関係数とは?関係の強さをどう読むか【DS検定】

  • Source: pages\ds\pearson-correlation.md
  • Permalink: /ds/pearson-correlation/

まず結論

ピアソンの相関係数とは、「2つの数値データがどれくらい直線的に一緒に動くか」を表す指標です。

DS検定では、「相関の強さ」と「因果関係」を区別できるかどうかを判断させる問題がよく出ます。


直感的な説明

たとえば、

  • 勉強時間が増えると、テストの点数も上がる
  • 気温が上がると、アイスの売上が増える

このように「片方が増えると、もう片方も増える」関係があります。

ピアソンの相関係数は、この
“一緒に動く度合い”を −1 〜 1 の間で数値化したものです。

  • 1に近い → 強い正の相関
  • −1に近い → 強い負の相関
  • 0に近い → 直線的な関係はほぼない

定義・仕組み

ピアソンの相関係数(Pearson correlation coefficient)は、次の式で定義されます。

\[r = \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y}\]

式の意味

  • Cov(X, Y) :共分散(どれくらい一緒に増減しているか)
  • σX、σY :それぞれの標準偏差(ばらつき)

つまり、

「一緒にどれくらい動いているか」を
「それぞれのばらつきの大きさ」で割って正規化したもの

という意味です。

これにより、

  • 単位の違い(円・℃・個数など)の影響を受けない
  • 値は必ず −1 〜 1 の範囲になる

という性質を持ちます。


計算式の展開形(参考)

より具体的な形は次の通りです。

\[r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})} {\sqrt{\sum (x_i - \bar{x})^2} \sqrt{\sum (y_i - \bar{y})^2}}\]

式を丸暗記する必要はありません。

DS検定では、

  • 「共分散を標準偏差で割っている」
  • 「ばらつきを考慮して正規化している」

という意味が理解できていれば十分です。


どんな場面で使う?

✅ 使うべき場面

  • 数値データ同士の関係を調べたいとき
  • 直線的な関係を確認したいとき
  • 特徴量同士の関係を確認するとき

⚠ 注意が必要な場面

  • 曲線的な関係(U字型など)
  • 外れ値が強く影響する場合
  • カテゴリーデータ

DS検定では、

「相関係数が0だから関係がない」

という選択肢は誤りです。

正しくは、

「直線的な関係がない」

という意味です。


よくある誤解・混同

① 相関と因果の混同

相関がある
= 原因である
ではありません。

DS検定では、

「相関があるため、AがBの原因である」

という選択肢は誤りと判断できます。


② 相関係数の範囲を間違える

相関係数は必ず −1 〜 1 の間です。

1.5 や −2 などの値はありえません。


③ スピアマンの順位相関との混同

  • ピアソン:数値の直線関係を見る
  • スピアマン:順位の関係を見る

順序データにピアソンを使っている選択肢は怪しいと判断できます。


まとめ(試験直前用)

  • ピアソンは「直線関係の強さ」を表す
  • −1〜1の範囲に収まる
  • 0は「無関係」ではなく「直線関係がない」
  • 相関 ≠ 因果
  • 共分散を標準偏差で割ったもの

【対応スキル項目(データサイエンス力シート)】

  • データ理解
  • データの関係性把握
  • ★ 相関係数の意味を理解している

個人識別符号とは?個人情報になる条件を整理【DS検定】

  • Source: pages\ds\personal-identifier-code.md
  • Permalink: /ds/personal-identifier-code/

まず結論

  • 個人識別符号とは、それ単体で特定の個人を識別できる番号やデータです。
  • DS検定では 「それだけで個人情報になるかどうか」 を判断させる問題が出ることがあります。

重要なポイントは次の一行です。

個人識別符号は、それ単体で個人情報になります。


直感的な説明

例えば次のような情報があるとします。

  • マイナンバー
  • 指紋
  • 顔認証データ
  • 運転免許証番号

これらは

名前や住所がなくても
特定の個人を識別できます。

つまり

情報 個人特定
電話番号 場合による
Cookie 通常は特定できない
マイナンバー 特定できる

このように

それだけで個人を識別できる情報

個人識別符号

と呼びます。


定義・仕組み

個人識別符号とは

それ単体で特定の個人を識別できる符号

のことです。

個人情報保護法で定義されています。

代表例は次の通りです。

番号系

  • マイナンバー
  • 運転免許証番号
  • パスポート番号
  • 健康保険証番号

生体情報系

  • 指紋
  • 顔認証データ
  • 虹彩
  • 声紋

これらは

身体の特徴から個人を識別できる情報

です。


重要なポイント

通常のデータは

他の情報と組み合わせて
個人情報になる場合

があります。

しかし

個人識別符号は

単体で個人情報になります。

ここが試験の重要ポイントです。


どんな場面で使う?

個人識別符号は主に

本人確認

例えば

  • 銀行口座開設
  • 行政手続き
  • 本人認証

などです。


生体認証

例えば

  • スマートフォンの顔認証
  • 指紋認証
  • 入退室管理

などです。

DS検定では

個人識別符号 = 個人情報

という理解が重要です。


よくある誤解・混同

誤解①

個人識別符号は名前がないと個人情報ではない

これは誤りです。

個人識別符号は

それ単体で個人情報

になります。


誤解②

Cookieは個人識別符号

これは誤りです。

Cookieは

単体では個人特定できない

ため

通常は

個人関連情報

です。


誤解③

要配慮個人情報との違い

概念 意味
要配慮個人情報 差別につながる可能性のある個人情報
個人識別符号 単体で個人識別できる情報

DS検定では
この違いを混同させることがあります。


まとめ(試験直前用)

  • 個人識別符号は それ単体で個人を識別できる情報
  • 例:マイナンバー・指紋・顔認証など
  • 名前がなくても 個人情報になる
  • Cookieなどは通常 個人関連情報

DS検定では

個人識別符号 → 単体で個人情報

という判断ができれば
選択肢を切ることができます。


【対応スキル項目(ビジネス力シート)】

  • ビジネスにおけるデータ活用
  • 法律・倫理

★ 個人情報保護やプライバシー保護に関する法制度を理解している


個人関連情報とは?個人情報との違いを整理【DS検定】

  • Source: pages\ds\personally-related-information.md
  • Permalink: /ds/personally-related-information/

まず結論

  • 個人関連情報とは、単体では個人を特定できないが、個人と関連する可能性のある情報です。
  • DS検定では 「個人情報との違い」や「Cookie・閲覧履歴の扱い」 がよく問われます。

ポイントは次の一行です。

個人関連情報は「単体では個人を特定できない情報」です。


直感的な説明

例えば次のようなデータがあります。

  • Webサイトの閲覧履歴
  • Cookie
  • IPアドレス
  • 位置情報

これらの情報は

それだけでは「誰か」を特定できません。

しかし、

  • 会員情報
  • 名前
  • メールアドレス

などと組み合わせると
特定の個人を識別できる可能性があります。

このような情報を

個人関連情報

と呼びます。

DS検定では

「単体では個人特定できない」

という点が重要です。


定義・仕組み

個人関連情報とは

個人情報ではないが、
個人に関連する可能性がある情報

です。

日本の個人情報保護法で定義されています。

代表例は次の通りです。

代表例

  • Cookie
  • IPアドレス
  • 位置情報
  • 購買履歴
  • 閲覧履歴

これらは単体では

特定の個人を識別できません。

そのため
通常は 個人情報には該当しません。


個人情報になる場合

重要なのはここです。

これらの情報が

  • 名前
  • 会員ID
  • メールアドレス

などと結びつくと

個人情報として扱われる可能性があります。

つまり

状況によって扱いが変わる情報

ということです。


どんな場面で使う?

個人関連情報は主に

Webサービス

例えば

  • Web広告
  • アクセス解析
  • レコメンド

などです。

このとき使われる

  • Cookie
  • 行動履歴

などが個人関連情報になります。


データ分析

企業が

  • 行動分析
  • マーケティング分析
  • 利用ログ分析

を行うときにも使われます。

DS検定では

データ活用とプライバシー保護

のバランスとして出題されることがあります。


よくある誤解・混同

誤解①

Cookie = 個人情報

これは必ずしも正しくありません。

Cookieは

単体では個人を特定できない

ため
通常は 個人関連情報です。


誤解②

個人関連情報は規制がない

これも誤りです。

第三者提供などの場面では
一定のルールがあります。


誤解③

個人情報との違い

整理すると次の通りです。

種類 特徴
個人情報 個人を識別できる
個人関連情報 単体では個人識別できない

DS検定では

識別できるかどうか

が判断ポイントになります。


まとめ(試験直前用)

  • 個人関連情報は 単体では個人を特定できない情報
  • Cookie・閲覧履歴・IPアドレスなどが代表例
  • 他の情報と結びつくと 個人情報になる可能性
  • DS検定では 個人識別できるかどうか が判断基準

整理すると

個人情報 → 個人を識別できる
個人関連情報 → 単体では識別できない

この違いを押さえることが重要です。


【対応スキル項目(ビジネス力シート)】

  • ビジネスにおけるデータ活用
  • 法律・倫理

★ 個人情報保護やプライバシー保護に関する法制度を理解している


PEST分析とは?マクロ環境を分析するフレームワーク【DS検定】

  • Source: pages\ds\pest-analysis.md
  • Permalink: /ds/pest-analysis/

まず結論

PEST分析(PEST Analysis)とは、企業を取り巻く外部環境を「政治・経済・社会・技術」の4つの視点から分析するフレームワークです。

DS検定では 企業ではなく社会全体の環境(マクロ環境)を分析する手法として問われることが多いです。

試験では特に

SWOT分析

5フォース分析

との 分析対象の違い を判断できるかが重要です。


直感的な説明

例えば、電気自動車のビジネスを考えてみます。

成功するかどうかは、企業の努力だけでは決まりません。

例えば次のような社会環境が影響します。

政府が環境規制を強化する

ガソリン価格が高くなる

環境意識が高まる

電池技術が進歩する

このような

企業の外側にある社会環境

を整理して分析するのが PEST分析です。


定義・仕組み

PEST分析は次の4つの要因を分析します。

Political(政治)

政治・政策・法律などの影響です。

環境規制

税制

政府補助金


Economic(経済)

経済状況が企業活動に与える影響です。

景気

為替

金利


Social(社会)

社会や生活者の変化です。

人口構造

ライフスタイル

消費者意識


Technological(技術)

技術の進歩による影響です。

AI

自動化

新素材


この4つを分析することで

企業に影響を与える社会環境を理解できます。


どんな場面で使う?

PEST分析は主に次のような場面で使われます。

市場環境の分析

企業が活動する社会環境を整理します。

規制

技術革新


新規事業の検討

新しい市場に参入する前に

社会環境

技術トレンド

を確認します。


長期戦略の検討

企業の将来戦略を考えるときに

社会環境の変化を分析します。


よくある誤解・混同

DS検定では次の分析との違いがよく問われます。

SWOT分析との違い

分析 内容

PEST分析 マクロ環境(社会環境)を分析 SWOT分析 企業の内部と外部を整理

SWOT分析は

企業視点の分析です。


5フォース分析との違い

分析 内容

PEST分析 社会全体の環境を分析 5フォース分析 業界の競争構造を分析

DS検定では

政治・経済・社会・技術の環境を分析する

と書かれていたら

PEST分析と判断します。


まとめ(試験直前用)

PEST分析は マクロ環境を分析するフレームワーク

Political・Economic・Social・Technological

社会環境が企業に与える影響を分析

SWOT分析は 企業視点の分析

5フォース分析は 業界競争の分析

DS検定では

「政治・経済・社会・技術」

と書かれていたら

PEST分析と判断するのがポイントです。


【対応スキル項目(ビジネス力シート)】

ビジネス理解

ビジネスフレームワーク

★ ビジネス課題を整理するための基本的なフレームワークを理解している


ピボットとは?クロス集計との違いを整理【DS検定】

  • Source: pages\ds\pivot.md
  • Permalink: /ds/pivot/

まず結論

ピボット(Pivot)とは、データの行と列の軸を入れ替えて集計や表示の視点を変える操作です。

DS検定では
「ピボット・クロス集計・スライス・ダイス」との違いを判断させる問題が出題されます。

ポイントは

「データの切り出しではなく、見方(軸)を変える操作」

であることです。


直感的な説明

例えば次の売上データがあるとします。

地域 商品 売上
東京 A 100
東京 B 120
大阪 A 90

このデータを

地域ごとの売上

で見たい場合は次のように表示できます。

地域 A B
東京 100 120
大阪 90 -

このように

データの並び方(行・列)を入れ替えて見やすくする

操作が ピボットです。

Excelの

ピボットテーブル

も同じ考え方です。


定義・仕組み

ピボットとは

データの行・列の軸を変更して、別の視点で集計する操作

です。

BIツールでは

を入れ替えて表示できます。

例えば

元データ

地域 売上
2024 東京 100
2024 大阪 120
2023 東京 90

ピボット後

東京 大阪
2024 100 120
2023 90 -

つまり

データの構造を変えるのではなく
見せ方を変える

操作です。


どんな場面で使う?

① クロス集計を作るとき

  • 地域 × 商品
  • 年 × 地域

など

2つ以上の軸でデータを見る

場合に使います。


② データを比較しやすくする

例えば

売上
2024 東京
2024 大阪

のようなデータを

地域ごとの比較

として見たいときです。


よくある誤解・混同

DS検定では次の操作と混同されやすいです。


ピボット vs フィルター

操作 意味
ピボット 行・列の軸を入れ替える
フィルター 条件でデータを絞る

ピボット vs スライス

操作 意味
ピボット 表の構造を変える
スライス 条件でデータを切る

ピボット vs ドリルダウン

操作 意味
ピボット 見方(軸)を変える
ドリルダウン 粒度を細かくする

DS検定では

  • 「行列を入れ替える」
  • 「クロス集計」
  • 「ピボットテーブル」

と書かれていたら

ピボット

を選ぶのがポイントです。


まとめ(試験直前用)

BIツールの操作は次のように整理できます。

  • ピボット:行・列の軸を入れ替える
  • フィルター:条件でデータを絞る
  • スライス:1つの条件でデータを切る
  • ダイス:複数条件でデータを切る
  • ドリルダウン:集計 → 詳細

DS検定では

「データの見方を変えるのか」
「条件でデータを切るのか」
「粒度を変えるのか」

の3つを判断すると正解しやすくなります。


【対応スキル項目(データサイエンス力シート)】

  • データ理解・可視化
  • データ可視化

★ データの特徴を理解し、適切な可視化手法を選択できる


公開鍵認証基盤(PKI)とは?電子署名の信頼を保証する仕組み【DS検定】

  • Source: pages\ds\pki.md
  • Permalink: /ds/pki/

まず結論

公開鍵認証基盤(PKI:Public Key Infrastructure)とは、「公開鍵が本当にその人のものか」を証明する仕組みです。

DS検定では 電子署名の信頼性を保証する仕組みとしてPKIが必要になる理由を理解しているか が問われます。

電子署名だけでは 「その公開鍵が本当に本人のものか」は保証できません。

その問題を解決するのが 公開鍵認証基盤(PKI) です。


直感的な説明

電子署名はよく 印鑑 に例えられます。

例えば、契約書に印鑑が押されていたとしても、

その印鑑が本当に本人のものか

偽物ではないか

は別の問題です。

ここで必要になるのが 「印鑑証明」 です。

電子署名の世界でも同じで、

役割 現実世界 デジタル世界

本人確認 印鑑証明 電子証明書 証明する組織 市役所 認証局(CA) 本人確認の仕組み 住民登録 PKI

つまりPKIは

「公開鍵の持ち主が本当にその人である」と保証する仕組み

と考えると理解しやすくなります。


定義


PoC(概念実証)とは?AIプロジェクトで重要な理由【DS検定】

  • Source: pages\ds\poc-concept-proof.md
  • Permalink: /ds/poc-concept-proof/

まず結論

PoC(Proof of Concept)とは、新しい技術やアイデアが実際に実現可能かを検証するための試験的な取り組みです。

DS検定では AI・データ活用プロジェクトの初期段階で行う検証プロセスとして出題されます。

ポイントは

「実際にできるのか?」を小さく試す

という点です。


直感的な説明

例えば、製造設備の故障予知AIを作りたいとします。

しかし最初から

大規模システム開発

全工場への導入

を進めるのはリスクが高いです。

そこで

1つの設備だけで

センサーデータ

AIモデル

を使って

本当に異常検知できるのか?

を試します。

これが PoC(概念実証) です。


定義・仕組み

PoCは次の目的で実施されます。

技術的実現性の確認

AIモデルは作れるか

必要なデータは取得できるか


ビジネス価値の確認

コスト削減

売上向上

などの効果が期待できるかを検証します。


リスクの低減

いきなり本格導入するのではなく

小規模な実験で失敗リスクを減らす

ことが目的です。


どんな場面で使う?

AIプロジェクト

AI導入ではPoCがよく使われます。

画像認識

異常検知

需要予測


新技術導入

新しい技術を導入する前に

技術が使えるか

効果があるか

を確認します。


システム開発

新しい仕組みを作る前の

事前検証として実施されます。


よくある誤解・混同

PDCAとの違い

概念 内容

PoC 技術やアイデアの実現可能性を検証 PDCA 業務改善のサイクル

つまり

PoC → 実現できるか試す

PDCA → 改善を繰り返す

という違いがあります。


プロトタイプとの違い

概念 目的

PoC 技術が成立するか検証 プロトタイプ 実際の製品に近い試作

PoCは

成立するかの確認

が目的です。


まとめ(試験直前用)

PoCは 概念実証(Proof of Concept)

新しい技術の 実現可能性を検証する

AIプロジェクトの初期段階で実施

小規模な実験でリスクを減らす

DS検定では

「AI導入前に実現可能性を検証する取り組み」

と書かれていたら

PoCと判断するのがポイントです。


【対応スキル項目(ビジネス力シート)】

ビジネス理解

データ活用

★ データを活用した意思決定の重要性を理解している


点推定と区間推定の違いとは?(信頼区間まで整理)【DS検定】

  • Source: pages\ds\point-interval-estimation.md
  • Permalink: /ds/point-interval-estimation/

まず結論

  • 点推定は「1つの値」で母集団を推定する方法
  • 区間推定は「ある幅(区間)」で母集団を推定する方法

DS検定では、
「1点で言い切っているか」「幅と信頼度がセットになっているか」を判断させる問題が多いです。


直感的な説明

たとえば、ある製品の平均寿命を知りたいとします。

  • 「平均は1000時間です」と言うのが 点推定
  • 「平均は950〜1050時間の間にあると考えられます(95%信頼)」と言うのが 区間推定

現実のデータにはバラつきがあります。
1つの数字だけで断言するのは少し強気です。

そのため、実務では
「どのくらい不確かか」まで示す区間推定が重要になります。


定義・仕組み

点推定(Point Estimation)

標本(サンプル)から計算した統計量を、
そのまま母集団の値として使う方法です。

例:

  • 標本平均 → 母平均の推定値
  • 標本比率 → 母比率の推定値

ただし、
1つの値だけでは推定の不確かさは分かりません。


区間推定(Interval Estimation)

母集団の値が「この範囲にある」と考える方法です。

ここで重要なのが 信頼区間(Confidence Interval) です。

例:

  • 母平均の95%信頼区間が 950〜1050

これは
「同じ方法で何度も標本を取り直したとき、
95%の確率で真の値を含む区間が作られる」
という意味です。

👉 真の値が95%の確率でこの区間にある、という意味ではない
ここが試験でよく問われます。


どんな場面で使う?

点推定を使う場面

  • 概算で十分なとき
  • 速報値として示すとき
  • モデルの予測値を出すとき

区間推定を使う場面

  • 意思決定をするとき
  • リスクを評価するとき
  • 不確実性を説明する必要があるとき

ビジネスでは、 「売上は1000万円です」よりも
「900万〜1100万円の範囲と見込まれます」のほうが
現実的な説明になります。


よくある誤解・混同

❌ 信頼区間=その確率で真の値が入る

これは誤りです。

正しくは: 同じ手順を繰り返したとき、
その割合で真の値を含む区間が作られる、という意味。


❌ 点推定は正確、区間推定はあいまい

逆です。

区間推定のほうが、
不確かさを含めて正直に表現している方法です。


DS検定でのひっかけ

  • 「95%の確率で母平均がこの区間に入る」と書いてあったら注意
  • 「幅が狭い=信頼度が高い」と書いてあったら誤り

信頼度が同じなら
区間が狭いほど推定精度が高い
が正しい理解です。


まとめ(試験直前用)

  • 点推定=1つの値で推定
  • 区間推定=幅をもって推定
  • 信頼区間は「手法の信頼度」を表す
  • 「真の値が〇%で入る」は誤解
  • 意思決定では区間推定が重要

👉 DS検定では
「確率の意味」と「幅の解釈」を切り分けられるかがポイント。


【対応スキル項目(データサイエンス力シート)】

  • スキルカテゴリ名:データ理解
  • サブカテゴリ名:統計学基礎
  • ★ 推定(点推定・区間推定)の概念を理解している
  • ★ 信頼区間の意味を理解している

ポリモーフィズムとは?(同じ呼び出しで動作が変わる仕組み)【DS検定】

  • Source: pages\ds\polymorphism.md
  • Permalink: /ds/polymorphism/

まず結論

ポリモーフィズム(多態性)とは、同じインターフェース(同じ呼び出し方)で、異なるオブジェクトが異なる振る舞いをする仕組みです。

DS検定では、「オブジェクト指向の基本概念の違いを判断できるか」が問われます。
特に 継承との違いを正しく切り分けられるか がポイントです。


直感的な説明

「同じボタンを押しているのに、機械によって動きが違う」
そんなイメージです。

たとえば print() という処理があったとします。

  • レポートなら → 文章を印刷する
  • グラフなら → 図を描画する
  • データなら → 数値を表示する

呼び方は同じ。でも中身の動きは違う。

これがポリモーフィズムです。

なぜ重要かというと、
「種類が増えても、同じ扱い方ができる」ため、
システムをシンプルに保てるからです。


定義・仕組み

ポリモーフィズムとは、

共通のメソッド名やインターフェースを持ちながら、
実際の処理内容はオブジェクトごとに異なること

を指します。

多くの場合は、

  • 共通の親クラスを作る
  • 子クラスで処理を上書きする(オーバーライド)

という形で実現されます。

ただし重要なのは「継承そのもの」ではなく、

同じ呼び出しで違う動作をするという性質そのものです。

DS検定ではここを区別させてきます。


どんな場面で使う?

使う場面

  • データ形式が複数ある処理(CSV・JSON・画像など)
  • モデルごとに予測方法が違うAIシステム
  • グラフ描画の種類が複数ある可視化機能

実務では、
「種類は違うが、同じように扱いたい」
という場面で活躍します。

使うと誤解しやすい場面

単に「似た処理をまとめただけ」ではポリモーフィズムとは言いません。

同じ呼び出し方法で扱えることが条件です。


よくある誤解・混同

① 継承(インヘリタンス)との混同

DS検定では
「継承」と「ポリモーフィズム」を混同させてきます。

  • 継承 → 親の性質を引き継ぐ“仕組み”
  • ポリモーフィズム → 同じ呼び出しで動作が変わる“性質”

選択肢で
「親クラスの機能を引き継ぐ仕組み」と書いてあれば、それは継承です。


② エンカプセレーションとの混同

  • エンカプセレーション → データと処理をまとめ、外から直接触れないようにすること

「内部を隠す」とあればエンカプセレーションです。


③ コンポジションとの混同

  • コンポジション → 部品を組み合わせる設計

「〜を持つ」という関係ならコンポジションです。


まとめ(試験直前用)

  • 同じ呼び出しで動作が変わる → ポリモーフィズム
  • 継承は“仕組み”、ポリモーフィズムは“性質”
  • 「型が違っても同じように扱える」がキーワード
  • DS検定では「継承」との切り分けが最重要

迷ったら、
問われているのは“仕組み”か“性質”か?
と考えると正解に近づけます。


【対応スキル項目(AI利活用スキルシート)】

  • AIの基礎理解
  • ソフトウェアの基本概念の理解
  • ★ AIを活用するために必要なIT・ソフトウェアの基礎知識を理解している

プーリング(Pooling)とは?CNNで重要な特徴抽出の圧縮処理【DS検定】

  • Source: pages\ds\pooling.md
  • Permalink: /ds/pooling/

まず結論

プーリング(Pooling)とは、CNNで特徴マップのサイズを小さくしながら重要な特徴を残す処理です。

DS検定では

CNNの構成要素

畳み込みとの役割の違い

を理解しているかが問われることがあります。


直感的な説明

画像を見るとき、人は細かい情報すべてを使って判断しているわけではありません。

例えば猫の写真を見たとき

耳の形

目の位置

体の輪郭

などの 重要な特徴 を見て判断しています。

細かいピクセル情報すべてを覚えているわけではありません。

CNNでも同じで

重要な特徴だけを残して情報を圧縮する処理

が必要になります。

この処理が プーリング です。


定義・仕組み

プーリングとは

特徴マップのサイズを小さくしながら特徴を残す処理

です。

CNNでは

  1. 畳み込み

  2. プーリング

を繰り返して

画像の特徴を抽出していきます。


代表的なプーリング

Max Pooling

最もよく使われる方法です。

2 3 5 1

この領域の最大値

5

を代表値として使います。

つまり

一番強い特徴を残す方法です。


Average Pooling

領域の平均値を取る方法です。

2 3 5 1

平均

(2+3+5+1)/4

平均値を使うことで

特徴を滑らかにまとめます。


どんな場面で使う?

プーリングは

CNNの中で特徴マップを整理する役割を持ちます。

主な目的は次の3つです。

計算量を減らす

画像サイズを小さくすることで

AIの計算量を減らします。


ノイズの影響を減らす

小さな変化に影響されにくくなります。

例えば

少し位置がずれた

少し明るさが変わった

といった変化に強くなります。


重要な特徴を残す

最大値などを使うことで

特徴の強い部分を残します。


よくある誤解・混同

誤解①

プーリング=畳み込み

これは誤りです。

畳み込み

→ 特徴を抽出する

プーリング

→ 特徴を圧縮する

という違いがあります。


誤解②

プーリングは必ず平均を使う

現在のCNNでは

Max Pooling

が最もよく使われます。


DS検定のひっかけ

DS検定では

畳み込み

プーリング

の役割の違いを問う問題が出ることがあります。

整理すると

畳み込み

→ 特徴抽出

プーリング

→ 情報圧縮

です。


まとめ(試験直前用)

プーリングは CNNで特徴マップを小さくする処理

主な目的

計算量削減

ノイズ耐性

重要特徴の保持

代表例

Max Pooling

Average Pooling

DS検定では

畳み込み=特徴抽出 プーリング=情報圧縮

と覚えると判断しやすくなります。


【対応スキル項目(AI利活用スキルシート)】

スキルカテゴリ名 AIの技術理解

サブカテゴリ名 機械学習

★ 代表的な機械学習手法の概要を理解している


母分散・標本分散・不偏分散の違いとは?【DS検定リテラシー】

  • Source: pages\ds\population-sample-unbiased-variance.md
  • Permalink: /ds/population-sample-unbiased-variance/

まず結論

  • 母分散は「母集団全体のばらつき」
  • 標本分散は「標本データのばらつき」
  • 不偏分散は「母分散を推定するために補正した標本分散」です。

DS検定では、
「どれが母分散の推定に使うべき値か?」を判断させる問題がよく出ます。


直感的な説明

例えば、全国のりんごの重さのばらつきを知りたいとします。

  • 全国すべてを測れれば → 母分散
  • 手元の100個だけ測ったら → 標本分散
  • その100個の結果から全国のばらつきを推定するなら → 不偏分散

ポイントはここです。

👉 標本分散は、そのままだと少し小さめに出る傾向がある

だから、 「母分散を推定する目的なら補正が必要」になります。

DS検定では、 「標本分散をそのまま母分散の推定値として使う」と書いてあったら注意です。


定義・仕組み

① 母分散

母集団全体のデータを使って計算した分散。
本来知りたい「真のばらつき」です。

ただし、現実では母集団すべてを観測できないことがほとんどです。


② 標本分散

標本データのばらつきをそのまま計算したもの。

分母は「データ数 n」です。

しかしここに落とし穴があります。

標本では平均も標本から計算しているため、
ばらつきが少し小さく見積もられてしまいます。


③ 不偏分散

標本分散の「過小評価」を補正したもの。

分母を n − 1 にします。

なぜか?

→ 標本平均を使うことで自由度が1つ減るから。

DS検定では数式暗記は不要ですが、

「n ではなく n−1 で割るのは母分散を正しく推定するため」

という意味を理解していれば十分です。


どんな場面で使う?

✔ 母分散

  • 理論上の定義
  • 母集団全体がわかっている場合(ほぼない)

✔ 標本分散

  • 単に「この標本のばらつき」を知りたいとき

✔ 不偏分散

  • 標本から母分散を推定するとき
  • 統計的推定や推測統計の文脈

DS検定では、

「母分散の推定値として最も適切なものはどれか」

と問われることが多いです。

答えは 不偏分散 です。


よくある誤解・混同

❌ 「標本分散=母分散の推定値」

→ 不正確です。
標本分散は小さめに出る傾向があります。


❌ 「n と n−1 の違いは誤差レベルで無視できる」

→ 概念理解としては重要です。
DS検定はこの違いを理解しているかを問います。


❌ 「不偏分散は常に正しい分散」

→ あくまで推定値です。
母分散そのものではありません。


試験での典型的なひっかけ

  • 「標本分散は母分散の不偏推定量である」
    → ❌(不偏分散が不偏推定量)

  • 「分母が n の分散は母分散の推定に適している」
    → ❌

  • 「分母が n−1 の分散は母分散の推定量である」
    → ✅


まとめ(試験直前用)

  • 母分散:母集団全体のばらつき
  • 標本分散:標本のばらつき(分母 n)
  • 不偏分散:母分散を推定するための補正分散(分母 n−1)
  • DS検定では「母分散の推定値はどれか?」が頻出
  • 迷ったら「推定なら n−1」と判断する

対応スキル項目

【対応スキル項目(データサイエンス力シート)】

  • スキルカテゴリ:基礎数学
  • サブカテゴリ:統計数理基礎
  • ★ 母(集団)平均と標本平均、不偏分散と標本分散がそれぞれ異なることを説明できる

べき乗則とは?両対数グラフが直線になる理由【DS検定リテラシー】

  • Source: pages\ds\power-law.md
  • Permalink: /ds/power-law/

まず結論

  • べき乗則とは「ある量が、別の量の“べき乗”に比例する関係」のこと
  • DS検定では「両対数グラフで直線になる関係はどれか?」と問われることが多い

直感的な説明

たとえば、

  • フォロワー数が多い人ほど、さらにフォロワーが増えやすい
  • 都市の人口規模と店舗数の関係

のように、「大きいものほど、さらに大きくなりやすい」現象があります。

このような関係は、
「2倍、3倍…」と一定の割合で増える指数成長とは少し違い、

“元の値の何乗か”で決まる関係になります。

このとき、
普通のグラフでは曲線になりますが、

👉 両対数グラフにすると直線になる

という特徴があります。


定義・仕組み

べき乗則は、次のような形で表されます。

y = a × x の b 乗

ここで重要なのは式そのものではなく、

  • x が増えると
  • y は「x の何乗か」に比例して増える

という関係であることです。

なぜ両対数グラフで直線になるのか?

両対数グラフとは、

  • 横軸も対数
  • 縦軸も対数

にしたグラフです。

べき乗則の両辺の対数をとると、

log y = log a + b × log x

という「直線の式」になります。

つまり、

  • 横軸:log x
  • 縦軸:log y

にすると、

👉 傾き b の直線になる

これが「両対数グラフを使う理由」です。


実際の数列で確認してみる

例として、

x:1, 2, 3, 4
y:x の 2 乗

つまり、

1 → 1
2 → 4
3 → 9
4 → 16

普通のグラフでは、曲線になります。

しかし、

  • log x
  • log y

をとってプロットすると、

一直線に並びます。

これが「べき乗則は両対数で直線になる」という意味です。


どんな場面で使う?

使う場面

  • 所得分布
  • 都市規模とインフラ数
  • SNSのフォロワー分布
  • アクセス数や売上の偏り分析

「一部が極端に大きい」データでよく現れます。

使うと誤解しやすい場面

  • 毎月一定割合で増える売上(指数成長)
  • 人口の複利的増加

これらはべき乗則ではなく指数関数です。


よくある誤解・混同

① べき乗則 と 指数成長 の混同

DS検定ではここを混同させてきます。

関係 直線になるグラフ
指数成長 片対数グラフ
べき乗則 両対数グラフ

選択肢では

  • 「一定の割合で増加する」
  • 「倍々に増える」

と書かれていたら → 指数成長

  • 「x の b 乗に比例する」
  • 「スケール不変」

と書かれていたら → べき乗則

と判断します。


② データと文章の矛盾

文章では「べき乗則」と書いているのに
数値は指数成長になっていることがあります。

この場合、試験では

👉 キーワードで判断するのか
👉 データ構造で判断するのか

を冷静に見極める必要があります。


まとめ(試験直前用)

  • べき乗則 = x の b 乗に比例する関係
  • 両対数グラフで直線になる
  • 指数成長は片対数
  • 「一定割合で増加」は指数
  • 「x の何乗か」はべき乗則

👉 両対数が出てきたら「べき乗則」を疑う


【対応スキル項目(データサイエンス力シート)】

  • データの理解
  • データの可視化
  • ★ データの特徴を適切なグラフで表現できる
  • ★ データの分布や関係性を読み取ることができる

予測的データ分析とは?将来を読む分析手法を整理【DS検定】

  • Source: pages\ds\predictive-analytics.md
  • Permalink: /ds/predictive-analytics/

まず結論

予測的データ分析とは、「過去データを使って未来の出来事を予測する分析手法」です。
DS検定では、「記述的分析との違い」や「AIとの関係性」を判断させる問題としてよく問われます。


直感的な説明

たとえば、

  • 過去の購買履歴から「来月どの商品が売れるか」を予測する
  • 機械のセンサーデータから「いつ故障しそうか」を予測する
  • 顧客データから「解約しそうな人」を予測する

これが予測的データ分析です。

ポイントは、

👉 「すでに起きたことを説明する」のではなく
👉 「これから起きることを予測する」

という点です。

DS検定では、「分析の目的が未来か、過去の整理か」を見極めさせる問題がよく出ます。


定義・仕組み

予測的データ分析(Predictive Analytics)は、

過去データをもとに、統計モデルや機械学習モデルを用いて将来の結果を予測する手法

です。

一般的な流れは次の通りです。

  1. 過去データを収集する
  2. 特徴量を整理する
  3. モデルを作る(回帰・分類など)
  4. 将来データに対して予測する

ここで重要なのは、

  • 単なる集計ではない
  • 数値的な「推定」や「分類」を行う

という点です。

DS検定では、「予測=AIだけ」という理解は誤りです。
統計モデルでも予測は可能です。


どんな場面で使う?

① 機械の故障検知(予知保全)

  • センサーデータから故障の兆候を予測
  • 異常発生前にメンテナンスを実施
  • ダウンタイムや損失を最小化

DS検定では「IoT×データ活用」の文脈で問われやすい分野です。


② シェアリングエコノミー

  • 需要予測(どのエリアで利用が増えるか)
  • 価格最適化(ダイナミックプライシング)
  • 利用者マッチングの最適化

将来の需要を予測することで、サービスの効率を高めます。


③ レコメンデーション

  • ユーザーが次に購入しそうな商品を予測
  • 視聴しそうな動画を提示
  • 関心が高そうなコンテンツを提示

DS検定では「レコメンドは予測型の活用例」であることを理解しておくことが重要です。


④ ビジネス意思決定

  • 売上予測
  • 在庫最適化
  • 解約予測(チャーン予測)

単なる集計ではなく、「次にどう動くか」を判断するための分析です。


よくある誤解・混同

❌ 記述的データ分析との混同

  • 記述的分析:過去のデータを整理・可視化する
  • 予測的分析:未来を予測する

選択肢で
「売上の平均を算出する」
と書かれていたら、それは予測ではありません。


❌ AIと完全に同義だと思う

予測的データ分析 = AI
ではありません。

AI(機械学習)は予測手法の一部です。

DS検定では
「AIを使わなければ予測できない」
という選択肢が出たら誤りです。


❌ 因果関係が証明できると思う

予測が当たることと、因果関係があることは別です。

DS検定では
「予測モデルは因果を説明できる」
という表現があれば注意です。


まとめ(試験直前用)

  • 予測的データ分析は「未来を予測する」分析
  • 故障検知・シェアリングエコノミー・レコメンドは代表例
  • 記述的分析は「過去の整理」
  • AIは予測手法の一部であって同義ではない
  • 予測と因果は別物

👉 目的が「未来かどうか」で判断する


対応スキル項目(AI利活用スキルシート)

  • AI利活用スキル
  • AIの活用理解
  • ★ AIの特性(得意・不得意)を理解し、適切に活用できる

  • AI利活用スキル
  • AIのリスク理解
  • ★ AIの出力結果を鵜呑みにせず、妥当性を判断できる

データ前処理(Preprocessing)とは?分析前に行う重要ステップ【DS検定】

  • Source: pages\ds\preprocessing.md
  • Permalink: /ds/preprocessing/

まず結論

データ前処理とは、分析や機械学習を行う前にデータを整える作業です。

DS検定では、モデルを作る前にデータ品質を整えることが重要という理解が問われます。


直感的な説明

例えば、売上データを分析しようとしたとします。

しかしデータを確認すると

空白のデータ(欠損値)がある

商品名がバラバラに書かれている

文字データが混ざっている

このままでは分析や機械学習がうまくできません。

そこで次のような処理を行います。

欠損値を補完する

データ形式を統一する

カテゴリを数値化する

このように

データを分析できる状態に整える作業を

データ前処理(Preprocessing)と呼びます。


定義・仕組み

データ前処理とは、データ分析や機械学習の前にデータを整形・加工する工程です。

実際のデータは

欠損

ノイズ

表記ゆれ

などが含まれていることが多く、

そのままでは分析に適していません。

そのため、次のような処理を行います。

代表的な前処理

処理 内容

欠損値処理 空白データを補完・削除 エンコーディング カテゴリ変数を数値化 正規化・標準化 データのスケール調整 マッピング 値を別の値へ変換 特徴量エンジニアリング 新しい特徴量を作成

DS検定では

データ前処理は機械学習の重要工程

という理解が重要です。


どんな場面で使う?

① 機械学習モデル作成

モデルを作る前に

欠損値

データ形式

スケール

を整える必要があります。

もし前処理を行わないと

モデル精度が低下

学習が失敗

することがあります。


② データ分析

BIツールや統計分析でも

データ形式

カテゴリ整理

などの前処理が必要になります。

つまり

前処理はすべてのデータ分析の基礎作業です。


よくある誤解・混同

① データ収集との混同

❌ 前処理 = データを集める作業

⭕ 前処理 = 既存データを整理する作業


② モデル学習との混同

❌ 前処理 = モデルを学習させる工程

⭕ 前処理 = モデル学習の前に行う工程

DS検定では

前処理 → モデル学習 → 評価

という流れを理解しているかが問われます。


③ 特徴量エンジニアリングとの関係

特徴量エンジニアリングは

前処理の中でも特にモデル精度に影響する部分です。


まとめ(試験直前用)

データ前処理 = 分析前にデータを整える作業

代表例

欠損値処理

エンコーディング

正規化

マッピング

特徴量エンジニアリング

前処理を行わないとモデル精度が下がる

DS検定では

「データを分析可能な形に整える工程」

と書かれていたら

データ前処理を思い出すと判断しやすくなります。


【対応スキル項目(データサイエンス力シート)】

データ理解・前処理

データ加工

★ データの前処理(欠損値処理、正規化、カテゴリ変数の処理など)を理解している


一次情報とは?本当の意味を理解する【DS検定】

  • Source: pages\ds\primary-data.md
  • Permalink: /ds/primary-data/

まず結論

一次情報とは、自分たちが直接収集した現場由来のデータのことです。
DS検定では「なぜ一次情報が重要なのか」「何を重視すべきか」を判断させる問題がよく出ます。


直感的な説明

売上が落ちたとします。

数字(売上データ)だけを見るのが二次情報。
実際に店舗に行き、

  • 売り場が分かりにくい
  • 在庫が不足している
  • 店員の説明が不十分

といった事実を確認するのが一次情報です。

一次情報は「現場の文脈」を教えてくれる情報です。
だから意思決定の精度を上げるために重要になります。


定義・仕組み

一次情報とは、
自分たちが直接取得した、未加工のオリジナルデータです。

例:

  • アンケート調査を自社で実施
  • インタビュー
  • 実地観察
  • センサー計測
  • 実験データ

ポイントは「誰かがまとめた情報ではない」ということ。

一方、新聞記事や統計レポートのように、
誰かが加工・整理したものは二次情報です。

DS検定では、
一次情報=「量」ではなく、
質と関連性を重視するものとして問われます。


どんな場面で使う?

使うべき場面

  • 原因が分からない問題の特定
  • 仮説検証
  • 現場改善
  • 新規事業の探索

注意すべき場面

  • 単にデータ量を増やしたいとき
  • コスト削減だけを目的とする場合

一次情報はコストも時間もかかります。
だからこそ、意思決定に直結する場面で使うのが基本です。


よくある誤解・混同

① 「量を増やすことが目的」

DS検定ではよく
「情報量を最大化する」が選択肢に出ます。

しかし一次情報の目的は量ではなく、
現場の実態を理解することです。


② 「コスト削減が主目的」

一次情報はむしろコストがかかります。
主目的は意思決定の精度向上です。


③ 二次情報との混同

  • 一次情報:自分で集めた生データ
  • 二次情報:加工・整理された既存データ

選択肢で「既存の統計資料」と書かれていたら注意です。


まとめ(試験直前用)

  • 一次情報=自分たちが直接収集したデータ
  • 目的は「量」ではなく「質と関連性」
  • 現場の文脈を理解するための情報
  • DS検定では「コスト」「量」「スピード」に惑わされない

判断基準:意思決定の質を上げるかどうか


【対応スキル項目(ビジネス力シート)】

  • 課題設定力
  • データ収集・整理
  • ★ 課題解決のために必要な情報を特定し、適切な方法で収集できる

主キー(Primary Key)とは?データベースの基本ルールを理解【DS検定】

  • Source: pages\ds\primary-key.md
  • Permalink: /ds/primary-key/

まず結論

主キー(Primary Key)とは、テーブルの中で1つのレコードを一意に識別するための列(または列の組み合わせ)です。

DS検定では 「重複しない」「NULLにならない」識別子として理解できるかが重要です。


直感的な説明

データベースでは、同じようなデータがたくさん存在します。

例えば顧客テーブルを考えてみます。

顧客ID 名前

1001 田中 1002 鈴木 1003 田中

ここでは「田中」という名前が複数あります。

もし名前だけで管理すると、

どの田中さんなのか

どの注文に紐づくのか

が分からなくなります。

そこで 必ず1人だけを識別できる番号を用意します。

それが

主キー(Primary Key)です。


定義・仕組み

主キーとは

テーブル内の各行(レコード)を一意に識別する列

です。

主キーには次の特徴があります。

① 重複してはいけない

同じ値が2つ存在すると、 レコードを区別できません。

例(NG)

顧客ID 名前

1001 田中 1001 鈴木

この場合、どちらのレコードか判断できません。


② NULLになってはいけない

主キーがNULLだと

「誰のレコードなのか」

を識別できなくなります。


③ 1テーブルに1つだけ設定

主キーは

1つのテーブルにつき1つだけ設定されます。

ただし、

複数列を組み合わせた

複合主キー(Composite Key)

という形もあります。

注文ID 商品ID 数量

この場合

注文ID + 商品ID

の組み合わせで1レコードを識別することがあります。


どんな場面で使う?

主キーは すべてのテーブル設計で必ず使われる基本概念です。

例えば

顧客管理

顧客テーブル

顧客ID(PK) 名前


注文管理

注文テーブル

注文ID(PK) 顧客ID(FK)

ここで

顧客ID → 主キー

注文テーブル → 外部キー

という関係が作られます。

この仕組みによって

データの関係性(リレーション)

を管理できます。


よくある誤解・混同

主キー = 一意制約ではない

DS検定ではここがよく出ます。

概念 内容

主キー NOT NULL + UNIQUE 一意制約 重複のみ禁止

つまり

主キーは

一意制約よりも強いルールです。


主キーと外部キーの違い

用語 役割

主キー テーブルの識別子 外部キー 他テーブルを参照する列

DS検定では

主キー = 識別

外部キー = 関係

と覚えておくと判断しやすいです。


DS検定の典型的なひっかけ

選択肢で次のような文章が出ます。

❌ 「主キーはNULLを許可できる」

これは誤りです。

主キーは

NULL不可

重複不可

です。


まとめ(試験直前用)

主キーは レコードを一意に識別する列

主キーは NULL不可・重複不可

1テーブルに1つ設定

外部キーは主キーを参照する

DS検定では

主キー = 識別

という理解が重要です。


【対応スキル項目(データエンジニアリング力シート)】

データ管理

データベース

★ データベースの基本概念(テーブル、主キー、外部キーなど)を理解している ★ データの整合性や品質を保つ仕組みを理解している


一次情報と二次情報の違いとは?境界を整理【DS検定】

  • Source: pages\ds\primary-secondary-data.md
  • Permalink: /ds/primary-secondary-data/

まず結論

一次情報とは「自分たちが直接生成・取得したオリジナルデータ」、二次情報とは「他者が生成・加工した既存データ」です。
DS検定では取得方法ではなく“データの発生源”で判断できるかが問われます。


直感的な説明

同じ「データ取得」でも本質が違います。

  • 店舗で自分たちが実施したアンケート → 一次情報
  • 政府統計をダウンロード → 二次情報

Webスクレイピングで取得していても、
元データを作ったのが他者なら二次情報です。

ポイントは

「誰がそのデータを最初に作ったか?」

ここで判断します。


定義・仕組み

一次情報(Primary Data)

  • 自分たちが直接収集
  • 未加工のオリジナルデータ
  • 現場・実験・観察・調査などから取得

例:

  • 自社アンケート
  • インタビュー
  • センサー計測
  • 自社ログデータ

二次情報(Secondary Data)

  • 他者が生成・加工した情報
  • 既存レポート・統計・公開データ

例:

  • 政府統計
  • 調査会社のレポート
  • 新聞記事
  • 他社サイトの価格情報

スクレイピングの扱い

取得方法は関係ありません。

  • 政府統計をスクレイピング → 二次情報
  • 他社ECサイト価格を取得 → 二次情報
  • 自社サイトのアクセスログ取得 → 一次情報

DS検定ではここを混同させてきます。


どんな場面で使う?

一次情報を使う場面

  • 原因特定
  • 仮説検証
  • 現場改善
  • 新規施策の評価

二次情報を使う場面

  • 市場全体の把握
  • トレンド分析
  • 比較調査
  • 外部環境分析

ビジネスでは両方を組み合わせるのが基本です。


よくある誤解・混同

① 「スクレイピング=一次情報」

誤りです。

選択肢で
「Webから取得したデータ」と書かれていたら要注意。

発生源が他者なら二次情報です。


② 「一次情報は常に優れている」

必ずしもそうではありません。

コストや時間がかかるため、
目的に応じて使い分けます。


③ 「取得したら一次情報になる」

取得方法ではなく
生成主体で判断するのが正解です。


まとめ(試験直前用)

  • 判断基準は「誰が生成したか」
  • 取得方法では決まらない
  • スクレイピングは基本的に二次情報
  • 自社で直接収集したものが一次情報

迷ったら
発生源を見る。


【対応スキル項目(ビジネス力シート)】

  • 課題設定力
  • データ収集・整理
  • ★ 課題解決のために必要な情報を特定し、適切な方法で収集できる

プロジェクトマネジメントとは?プロジェクトを成功させるための管理手法【DS検定】

  • Source: pages\ds\project-management.md
  • Permalink: /ds/project-management/

まず結論

  • プロジェクトマネジメントとは、目標を達成するために「作業・時間・人・コスト」などを管理することです。
  • DS検定では WBS・ガントチャート・クリティカルパスなどの管理手法を理解しているかが問われます。

直感的な説明

データ分析プロジェクトを考えてみます。

例えば

  • 売上データを分析する
  • 需要予測モデルを作る
  • 分析結果をレポートする

といった仕事があります。

しかしプロジェクトでは

  • 作業の順序
  • 作業の期限
  • 担当者
  • 予算

などを管理しないと、

  • 作業が遅れる
  • 役割が曖昧になる
  • コストが増える

といった問題が発生します。

そこで必要になるのが プロジェクトマネジメントです。

つまり

プロジェクトを計画し、進捗を管理し、成功させるための管理活動

と考えると理解しやすくなります。


定義・仕組み

プロジェクトマネジメント(Project Management)とは

限られた時間・人員・予算の中で
プロジェクトの目標を達成するための管理活動

です。

プロジェクト管理では主に次の要素を管理します。

① スコープ(作業範囲)

何を作るのか
何をやらないのか

を明確にします。

  • 需要予測モデルを作る
  • レポートを作成する

② スケジュール

作業の期限を管理します。

代表的な手法

  • WBS(作業分解)
  • ガントチャート(時間管理)
  • クリティカルパス(遅延リスク)

③ コスト

プロジェクトに必要な

  • 人件費
  • システム費
  • データ取得費

などを管理します。


④ リソース

プロジェクトに関わる

  • 技術
  • データ

などを管理します。


どんな場面で使う?

① データ分析プロジェクト

  • データ収集
  • 前処理
  • モデル作成
  • 評価

などの作業があります。

プロジェクトマネジメントを行うことで

  • 作業の遅れ
  • 作業の重複

を防ぐことができます。


② システム開発

システム開発では

  • 要件定義
  • 設計
  • 開発
  • テスト

といった工程があります。

これらを管理するために
プロジェクトマネジメントが使われます。


③ ビジネスプロジェクト

企業では

  • 新規サービス開発
  • マーケティング施策
  • DX推進

など多くのプロジェクトが存在します。

DS検定でも

データ活用プロジェクトを成功させるための管理

として理解しておくことが重要です。


よくある誤解・混同

① プロジェクト管理=スケジュール管理ではない

スケジュール管理は

プロジェクト管理の一部です。

プロジェクトマネジメントでは

  • スコープ
  • コスト
  • 人員
  • リスク

なども管理します。


② プロジェクトと業務は違う

プロジェクトは

期限と目的が決まっている仕事

です。

例えば

  • 新しい分析システムを作る
  • 新サービスを開発する

などです。

一方で

日常業務は

継続的な仕事

です。

DS検定では
この違いを理解しておくと選択肢を切りやすくなります。


③ ツールと概念を混同する

DS検定では次の区別が重要です。

用語 役割
プロジェクトマネジメント プロジェクト管理の考え方
WBS 作業を分解する
ガントチャート スケジュール管理
クリティカルパス 遅延リスクの把握

これらは 役割が違う管理手法です。


まとめ(試験直前用)

  • プロジェクトマネジメント=プロジェクトを成功させるための管理活動
  • 管理対象は
    作業・時間・コスト・人
  • WBS → 作業分解
  • ガントチャート → スケジュール管理
  • クリティカルパス → 遅延リスク管理
  • DS検定では これらの役割の違いがよく問われる

【対応スキル項目(ビジネス力シート)】

  • プロジェクト推進
  • リソースマネジメント
  • ★ 指示に従ってスケジュールを守り、チームリーダーに頼まれた自分の仕事を完遂できる

仮名加工情報とは?匿名加工情報との違いを整理【DS検定】

  • Source: pages\ds\pseudonymized-information.md
  • Permalink: /ds/pseudonymized-information/

まず結論

  • 仮名加工情報とは、個人を直接識別できないように加工した個人情報です。
  • DS検定では 匿名加工情報との違い(復元できるかどうか) がよく問われます。

一番重要なポイントはここです。

仮名加工情報は「対応表があれば元の個人に戻せる」データです。


直感的な説明

例えば企業が次のような顧客データを持っているとします。

名前 住所 購入額
山田太郎 東京都渋谷区 12000

このままでは
個人がすぐ特定できるデータです。

そこで次のように加工します。

顧客ID 地域 購入額
A001 東京都 12000

このとき企業は

顧客ID 名前
A001 山田太郎

のような 対応表を社内に持っています。

この場合

企業は元の個人を特定できます。

このようなデータを
仮名加工情報と呼びます。


定義・仕組み

仮名加工情報とは

個人情報の一部を削除・置き換えして
直接個人を識別できないようにしたデータ

です。

日本の個人情報保護法で定義されています。

特徴は次の2つです。

① 直接個人を識別できない

  • 名前
  • ID
  • 住所

などを削除・置き換えします。

これにより
そのデータだけでは個人を特定できません。


② 企業内部では復元可能

ここが最も重要です。

企業が

対応表(ID対応表)

を持っている場合、
元の個人に戻すことができます。

つまり

仮名加工情報は「完全匿名ではない」

ということです。


どんな場面で使う?

仮名加工情報は主に

社内データ分析

企業が

  • 顧客分析
  • 行動分析
  • 利用履歴分析

を行う場合に使われます。

個人名を隠しながら
同一人物の行動を追跡できるためです。


AI・データ分析

例えば

  • レコメンド分析
  • 利用パターン分析
  • 不正検知

などです。

仮名加工情報なら

プライバシーリスクを下げながら
データ分析ができます。

DS検定では

データ活用とプライバシー保護のバランス

の例として出題されることがあります。


よくある誤解・混同

誤解①

仮名加工情報 = 匿名加工情報

これは誤りです。

種類 特徴
仮名加工情報 復元できる
匿名加工情報 復元できない

DS検定では
この違いが非常によく問われます。


誤解②

仮名加工情報は完全匿名

これは誤りです。

企業内部では

元の個人を特定できる可能性があります。

そのため

個人情報としての管理が必要

になります。


誤解③

匿名加工情報は復元できる

これは誤りです。

匿名加工情報は

元の個人に戻せない

ことが条件です。

DS検定では

復元可能かどうか

が判断基準になります。


まとめ(試験直前用)

  • 仮名加工情報は 直接個人を識別できないように加工したデータ
  • 企業内部では 対応表により復元可能
  • 匿名加工情報は 復元不可
  • DS検定では 復元可能かどうか が判断ポイント

整理すると

仮名加工情報 → 復元できる
匿名加工情報 → 復元できない

この1行を覚えておけば
DS検定の選択肢はかなり切れます。


【対応スキル項目(ビジネス力シート)】

  • ビジネスにおけるデータ活用
  • 法律・倫理

★ 個人情報保護やプライバシー保護に関する法制度を理解している


公開鍵暗号方式と共通鍵暗号方式の違いとは?【DS検定】

  • Source: pages\ds\publickey-vs-symmetric.md
  • Permalink: /ds/publickey-vs-symmetric/

まず結論

共通鍵暗号方式は「同じ鍵で暗号化と復号を行う方式」

公開鍵暗号方式は「公開鍵と秘密鍵の2つの鍵を使う方式」

DS検定では

「共通鍵暗号=高速」「公開鍵暗号=鍵共有問題を解決」

という役割の違いを理解しているかが問われます。


直感的な説明

暗号を「鍵付きの箱」で考えてみます。

共通鍵暗号

送る人と受け取る人が

同じ鍵を持っている箱

を使います。

送信者:鍵で箱をロック

受信者:同じ鍵で箱を開ける

仕組みはシンプルで

処理が速いのが特徴です。

しかし問題があります。

その鍵をどうやって安全に相手へ渡すか

です。


公開鍵暗号

公開鍵暗号では鍵が2つあります。

公開鍵

秘密鍵

公開鍵は

誰にでも公開してよい鍵です。

送信者は公開鍵で暗号化します。

すると

秘密鍵を持つ本人しか復号できません。

つまり

安全に鍵を共有する問題を解決できる

のが公開鍵暗号です。


定義・仕組み

共通鍵暗号方式(Symmetric Key Cryptography)

暗号化と復号に

同じ鍵を使う方式です。

特徴

処理が高速

大量データの暗号化に向いている

代表例

AES

DES

しかし

鍵を安全に共有する必要がある

という課題があります。


公開鍵暗号方式(Public Key Cryptography)

2つの鍵を使う暗号方式です。

公開鍵:暗号化に使う

秘密鍵:復号に使う

特徴

鍵配送問題を解決

安全な鍵共有が可能

代表例

RSA

ただし

計算が重く処理が遅い

という弱点があります。


現実のインターネット

実際の通信では

両方を組み合わせて使います。

例:SSL / TLS

  1. 公開鍵暗号で共通鍵を安全に交換

  2. その後は共通鍵暗号で通信

こうすることで

安全

高速

の両方を実現しています。


どんな場面で使う?

共通鍵暗号

大量データ通信

SSL通信

VPN

データ保存

などで使われます。


公開鍵暗号

鍵交換や認証

電子署名

PKI

SSLの鍵交換

などで利用されます。


よくある誤解・混同

誤解①

公開鍵暗号の方が安全だから常に使う

これは誤りです。

公開鍵暗号は

処理が重く速度が遅い

ため

通信全体の暗号化には向きません。


誤解②

公開鍵は秘密にする必要がある

公開鍵は

公開してよい鍵です。

秘密にするのは

秘密鍵です。


DS検定の典型問題

DS検定では

❌ 公開鍵暗号方式は高速な暗号方式である

⭕ 共通鍵暗号方式の方が高速

という選択肢がよく出ます。

試験では

共通鍵暗号 → 高速

公開鍵暗号 → 鍵交換

と覚えておくと選択肢を切りやすくなります。


まとめ(試験直前用)

共通鍵暗号 → 同じ鍵 / 高速 / 大量データ向き

公開鍵暗号 → 公開鍵+秘密鍵 / 鍵共有問題を解決

公開鍵暗号は処理が遅い

SSL/TLSでは 公開鍵暗号+共通鍵暗号を併用

DS検定では 高速=共通鍵暗号 を覚えておく


対応スキル項目(データエンジニアリング力シート)

ITセキュリティ

暗号化技術

★ 共通鍵暗号方式と公開鍵暗号方式の違いを理解している


四分位とは?値が複数の取り方になる理由まで整理【DS検定】

  • Source: pages\ds\quartile.md
  • Permalink: /ds/quartile/

まず結論

四分位とは、データを小さい順に並べたときに「下から25%・50%・75%の位置」を表す値です。
DS検定では、「ばらつきをどう捉えるか」「中央値との違いを理解しているか」が問われます。


直感的な説明

テストの点数が並んでいるとき、

  • 真ん中の人が「中央値」
  • 下位25%の境目が「第1四分位(Q1)」
  • 上位25%の境目が「第3四分位(Q3)」

というイメージです。

平均のように“全部をならす”のではなく、
「どこからが上位か」「どこまでが下位か」を区切る指標です。


定義・仕組み

四分位は次の3つです。

  • 第1四分位(Q1)…下から25%の位置
  • 第2四分位(Q2)…中央値(50%)
  • 第3四分位(Q3)…下から75%の位置

重要なのは、

データは飛び飛びの値であり、25%ぴったりの位置が存在しないことがある

という点です。

そのため、計算方法が複数存在します。


実際の例で理解する

例1:データが奇数個(9個)の場合

データ: 5, 7, 8, 12, 15, 18, 22, 25, 30

中央値(Q2)は真ん中の
→ 15

ここから方法が分かれます。


方法A:中央値を除く

下半分: 5, 7, 8, 12
→ Q1 = 7.5

上半分: 18, 22, 25, 30
→ Q3 = 23.5

IQR = 23.5 − 7.5 = 16


方法B:中央値を含める

下半分: 5, 7, 8, 12, 15
→ Q1 = 8

上半分: 15, 18, 22, 25, 30
→ Q3 = 22

IQR = 22 − 8 = 14


同じデータでも結果が変わります。

つまり、

四分位は「考え方」は同じでも「計算方法」は一意ではない

ということです。

DS検定では、この違いを理解しているかが問われます。


どんな場面で使う?

① ばらつきを見るとき

Q3 − Q1 を
四分位範囲(IQR)といいます。

これは「真ん中50%の広がり」を表します。

外れ値の影響を受けにくいため、
実務でもよく使われます。


② 箱ひげ図の読み取り

箱ひげ図では、

  • 箱の下端=Q1
  • 箱の中央線=中央値
  • 箱の上端=Q3

DS検定では、
「箱の長さが長い=ばらつきが大きい」
と読み取れるかが問われます。


よくある誤解・混同

① 四分位は必ず1つに決まる?

→ 誤りです。

「四分位は常に一意に決まる」とあれば不正解です。


② 四分位=平均?

→ 違います。

平均は“全体の代表値”
四分位は“位置の境界”

役割が異なります。


③ 奇数個のときの計算方法は固定?

→ これも誤りです。

中央値を含める方法と除く方法があります。

選択肢で
「必ず◯◯である」と断定していたら注意です。


まとめ(試験直前用)

  • 四分位は「位置」を示す指標
  • Q1・中央値・Q3でデータを4つに分ける
  • 計算方法は複数ある(ここがひっかけ)
  • IQRは“真ん中50%の広がり”

DS検定では、
「平均との違い」と「定義が一意でない点」が判断基準になります。


対応スキル項目(データサイエンス力シート)

  • データ理解
  • 統計的基礎理解
  • ★ 基本的な統計量(平均・中央値・分散など)の意味を理解している

決定係数と自由度調整済決定係数の違いとは?【DS検定】

  • Source: pages\ds\r-squared-adjusted-r-squared.md
  • Permalink: /ds/r-squared-adjusted-r-squared/

まず結論

  • 決定係数は「モデルがどれだけデータを説明できているか」を表す指標です。
  • 自由度調整済決定係数は「説明変数の数を考慮して、過剰な当てはまりを防いだ指標」です。

DS検定では、
「説明変数を増やすと決定係数はどうなるか?」
「モデル比較ではどちらを見るべきか?」
といった判断を問われることが多いです。


直感的な説明

営業成績を予測するモデルを作るとします。

  • 変数が「広告費」だけのモデル
  • 「広告費+気温+曜日+月+SNS投稿数+…」とどんどん増やしたモデル

説明変数を増やせば、
見かけ上は当てはまりが良くなります。

しかし、それは本当に「良いモデル」でしょうか?

→ ただ無理やり説明しているだけかもしれません。

ここで登場するのが
自由度調整済決定係数です。

「説明変数が増えすぎていないか?」をチェックする役割があります。


定義・仕組み

■ 決定係数(R²)

決定係数は、

モデルがデータのばらつきをどれだけ説明できているか

を表します。

値は 0〜1 の間になり、
1に近いほど「よく説明できている」ことを意味します。

DS検定では
「R²が高い=モデルが優れている」
という単純な判断は危険です。

なぜなら…

説明変数を増やせば、R²は基本的に下がらないからです。


■ 自由度調整済決定係数(Adjusted R²)

自由度調整済決定係数は、

  • サンプル数
  • 説明変数の数

を考慮して補正した指標です。

特徴は次の通りです:

  • 不要な変数を増やすと値が下がることがある
  • モデル比較に向いている

つまり、

「説明変数の数を考慮した、公平な評価指標」

と考えると分かりやすいです。


どんな場面で使う?

■ 決定係数を使う場面

  • 単一モデルの説明力をざっくり確認するとき
  • モデルの当てはまりの度合いを直感的に把握するとき

■ 自由度調整済決定係数を使う場面

  • 説明変数の数が異なるモデル同士を比較するとき
  • 重回帰分析でモデル選択をするとき

DS検定では
「モデルの比較」という文脈が出たら
自由度調整済決定係数を疑うのがポイントです。


よくある誤解・混同

❌ 「決定係数が高い=良いモデル」

→ 変数を増やせば上がるため、過学習の可能性があります。


❌ 「自由度調整済決定係数は常に決定係数より高い」

→ 通常は R²より小さくなる のが一般的です。


❌ 「決定係数は予測精度そのものを表す」

→ あくまで「説明力」です。
予測誤差とは別の概念です。

DS検定では
説明力と予測精度を混同させる選択肢に注意してください。


まとめ(試験直前用)

  • 決定係数は「説明できた割合」
  • 変数を増やせば基本的に上がる
  • モデル比較では自由度調整済決定係数を見る
  • R²=高いほど良い、とは限らない
  • 説明力と予測精度は別物

【対応スキル項目(データサイエンス力シート)】

  • 数理・統計基礎
  • モデル評価
  • ★ 回帰分析における評価指標の意味を理解している 【本文構成テンプレート(必須)】

まず結論

  • この用語は何かを一文で説明
  • DS検定での位置づけ(何を判断させたい問題か)

直感的な説明

  • 日常例・業務例を使った説明
  • 「なぜ重要か」が感覚的に分かる説明

定義・仕組み

  • 用語の定義をかみ砕いて説明
  • 式がある場合も「何を意味しているか」だけ説明

どんな場面で使う?

  • 使うべき場面
  • 使うと誤解しやすい場面

よくある誤解・混同

  • 混同しやすい用語との違い
  • DS検定での典型的なひっかけ

まとめ(試験直前用)

  • 3〜5行で要点整理
  • 判断基準が思い出せる形でまとめる

【対応スキル項目の出力ルール(必須)】

  • すべての記事の末尾に「対応スキル項目」を必ず出力する
  • 記事のテーマに応じて、以下のいずれかを選択する

① データサイエンス力シート
② ビジネス力シート
③ データエンジニアリング力シート
④ AI利活用スキルシート

特に、AI活用・AI理解・AIの使い方・AIのリスクに関する記事の場合は、 必ず「AI利活用スキルシート」への対応項目を出力すること。

出力形式は以下を厳守する:


【対応スキル項目(○○スキルシート)】

  • スキルカテゴリ名
  • サブカテゴリ名
  • ★ 該当するチェック項目(力シートと完全一致の文言)

※ 必ず ★ を付ける
※ チェック項目の文言は skillcheck ページと完全一致させる
※ 記事テーマに最も適切な1〜2項目に限定する

【AI系記事の特別ルール】

以下のキーワードを含む場合は必ず AI利活用スキルに分類する:

  • AIの活用
  • AIのリスク
  • AIの倫理
  • AIの判断
  • AIの限界
  • AIと人間の役割
  • 生成AI
  • AI導入

迷った場合は AI利活用スキルを優先すること。

【今回追加したい用語】 (ここに、学習したい用語・過去問で迷った概念を書く)

【補足(あれば)】

  • なぜ迷ったか
  • 混同した用語
  • 実務と試験でのズレ

レインボーテーブル攻撃とは?(ソルトとの関係)【DS検定】

  • Source: pages\ds\rainbow-table-attack.md
  • Permalink: /ds/rainbow-table-attack/

まず結論

レインボーテーブル攻撃とは、事前に計算しておいたハッシュ値の一覧を使って、元のパスワードを推測する攻撃手法です。
DS検定では「なぜソルトが必要か」を判断させる文脈で問われることが多いです。


直感的な説明

ハッシュ関数は元に戻せません。
ではどうやって破るのか?

答えはシンプルです。

よく使われるパスワードを先に全部ハッシュ化して保存しておく。

例えば:

  • 123456 → ハッシュ値A
  • password → ハッシュ値B
  • qwerty → ハッシュ値C

この対応表(巨大な辞書)が「レインボーテーブル」です。

もしデータベースから漏れたハッシュ値が「A」だったら、 表を見れば「123456」と分かります。

つまり、 逆算ではなく“照合”で破る攻撃です。


定義・仕組み

レインボーテーブル攻撃は、

  1. よく使われるパスワード候補を大量に用意
  2. それらを事前にハッシュ化
  3. ハッシュ値と元のパスワードの対応表を作る
  4. 漏えいしたハッシュ値と照合する

という流れで行われます。

ポイントは、

  • 毎回計算しなくてよい
  • 事前計算済みなので高速

という点です。


どんな場面で使う?

攻撃側の場面

  • パスワードデータベースが漏えいした場合
  • ソルトが使われていない場合

防御側の対策

  • ソルトを使う
  • ストレッチングを使う
  • 安全なハッシュ関数を使う(例:bcrypt, Argon2)

特に重要なのはソルトです。

ソルトがあれば、

同じパスワードでも ユーザーごとに違うハッシュになります。

つまり、
事前に作った表が使えなくなります。


よくある誤解・混同

① 総当たり攻撃との違い

❌ レインボーテーブル攻撃=総当たり攻撃
⭕ 事前計算している点が違う

総当たりは毎回計算します。
レインボーテーブルは「先に計算しておく」。

ここが判断ポイントです。


② ソルトとの関係

DS検定では

  • 「ソルトは暗号化のため」
  • 「ソルトは計算を重くする」

といった選択肢が出やすいです。

正しくは:

  • ソルトはレインボーテーブル対策
  • 計算を重くするのはストレッチング

③ ハッシュが不可逆なら安全という誤解

不可逆でも、 照合されれば意味がありません。

不可逆=絶対安全
ではない点が重要です。


まとめ(試験直前用)

  • レインボーテーブル=事前計算済みハッシュ辞書
  • 逆算ではなく照合攻撃
  • ソルトがあれば無効化できる
  • 計算を重くするのはストレッチング
  • 「事前計算」という言葉があれば正解方向

【対応スキル項目(AI利活用スキルシート)】

  • AIを支えるデータと技術の理解
  • セキュリティ・リスク理解
    ★ AI・データ活用に伴うセキュリティリスクを理解している
    ★ データの適切な管理・保護の重要性を理解している

無作為抽出法とは?種類と違いを整理【DS検定リテラシー】

  • Source: pages\ds\random-sampling-methods.md
  • Permalink: /ds/random-sampling-methods/

まず結論

無作為抽出法とは、母集団から「偏りなく」データを取り出すための方法です。
DS検定では「どの抽出方法かを見抜けるか」「方法の違いを切り分けられるか」が問われます。


直感的な説明

たとえば、全国の中学生の体力を調べたいとします。

  • 1校ずつランダムに選ぶのか
  • 地域ごとに分けてから選ぶのか
  • 男女を分けてから人数を決めて選ぶのか

取り出し方が違うだけで、データの偏りや精度が変わります。

無作為抽出法は、
「どうやって公平に取り出すか」の設計ルールです。


定義・仕組み

代表的な無作為抽出法は次の4つです。

① 系統抽出法

最初の1人をランダムに選び、その後は一定間隔で抽出する方法。
例:5000人から10人おきに選ぶ。

→ 「間隔」がキーワード。


② 多段抽出法

グループを段階的に絞り込み、最終的に個人を抽出する方法。
例:都道府県 → 市区町村 → 学校 → 生徒

→ 「段階的に絞る」がポイント。


③ 集落抽出法(クラスタ抽出)

母集団をいくつかの集団に分け、選ばれた集団を丸ごと調査する方法。
例:学校をランダムに選び、その学校の全員を調査。

→ 「選んだグループは全員調査」が特徴。


④ 層別抽出法

あらかじめ母集団を層(グループ)に分け、各層から人数を決めて抽出する方法。
例:男女比6:4なら、6人と4人をそれぞれ抽出。

→ 「比率を保つ」が重要。


どんな場面で使う?

系統抽出法

名簿が整っているとき。
ただし周期性があるデータでは偏る可能性あり。

多段抽出法

全国調査など、大規模でコストを抑えたいとき。

集落抽出法

移動コストを抑えたいとき。
ただし集団内が似ていると偏りやすい。

層別抽出法

男女比・年代比などを正確に反映させたいとき。


よくある誤解・混同

層別抽出法と集落抽出法の違い

DS検定ではここを混同させてきます。

方法 何をする?
層別抽出 各グループから「一部」抽出
集落抽出 選んだグループを「丸ごと」調査

選択肢で
「グループを選び、その中の全員を調査」
と書いてあれば → 集落抽出。

「男女比を保って抽出」
とあれば → 層別抽出。


多段抽出と集落抽出の違い

  • 多段抽出:段階的に絞る
  • 集落抽出:最後は丸ごと

「何段階あるか」に惑わされないことが重要です。


まとめ(試験直前用)

  • 系統抽出 → 一定間隔
  • 多段抽出 → 段階的に絞る
  • 集落抽出 → グループ丸ごと
  • 層別抽出 → 比率を保つ

DS検定では
「グループから一部か?全員か?」
ここを切り分けられるかが勝負です。


【対応スキル項目(データサイエンス力シート)】

  • データ収集
  • 標本設計
  • ★ 母集団と標本の違いを理解している

RBAC(ロールベースアクセス制御)とは?【DS検定リテラシー】

  • Source: pages\ds\rbac.md
  • Permalink: /ds/rbac/

まず結論

RBAC(ロールベースアクセス制御)とは、ユーザーに「役割(ロール)」を割り当て、その役割ごとにアクセス権限を管理する仕組みです。

DS検定では、「どのアクセス制御方式が適切かを判断できるか」を問われることが多く、特に MAC・DAC・ABACとの違いを切り分けられるか がポイントになります。


直感的な説明

会社のシステムを想像してみてください。

  • 管理者 → すべての機能が使える
  • 一般社員 → 閲覧のみ
  • 承認担当 → 承認ボタンだけ使える

このように「人ごと」ではなく、役職・役割ごとにまとめて権限を設定するのがRBACです。

一人ひとりに個別設定するよりも、
「営業ロール」「管理者ロール」のようにまとめたほうが管理しやすくなります。

つまりRBACは、実務で最もよく使われる現実的なアクセス管理方式です。


定義・仕組み

RBAC(Role-Based Access Control)は、

  • ユーザーにロールを割り当てる
  • ロールに権限を割り当てる

という二段階構造で権限を管理します。

ポイントは「直接ユーザーに権限を与えない」こと

× ユーザー → 権限
〇 ユーザー → ロール → 権限

この構造にすることで、

  • 人事異動があってもロール変更だけで対応できる
  • 権限のばらつきを防げる
  • 管理がシンプルになる

というメリットがあります。

DS検定では、「ユーザーごとに機能を出し分ける」ような問題文が出たら、まずRBACを疑うのが基本です。


どんな場面で使う?

使う場面

  • 社内業務システム
  • クラウドサービスの管理画面
  • データ分析基盤での閲覧・編集権限管理

特にデータサイエンスの現場では、

  • 分析者はデータ閲覧可
  • 管理者は削除可
  • 一般利用者はダッシュボード閲覧のみ

といった制御が必要になります。

使うと誤解しやすい場面

「時間帯」「場所」「属性」まで考慮する必要がある場合はRBACだけでは不十分です。

その場合はABACが適切になります。


よくある誤解・混同

① MAC(強制アクセス制御)との違い

MACは「機密レベル」などに基づき、管理者が強制的に制御する方式です。
軍事・政府系システムのような世界観です。

DS検定では
「機密レベル」「セキュリティラベル」という言葉があればMACを疑います。


② DAC(選択アクセス制御)との違い

DACは、ファイルの所有者がアクセス権を決められる方式です。
個人が他人に共有許可を出せるようなイメージです。

RBACは「組織として管理」、
DACは「所有者が管理」という違いがあります。


③ ABAC(属性ベースアクセス制御)との違い

ABACは、

  • 部署
  • 年齢
  • 場所
  • 時間帯

などの「属性」を条件にアクセス制御を行います。

DS検定では
「属性」「条件」「時間帯」と書かれていたらABACを疑うのがコツです。


まとめ(試験直前用)

  • RBACは「役割」で権限を管理する方式
  • ユーザー → ロール → 権限 の構造
  • 「ユーザーごとに機能が違う」とあればRBACが第一候補
  • 属性条件が出てきたらABAC
  • 機密レベルならMAC、所有者管理ならDAC

選択肢を切るときは「何で制御しているか」を見る。


【対応スキル項目(データエンジニアリング力シート)】

  • データ基盤
  • セキュリティ
  • ★ データのセキュリティ管理の基本的な考え方を理解している

RDBとNoSQLの違いを一発で整理【DS検定】

  • Source: pages\ds\rdb-vs-nosql.md
  • Permalink: /ds/rdb-vs-nosql/

まず結論

RDB(リレーショナルデータベース)は構造化データの管理に強く、NoSQLデータストアは大量データや非構造データの分散処理に強いデータベースです。

DS検定では
「RDBとNoSQLの役割の違い」を理解しているかがよく問われます。

特に試験では

  • NoSQLはRDBの後継技術
  • NoSQLはSQLを使わない

といった誤った理解を狙った選択肢が出ます。


直感的な説明

RDBは

きっちり整理された表でデータを管理するデータベース

です。

例(顧客データ)

顧客ID 名前 年齢
001 山田 35
002 鈴木 29

銀行システムや会計システムなど
正確性が重要なデータ管理に向いています。

一方NoSQLは

データ量が非常に多い場合や構造がバラバラなデータを扱うデータベース

です。

  • SNS投稿
  • Webログ
  • IoTデータ
  • 画像データ

このようなデータでは
RDBよりNoSQLの方が扱いやすい場合があります。


定義・仕組み

RDBとNoSQLの違いを整理すると次の通りです。

観点 RDB NoSQL
データ構造 固定スキーマ(表形式) 柔軟スキーマ
データ形式 構造化データ 非構造・半構造データ
スケール方法 スケールアップ(性能向上) スケールアウト(サーバー追加)
データ量 中規模 大規模
操作方法 SQL APIや独自クエリ

代表例

RDB

  • MySQL
  • PostgreSQL
  • Oracle
  • SQL Server

NoSQL

  • MongoDB
  • Redis
  • Cassandra
  • HBase

ここで重要なのは

NoSQLはRDBの代替ではない

という点です。


どんな場面で使う?

RDBが向いている場面

  • 金融システム
  • 会計システム
  • 在庫管理

理由

  • データ整合性が重要
  • トランザクション処理が必要

NoSQLが向いている場面

  • SNS
  • Webログ解析
  • IoTデータ

理由

  • データ量が巨大
  • 分散処理が必要

よくある誤解・混同

誤解①

NoSQLはSQLを使わない

誤りです。

NoSQLは

Not Only SQL

つまり

SQL以外の方法も使える

という意味です。


誤解②

NoSQLはRDBの後継技術

これも誤りです。

正しくは

用途が異なるデータベース

です。


誤解③

NoSQLは構造がない

正しくは

固定スキーマがない

です。


DS検定の典型ひっかけ

次の選択肢に注意してください。

❌ NoSQLはRDBを置き換える技術

❌ NoSQLはSQLを使用しない

正しくは

✔ RDBと用途を分けて使う
✔ SQL以外の操作方法がある


まとめ(試験直前用)

  • RDBは 表形式データ管理
  • NoSQLは 大量データ・分散処理に強い
  • NoSQLは RDBの代替ではない
  • RDB → 正確性
  • NoSQL → スケーラビリティ

DS検定では
「RDBかNoSQLか」を用途で判断できることが重要です。


対応スキル項目(データエンジニアリング力シート)

  • スキルカテゴリ名
    データ蓄積

  • サブカテゴリ名
    分散技術

  • ★ NoSQLデータストア(HBase、Cassandra、Mongo DB、CouchDB、Redis、Amazon DynamoDB、Cloudant、Azure Cosmos DBなど)にAPIを介してアクセスし、新規データを登録できる


参照整合性とは?外部キーとデータ整合性を理解【DS検定】

  • Source: pages\ds\referential-integrity.md
  • Permalink: /ds/referential-integrity/

まず結論

参照整合性(Referential Integrity)とは、外部キーが参照する値が必ず参照先テーブルに存在することを保証するルールです。

DS検定では 「存在しないデータを参照してしまう問題を防ぐ仕組み」として理解できるかが重要です。


直感的な説明

データベースでは、テーブル同士が関係を持っています。

例えば、ECサイトを考えてみます。

顧客テーブル

顧客ID 名前

1 田中 2 鈴木

注文テーブル

注文ID 顧客ID

100 1

このとき、もし次のようなデータが登録されたらどうでしょう。

注文ID 顧客ID

101 99

顧客ID「99」は顧客テーブルに存在しません。

つまり

存在しない顧客の注文

という矛盾したデータができてしまいます。

このような問題を防ぐ仕組みが

参照整合性です。


定義・仕組み

参照整合性とは

外部キーの値は、参照先テーブルの主キーに存在する値でなければならない

というルールです。

つまり

外部キー ⊆ 主キー

という関係になります。

例えば

顧客テーブル(主キー)

顧客ID

1 2

注文テーブル(外部キー)

注文ID 顧客ID

100 1 101 2

この場合は問題ありません。

しかし

注文ID 顧客ID

102 99

のようなデータは

参照整合性違反

となります。

そのためデータベースは

登録を拒否します。


更新・削除時のルール

参照整合性は、更新や削除のときにも重要になります。

例えば

顧客テーブル

顧客ID

1

注文テーブル

注文ID 顧客ID

100 1

この状態で

顧客ID「1」を削除すると

注文テーブルは

顧客ID = 1

を参照できなくなります。

この問題を防ぐために

削除を禁止

自動削除(CASCADE)

NULLに変更

などのルールを設定することがあります。


どんな場面で使う?

参照整合性は

リレーショナルデータベースの基本ルールです。

例えば

ECサイト

顧客 → 注文

学校データ

学生 → 履修

会社データ

社員 → 部署

このように

テーブル同士の関係がある場合は必ず必要になります。


よくある誤解・混同

外部キー = 参照整合性ではない

DS検定ではこの違いが重要です。

用語 意味

外部キー 他テーブルを参照する列 参照整合性 参照関係が正しいことを保証するルール

つまり

外部キー → 構造

参照整合性 → ルール

です。


主キーとは役割が違う

用語 役割

主キー レコードを識別 外部キー 他テーブル参照 参照整合性 参照関係の正しさを保証

この3つの関係を整理できることが重要です。


DS検定の典型的なひっかけ

選択肢で次のように書かれていたら注意です。

❌ 「参照整合性は重複データを防ぐ」

これは誤りです。

重複を防ぐのは

主キーや一意制約です。

参照整合性は

存在しないデータ参照を防ぐ仕組みです。


まとめ(試験直前用)

参照整合性は 外部キーの整合性ルール

外部キーの値は参照先の主キーに存在する必要がある

存在しないデータ参照を防ぐ

更新や削除時の整合性も管理する

DS検定では

主キー = 識別 外部キー = 関係 参照整合性 = ルール

と整理して覚えると選択肢を切りやすくなります。


【対応スキル項目(データエンジニアリング力シート)】

データ管理

データベース

★ データベースの基本概念(テーブル、主キー、外部キーなど)を理解している ★ データの整合性や品質を保つ仕組みを理解している


正規表現とは?基本とひっかけポイント整理【DS検定】

  • Source: pages\ds\regular-expression-basic.md
  • Permalink: /ds/regular-expression-basic/

まず結論

正規表現とは、「文字列の形式(パターン)を表現するためのルール」です。 DS検定では「このパターンは何を意味しているか」「どこまでを一致させるのか」を判断させる問題として問われることが多いです。


直感的な説明

正規表現は、データの形をチェックするための型紙のようなものです。

たとえば電話番号 123-4567

この「3桁-4桁」という形を表現するのが正規表現です。

業務では、

入力フォームのチェック

CSVデータの前処理

ログデータの抽出

などで使われます。

DS検定では「この正規表現は何を許可しているか?」と問われることが多く、 意味を読めるかどうかがポイントになります。


定義・仕組み

正規表現は、記号を使って文字列のパターンを表現します。

例:

^\d{3}-\d{4}$

それぞれの意味は次の通りです。

^ :文字列の先頭

\d :数字1文字

{3} :3回繰り返す

:ハイフン

$ :文字列の末尾

つまりこれは、

「先頭から、数字3桁、ハイフン、数字4桁で終わる」

という意味になります。

ここで重要なのは、

正規表現は「形式」をチェックするものであり、「意味の正しさ」までは保証しない

という点です。

たとえば 999-0000 も形式としては正しいため一致します。


どんな場面で使う?

使う場面

電話番号・郵便番号の形式チェック

メールアドレスの簡易チェック

特定のパターンの文字列抽出

データ前処理で不要データを除外

使うと誤解しやすい場面

「正しい日付かどうか」まで判定できると思い込む

「完全一致」なのか「部分一致」なのかを区別していない

DS検定では、「この正規表現はどの文字列と一致するか」と問われることが多いです。

どこからどこまでを対象にしているかを必ず確認します。


よくある誤解・混同

① ^ と $ を忘れる

\d{3}-\d{4}

これだけだと、

abc123-4567xyz

のような文字列にも一致します。

選択肢では「完全一致している」と書かれていたら注意です。


② . の意味を誤解する

. は「任意の1文字」です。

^…-….$

これは数字でなくても通ってしまいます。

DS検定では 「. は数字を意味する」 といった誤った説明が選択肢に出ることがあります。


③ {3} と {3,} の違い

{3} → ちょうど3回

{3,} → 3回以上

この違いを読めるかどうかも、よく問われます。


まとめ(試験直前用)

正規表現は「文字列の形式」を表すルール

^ と $ があるかで「完全一致」かどうかが変わる

. は「任意の1文字」であり、数字ではない

正規表現は


日付形式の正規表現とは?形式チェックと妥当性の違い【DS検定】

  • Source: pages\ds\regular-expression-date.md
  • Permalink: /ds/regular-expression-date/

まず結論

日付の正規表現は「日付の形式」を確認するためのパターンです。 DS検定では、「形式チェック」と「正しい日付かどうか(妥当性)」の違いを判断できるかが問われます。


直感的な説明

たとえば、

2025-04-01

これは見た目として「年-月-日」の形式になっています。

正規表現は、この「見た目の形」が正しいかどうかを確認する道具です。

しかし、

2025-99-99

も、形だけ見れば「4桁-2桁-2桁」です。

ここが重要です。

正規表現は「それが実在する日付かどうか」までは判断しません。

DS検定ではこの違いを理解しているかどうかが問われます。


定義・仕組み

代表的な日付形式(YYYY-MM-DD)の正規表現は次の形です。

^\d{4}-\d{2}-\d{2}$

意味は次の通りです。

^ :先頭

\d{4} :数字4桁(年)

:ハイフン

\d{2} :数字2桁(月)

:ハイフン

\d{2} :数字2桁(日)

$ :末尾

つまり、

「4桁-2桁-2桁の形式で構成された文字列全体」

を表しています。

ここでのポイントは、

月が13でも一致する

日が40でも一致する

ということです。

正規表現は“範囲の妥当性”までは保証しません。


どんな場面で使う?

使う場面

CSVデータの前処理

入力フォームの形式チェック

ログデータから日付を抽出

使うと誤解しやすい場面

「正しい日付だけを抽出できる」と思い込む

月や日の上限までチェックしていると誤解する

DS検定では、 「この正規表現は妥当な日付のみを保証する」と書かれていたら誤りです。

形式チェックと意味チェックは別物です。


よくある誤解・混同

① 形式チェック=妥当性チェックだと思う

選択肢で 「この正規表現に一致すれば正しい日付である」 と書かれていたら誤りです。


② 範囲指定をしていると誤解する

\d{2} は「2桁」であって「01〜12」を意味しません。

ここはDS検定でよく狙われます。


③ 完全一致か部分一致かを見落とす

^ と $ がないと、文字列の途中に含まれていても一致します。

「完全一致」と書かれていたら、必ず ^ と $ を確認します。


まとめ(試験直前用)

日付の正規表現は「形式」だけを確認する

\d{2} は「2桁」であり、範囲チェックではない

形式チェックと妥当性チェックは別物

^ と $ があるかで完全一致かどうかが決まる

DS検定では、 「その正規表現は何を保証していないか?」を考えることが重要です。


【対応スキル項目(データエンジニアリング力シート)】

データ収集・加工

データ前処理

★ データの前処理(クレンジング・加工)ができる


メールアドレスの正規表現とは?なぜ難しいのかを整理【DS検定】

  • Source: pages\ds\regular-expression-email.md
  • Permalink: /ds/regular-expression-email/

まず結論

メールアドレスの正規表現は「文字列の構造」を確認するためのパターンですが、完全に正しいメールアドレスを保証することはできません。 DS検定では、「正規表現で何が保証できて、何が保証できないか」を判断できるかが問われます。


直感的な説明

メールアドレスは、

sample@example.com

のように

ユーザー名 @ ドメイン名

という構造をしています。

電話番号や郵便番号と違い、

英字

数字

記号

が混ざります。

そのため、正規表現も一気に複雑になります。

ここで大切なのは、

正規表現は「それっぽい形」を確認しているだけ

という理解です。


定義・仕組み

よくある簡易的なメールアドレスの正規表現は次の形です。

^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+.[A-Za-z]{2,}$

意味を分解すると、

^ :先頭

[A-Za-z0-9._%+-]+ :英数字や一部記号が1回以上

@ :アットマーク

[A-Za-z0-9.-]+ :ドメイン部分

. :ドット(.)そのもの

[A-Za-z]{2,} :2文字以上の英字

$ :末尾

ポイントは、

は「1回以上」

[] は「いずれか1文字」

. はそのままだと「任意の1文字」になるため、. と書く

という点です。


どんな場面で使う?

使う場面

入力フォームの形式チェック

不正データの簡易除外

データ前処理での基本確認

使うと誤解しやすい場面

実在するメールアドレスかどうかを判定できると思う

RFC仕様まで完全対応していると考える

DS検定では、 「この正規表現で正しいメールアドレスのみを


郵便番号の正規表現とは?電話番号との違いで理解する【DS検定】

  • Source: pages\ds\regular-expression-postalcode.md
  • Permalink: /ds/regular-expression-postalcode/

まず結論

郵便番号の正規表現は「3桁-4桁」という形式を表現するパターンです。 DS検定では、電話番号との違いを理解しながら「完全一致かどうか」を判断できるかが問われます。


直感的な説明

郵便番号は、例として 123-4567 のような形をしています。

実はこの形式は、前回学んだ電話番号(市内番号形式)と同じ構造です。

ここで重要なのは、

「同じ形でも、用途が違う」

という点です。

正規表現は意味ではなく“形”だけを見ています。

DS検定では、 「この正規表現は郵便番号を完全に表しているか?」 といった形で問われることがあります。


定義・仕組み

代表的な郵便番号の正規表現は次の形です。

^\d{3}-\d{4}$

意味は次の通りです。

^ :先頭から始まる

\d{3} :数字3桁

:ハイフン

\d{4} :数字4桁

$ :末尾で終わる

つまり、

「数字3桁-数字4桁で構成された文字列全体」

を表しています。

ここでのポイントは、

正規表現は“数字であること”しか見ていない

実在する郵便番号かどうかまでは判定しない

という点です。


どんな場面で使う?

使う場面

Webフォームでの入力チェック

データ前処理での形式確認

不正データの除外

使うと誤解しやすい場面

ハイフンなし(1234567)も許可するかどうか

部分一致を許してしまうケース

たとえば、

\d{3}-\d{4}

だけだと、文字列の途中に含まれていても一致します。

DS検定では「完全一致している」と説明されていたら、^ と $ があるかを確認します。


よくある誤解・混同

① 電話番号との混同

形は同じでも、意味は別です。

正規表現は意味を理解しているわけではありません。

選択肢で 「電話番号専用の正規表現である」 と書かれていたら誤りです。


② ハイフンの有無

次のように書くこともあります。

^\d{3}-?\d{4}$

? は「0回または1回」

これで、

123-4567 1234567


正規表現のひっかけ総整理(試験直前チートシート)【DS検定】

  • Source: pages\ds\regular-expression-summary.md
  • Permalink: /ds/regular-expression-summary/

まず結論

正規表現は「文字列の形式」を確認する道具であり、「意味の正しさ」までは保証しません。 DS検定では、“何を保証していて、何を保証していないか”を判断できるかが問われます。


直感的な説明

これまで、

電話番号

郵便番号

日付

メールアドレス

を通して学んできました。

共通しているのは、

正規表現は「形」を見ているだけ

ということです。

実務でも、正規表現は入力チェックやデータ前処理で使われますが、 「妥当性」や「実在性」までは確認しません。

DS検定では、この“限界”を理解しているかどうかが重要です。


定義・仕組み

ここで、よく出る記号を整理します。

^ :先頭

$ :末尾

. :任意の1文字

. :ドットそのもの

\d :数字1文字

{n} :ちょうどn回

{n,} :n回以上

? :0回または1回

:1回以上

:0回以上

[] :いずれか1文字

重要なのは、

記号の意味を“日本語で説明できるか”どうかです。

DS検定では「この記号の意味として正しいものはどれか」と問われることがあります。


どんな場面で使う?

使う場面

入力値の形式チェック

ログデータ抽出

データ前処理

不正データの除外

使うと誤解しやすい場面

正しい日付のみを抽出できると思う

実在するメールアドレスだけを抽出できると思う

完全一致かどうかを確認していない

DS検定では、 「完全一致である」と書かれていたら ^ と $ を探します。


よくある誤解・混同

① . を数字だと誤解する

. は「任意の1文字」です。


② 形式=妥当性だと誤解する

正規表現は範囲チェックまでは保証しません。


③ + と * の違いを曖昧にする

:1回以上

:0回以上

0回を許すかどうかは重要な違いです。


④ ^ と $ を見落とす

これが最も多いひっかけです。

部分一致と完全一致の違いを必ず確認します。


まとめ(試験直前用)

正規表現は「形式チェック」

形式と妥当性は別

. は任意の1文字

と * の違いを区別する

完全一致かどうかは ^ と $ を見る

DS検定では、 「その正規表現は何を保証していないか?」を考えると正解に近づきます。


【対応スキル項目(データエンジニアリング力シート)】

データ収集・加工

データ前処理

★ データの前処理(クレンジング・加工)ができる


レプリケーションとバックアップの違いとは?【DS検定】

  • Source: pages\ds\replication-vs-backup.md
  • Permalink: /ds/replication-vs-backup/

まず結論

  • バックアップは「過去に戻す」ための仕組み。
  • レプリケーションは「止めない」ための仕組み。
  • DS検定では「目的の違い」を理解して選択肢を切れるかが問われる。

直感的な説明

たとえば、ノートを考えてみます。

  • コピーを取って保管する → バックアップ
  • 同時にもう1冊に書き写している → レプリケーション

違いは目的です。

  • バックアップ → 消えたときに戻す
  • レプリケーション → 消えないようにする

DS検定ではこの“目的の違い”を見抜けるかが重要です。


定義・仕組み

■ バックアップ

ある時点のデータを保存しておく仕組み。

  • 定期的に保存
  • 障害発生後に復元する
  • RPOの概念と深く関係

特徴: 「時間を巻き戻す」ことができる。


■ レプリケーション

データを別の環境へ同期する仕組み。

  • リアルタイムまたは準リアルタイムで複製
  • 障害時に切り替える
  • RTOの短縮に効果的

特徴: 「止めない」ことを目的とする。


重要なのは、

  • バックアップ → データ保全
  • レプリケーション → 可用性確保

という役割の違い。


どんな場面で使う?

✔ バックアップが重要な場面

  • ランサムウェア対策
  • 誤操作によるデータ削除
  • 過去時点への復元が必要な場合

✔ レプリケーションが重要な場面

  • 24時間止められない業務
  • 金融・EC・医療システム
  • 高い可用性が求められる環境

DS検定では、 「停止時間を短くしたい」という文脈ならレプリケーション、 「データ消失に備える」ならバックアップ、 という読み取りが必要です。


よくある誤解・混同

❌ レプリケーションがあればバックアップは不要
→ 誤り。

理由: 誤操作やウイルス感染は“複製先にも同時に反映”される可能性がある。

❌ バックアップがあれば常に十分
→ 業務停止時間が長い場合は不十分。

❌ レプリケーション=バックアップ
→ 目的が異なる。

DS検定では
「レプリケーションは最強だから正解」と思わせる選択肢が出ることがある。

しかし、
“目的に合っているか”が判断基準。


まとめ(試験直前用)

  • バックアップ=過去に戻す仕組み
  • レプリケーション=止めない仕組み
  • 誤操作対策はバックアップ
  • 可用性向上はレプリケーション
  • 「目的」を見て選択肢を切る

最強構成ではなく、 業務目的との一致で判断する。


【対応スキル項目(データエンジニアリング力シート)】

  • システム設計
  • 可用性設計
  • ★ システムの可用性・信頼性を考慮した設計ができる

障害・遅延の報告とレポートラインとは?(リスクマネジメントの基本)【DS検定】

  • Source: pages\ds\report-line-risk-management.md
  • Permalink: /ds/report-line-risk-management/

まず結論

  • レポートラインとは、問題や障害を発見したときに報告する正式な経路(上司・プロジェクトリーダーなど)を指します。
  • DS検定では、問題を発見したときに「迅速にレポートラインへ報告する」というリスクマネジメントの考え方が問われます。

直感的な説明

例えば、データ分析プロジェクトで次のような状況が起きたとします。

  • 分析用データが壊れている
  • システム処理が止まっている
  • モデルの結果がおかしい

このとき、

  • 自分だけで解決しようとする
  • 問題が大きくなってから報告する

という対応をすると、プロジェクト全体に大きな影響が出る可能性があります。

そのため組織では

問題を見つけたらすぐに「レポートライン」に報告する

というルールが作られています。

DS検定でも、

「問題を発見したときに適切な行動は何か」

という形で、この考え方が問われることがあります。


定義・仕組み

レポートライン(report line)

組織において、報告を行う正式な経路のこと

通常は次のような人を指します。

  • 上司
  • プロジェクトリーダー
  • マネージャー

つまり


レピュテーションリスクとは?企業評価が下がる仕組みを理解する【DS検定】

  • Source: pages\ds\reputation-risk.md
  • Permalink: /ds/reputation-risk/

まず結論

レピュテーションリスクとは、企業や組織の評判(信用)が低下することで発生するリスクのことです。

DS検定では、不祥事・情報漏えい・システム障害などが企業評価を下げるリスクとして理解できているかが問われます。


直感的な説明

企業は商品やサービスだけでなく、「信頼」によって成り立っています。

例えば次のようなニュースを見たことがあるかもしれません。

個人情報が流出した

システム障害でサービス停止

不正なデータ操作が発覚

このような出来事が起きると、

SNSで批判が広がる

顧客が離れる

株価が下がる

といった影響が出ることがあります。

このように、

企業の評判(レピュテーション)が悪化することで生じる損失

を レピュテーションリスク と呼びます。

DS検定では、データやAIの活用においても 企業の社会的信用を損なうリスクがあることを理解しているかが問われます。


定義・仕組み

レピュテーションリスク(Reputation Risk)

**企業や組織


REST API のメソッドとは?データ操作の役割を整理【DS検定】

  • Source: pages\ds\rest-api-methods.md
  • Permalink: /ds/rest-api-methods/

まず結論

REST API のメソッドとは、API を通じてデータに対してどのような操作(取得・作成・更新・削除)を行うかを表す HTTP の命令です。 DS検定では 「GET=取得」「POST=作成」「PUT/PATCH=更新」「DELETE=削除」 を正しく切り分けられるかがよく問われます。

直感的な説明

REST API は、「データを外部システムとやり取りするための窓口」です。

そして メソッドは「その窓口で何をするか」を示す動詞です。

例えばECサイトを考えてみます。

操作 REST APIメソッド イメージ

商品情報を見る GET データを読む 新しい商品を登録 POST データを作る 商品情報を更新 PUT / PATCH データを書き換える 商品を削除 DELETE データを消す

つまり REST API は データベース操作(CRUD)を HTTP で行う仕組み と考えると理解しやすくなります。

DS検定では「外部システムからデータを取得するAPI」などの問題で GET を選ばせる問題がよく出ます。

定義・仕組み

REST API(Representational State Transfer API)は HTTP通信を使ってシステム間でデータをやり取りする仕組みです。

そのとき、HTTPには メソッド(method) があり、これによって どんな操作をしたいか をサーバーに伝えます。

代表的なメソッドは次の通りです。

メソッド 役割 典型用途

GET データ取得 データ参照 POST データ作成 新規登録 PUT データ更新(置き換え) 全体更新 PATCH データ部分更新 一部更新 DELETE データ削除 レコード削除

この対応関係は CRUD(Create / Read / Update / Delete) と対応しています。

CRUD RESTメソッド

Create POST Read GET Update PUT / PATCH Delete DELETE

DS検定では 「データ取得=GET」 の判断ができることが重要です。

どんな場面で使う?

REST API メソッドは システム間のデータ連携で広く使われます。

例えば次のような場面です。

Webサービス連携

ECサイトの商品データ取得

天気APIからの天気情報取得

地図APIからの位置情報取得

データ分析

外部APIからデータ収集

SNSデータの取得

オープンデータの取得

例えば Python ではよく次のように使います。

import requests

response = requests.get(“https://api.example.com/data”) data = response.json()

この場合は GET メソッドでデータ取得しています。

データサイエンスでは APIを使ってデータ収集する場面が多いため、REST APIの基本理解は重要です。

よくある誤解・混同

① GET と POST の混同

DS検定では GET と POST を混同させる問題がよく出ます。

メソッド 役割

GET データ取得 POST データ作成

選択肢で「外部システムからデータを取得する」と書かれていたら GET を選ぶのが基本です。

② PUT と PATCH の違い

実務では更新に PUT / PATCH の両方が使われます。

メソッド 更新範囲

PUT データ全体を置き換える PATCH 一部だけ更新

ただし DS検定では 「更新=PUT」程度の理解で十分な場合が多いです。

③ REST API と HTTP の混同

REST API は、HTTP・URL・JSON などを組み合わせた API設計のスタイルです。

つまり REST API = HTTPメソッドを使ったデータ操作 と理解しておくと問題を解きやすくなります。

まとめ(試験直前用)

REST API メソッドは データ操作の種類を表す HTTP命令

基本対応は CRUD

DS検定では特に次を押さえる

操作 メソッド

取得 GET 作成 POST 更新 PUT / PATCH 削除 DELETE

試験では 「外部システムからデータ取得」→ GET と判断できれば正解できます。


【対応スキル項目(データエンジニアリング力シート)】

データエンジニアリング力

データ収集・蓄積

★ 外部データ(オープンデータ、API 等)を取得し、分析に利用できる


REST APIとは?SOAPとの違いを整理【DS検定】

  • Source: pages\ds\rest-api.md
  • Permalink: /ds/rest-api/

まず結論

REST APIとは、HTTPメソッドを使ってリソースを操作するWebサービスの設計スタイルです。
DS検定では「RESTとSOAPの違いを判断できるか」が問われます。


直感的な説明

REST APIは、
「Web上のデータを、URLとHTTPメソッドで操作する仕組み」です。

たとえば、

  • /users/1
  • GETでアクセス → ユーザー情報を取得
  • DELETEでアクセス → ユーザー削除

というように、
URL=対象、HTTPメソッド=操作内容
という考え方で動きます。

日常の業務で言えば、

  • 顧客データを取得する
  • 注文を登録する
  • 在庫情報を更新する

こうした処理をWeb経由で行うのがREST APIです。

なぜ重要かというと、
多くのデータ連携はRESTで行われているからです。


定義・仕組み

REST(Representational State Transfer)は、
Webの仕組み(HTTP)をそのまま活用する設計原則です。

特徴は次の通りです。

  • リソース(データ)をURLで表す
  • HTTPメソッドで操作する
    • GET(取得)
    • POST(作成)
    • PUT/PATCH(更新)
    • DELETE(削除)
  • ステートレス(前回の状態を保持しない)

重要なのは、
「RESTはプロトコルではなく設計思想」という点です。

一方、SOAPは

  • XMLベースのメッセージ形式
  • 独自の通信仕様を持つ

という特徴があります。

DS検定では
REST=HTTP中心の軽量な仕組み
SOAP=XMLベースで厳密な通信仕様
という切り分けができるかがポイントです。


どんな場面で使う?

使うべき場面

  • Webアプリとサーバー間通信
  • スマホアプリとクラウドの連携
  • データ分析基盤へのデータ取得

現在の多くのクラウドAPIはRESTです。

誤解しやすい場面

  • 「XMLを使っている=RESTではない」と思い込む
    → RESTでもXMLを返すことはあります。

重要なのは
設計思想がHTTP中心かどうかです。


よくある誤解・混同

① RESTとSOAPの混同

DS検定ではよく

  • 「XMLを使う通信方式」
  • 「HTTPメソッドでCRUD操作」

を入れ替えて出してきます。

判断基準は次の通りです。

特徴 REST SOAP
通信の考え方 HTTPを活用 独自仕様
メッセージ形式 自由(JSONなど) XML固定
設計思想 軽量 厳格

選択肢で
「XMLベースのメッセージ通信」と書かれていたら
→ SOAP

「HTTPメソッドでリソース操作」と書かれていたら
→ REST

これが切り分け基準です。


まとめ(試験直前用)

  • RESTはHTTPメソッドでリソースを操作する設計思想
  • SOAPはXMLベースの通信プロトコル
  • RESTは軽量、SOAPは厳格
  • 「XML」と書いてあればSOAPの可能性が高い
  • 「CRUDをHTTPで実行」と書いてあればREST

【対応スキル項目(データエンジニアリング力シート)】

  • データ収集・蓄積
  • API・外部データ連携
  • ★ 外部APIを活用してデータを取得・連携できる
  • ★ Webサービス間のデータ連携の仕組みを理解している

収益方程式とは?KPI設計の基本となるビジネスモデル【DS検定】

  • Source: pages\ds\revenue-equation.md
  • Permalink: /ds/revenue-equation/

まず結論

収益方程式とは、企業の売上がどの要素の掛け合わせで構成されているかを表した式です。

DS検定では KPIを設計するための基本構造として理解しているかが問われます。


直感的な説明

企業の売上は、突然生まれるものではありません。

例えばECサイトなら

何人がサイトに来たか

何人が購入したか

1回の購入金額はいくらか

といった要素によって売上が決まります。

つまり売上は

いくつかの要素の組み合わせ

で決まります。

この関係を整理したものが 収益方程式です。

収益方程式を作ることで

売上を伸ばすために何を改善すべきか

どの指標をKPIとして管理すべきか

が見えてきます。


定義・仕組み

収益方程式(Revenue Equation)とは

売上や利益がどの要素の組み合わせで構成されるかを表した式

です。

一般的な収益方程式の例

売上 = 平均客単価 × 客数

この式から、売上を伸ばす方法は

客単価を上げる

客数を増やす

の2つに分解できます。

さらに客数は

客数 = 来店者数 × 購入率

のように分解できます。

このように

売上を段階的に分解する

ことで

どの要素を改善すべきか

どの指標をKPIにするべきか

が明確になります。


どんな場面で使う?

① KPI設計

KPIは

収益方程式を分解して決める

ことが一般的です。

例えば

KGI 「売上10%増加」

KPI

客単価

購入率

来店者数

といった形で設定します。


② データ分析プロジェクト

データ分析では

いきなり機械学習を行うのではなく

まず

何が売上に影響しているのか

どの指標を改善すべきか

を整理します。

そのために

収益方程式が分析の出発点

になります。


③ ビジネス課題の整理

収益方程式を作ると

例えば

来店者数が少ない

購入率が低い

客単価が低い

など

問題の原因を分解して考えることができます。


よくある誤解・混同

① 収益方程式=数式の計算ではない

DS検定では

収益方程式は

数学の式ではなくビジネス構造の整理

として使われます。

つまり

「売上を構成する要素を分解する考え方」

です。


② KPIと混同する

用語 意味

収益方程式 売上構造を分解した式 KPI その中で管理する重要指標

つまり

収益方程式 → 構造

KPI → 管理する指標

DS検定では

この違いを理解しているかが問われます。


③ 収益方程式は業界ごとに違う

例えば

ECサイト

売上 = 訪問者数 × 購入率 × 客単価

サブスクリプション

売上 = 会員数 × 月額料金

ビジネスモデルによって

収益方程式の構造は変わります。


まとめ(試験直前用)

収益方程式=売上を構成する要素を分解した式

売上の仕組みを理解するための考え方

KPI設計の出発点になる

売上を「客数」「客単価」などに分解する

DS検定では KPIとの関係がよく問われる


【対応スキル項目(ビジネス力シート)】

論理的思考

KPI

★ 一般的な収益方程式に加え、自らが担当する業務の主要な変数(KPI)を理解している


RFM分析とは?顧客価値を評価するマーケティング分析【DS検定】

  • Source: pages\ds\rfm-analysis.md
  • Permalink: /ds/rfm-analysis/

まず結論

RFM分析とは、顧客の購買行動を「最近いつ購入したか・どれくらい購入しているか・いくら使っているか」の3つの指標で評価する分析手法です。

DS検定では 顧客セグメンテーション(顧客の価値分類) の文脈で問われることが多いです。

DS検定では特に

アソシエーション分析

クラスタ分析

との 役割の違いを判断できるか が重要になります。


直感的な説明

ECサイトや店舗では、次のような顧客がいます。

最近よく買ってくれる常連客

昔は買っていたが最近来ていない顧客

一度だけ買った顧客

これらを区別しないと

優良顧客

離脱しそうな顧客

を見分けることができません。

そこで使われるのが RFM分析です。

例えば

最近購入している

何度も購入している

購入金額が大きい

顧客は 優良顧客 と考えられます。

つまりRFM分析は

顧客の価値を数値的に評価する分析です。


定義・仕組み

RFM分析は次の3つの指標で顧客を評価します。

Recency(最新購入日)

顧客が 最後に購入したのはいつか を表します。

最近購入している顧客ほど

商品への関心が高い

再購入の可能性が高い

と考えられます。


Frequency(購入頻度)

顧客が どれくらいの回数購入しているか を表します。

頻繁に購入している顧客は

リピーター(常連客)

である可能性が高いです。


Monetary(購入金額)

顧客が どれくらいの金額を使っているか を表します。

金額が大きい顧客は

企業にとって価値の高い顧客

と考えられます。


この3つを組み合わせることで

優良顧客

新規顧客

離脱しそうな顧客

などに分類することができます。


どんな場面で使う?

RFM分析は主にマーケティングで使われます。

CRM(顧客管理)

顧客の状態を分類します。

優良顧客

休眠顧客

新規顧客


マーケティング施策

顧客の状態によって施策を変えます。

優良顧客 → 特別キャンペーン

休眠顧客 → 再来店クーポン


ECサイト分析

顧客の価値を分析して

LTV(顧客生涯価値)

リピーター分析

などに活用されます。


よくある誤解・混同

DS検定では次の分析との違いがよく問われます。

アソシエーション分析との違い

分析 目的

RFM分析 顧客の価値を評価 アソシエーション分析 商品同士の関係を分析

RFM分析 → 優良顧客の発見

アソシエーション分析 → 商品の同時購入


クラスタ分析との違い

分析 内容

クラスタ分析 データを似たグループに分ける RFM分析 3指標で顧客を評価する

DS検定では

顧客の購買履歴から価値を評価する

と書かれていたら RFM分析と判断します。


まとめ(試験直前用)

RFM分析は 顧客価値を評価する分析

指標は Recency・Frequency・Monetary

顧客セグメンテーションに使われる

アソシエーション分析は 商品関係の分析

クラスタ分析は データのグループ分け

DS検定では

「顧客の購買履歴から顧客価値を評価する」

と書かれていたら

RFM分析と判断するのがポイントです。


【対応スキル項目(データサイエンス力シート)】

データ分析

データ分析手法

★ データの特徴や関係性を把握するための基本的な分析手法を理解している


リスクマネジメントとは?企業がリスクを管理する基本【DS検定】

  • Source: pages\ds\risk-management.md
  • Permalink: /ds/risk-management/

まず結論

リスクマネジメントとは、将来起こる可能性のあるリスクを事前に把握し、影響を最小化するために管理する活動です。

DS検定では、リスクを「発見 → 評価 → 対応 → 再発防止」という流れで管理する考え方を理解しているかが問われます。


直感的な説明

企業活動では、さまざまなリスクが存在します。

例えば次のようなものです。

システム障害

情報漏えい

データ分析ミス

不正行為

もしこれらの問題が突然起きると

サービス停止

売上減少

企業評価の低下

につながる可能性があります。

そこで企業では

「どんなリスクがあるのか」を事前に考え、対策を準備しておく

という活動を行います。

これが リスクマネジメント(Risk Management) です。

DS検定では、データ活用やAI導入でも

リスクを事前に管理することが重要

と理解しているかが問われます。


定義・仕組み

リスク(Risk)

リスクとは

将来発生する可能性があり、企業活動に悪影響を与える出来事

を指します。

システム停止

情報漏えい

不正アクセス

データ誤分析


リスクマネジメントの基本プロセス

リスクマネジメントは、一般的に次の流れで行われます。

リスクの特定 ↓ リスクの評価 ↓ 対策の実施 ↓ 監視・改善

DS検定では

リスクを事前に認識し、管理するプロセス

として理解することが重要です。


インシデント管理との関係

リスクマネジメントと似た言葉に

インシデント管理

があります。

違いは次の通りです。

概念 内容

リスクマネジメント 将来のリスクを事前に管理する インシデント管理 実際に発生した問題へ対応する

つまり

リスクマネジメント → 予防

インシデント管理 → 対応

という関係になります。


どんな場面で使う?

リスクマネジメントは次のような場面で重要になります。

ITシステム

サイバー攻撃対策

システム障害対策

データ活用

個人情報保護

AIの公平性

企業活動

不正防止

コンプライアンス管理

DS検定では

データ活用でもリスク管理が必要

という考え方が重要になります。


よくある誤解・混同

混同①:インシデント管理

インシデント管理は

発生した問題への対応

です。

一方

リスクマネジメントは

問題が起きる前の予防活動

です。


混同②:リスクは避ければよい

すべてのリスクを完全に避けることはできません。

そのため企業では

リスクを減らす

影響を小さくする

という管理を行います。


混同③:IT部門だけの仕事

リスクマネジメントは

IT

業務

経営

すべての部門に関係します。

DS検定では

企業全体の活動として理解すること

が重要です。


まとめ(試験直前用)

リスク=将来起こる可能性のある問題

リスクマネジメント=リスクを 事前に管理する活動

基本プロセス:特定 → 評価 → 対策 → 監視

インシデント管理は 発生後の対応

DS検定では 予防と対応の違い を理解することが重要


【対応スキル項目(ビジネス力シート)】

スキルカテゴリ:活動マネジメント

サブカテゴリ:リスクマネジメント

★ 担当するタスクの遅延や障害などを発見した場合、迅速かつ適切に報告ができる


RPOとRTOの違いとは?(障害復旧の判断基準)【DS検定】

  • Source: pages\ds\rpo-rto.md
  • Permalink: /ds/rpo-rto/

まず結論

  • RPOとRTOは「どこまで失ってよいか」と「どれだけ止めてよいか」を決める指標。
  • DS検定では「最強構成を選ぶ問題」ではなく、「業務に照らして妥当な設計を判断させる問題」として問われることが多い。

直感的な説明

システム障害が起きたとき、考えることは2つだけです。

  1. データはどこまで失ってもよいか?
  2. どれくらいの時間で復旧しないと困るか?

例えば、

  • ネット銀行 → 1分のデータ損失も困る
  • 社内の分析レポート → 数時間遅れても業務は回る

この「許容できる範囲」を明確にするのがRPOとRTOです。

DS検定では、「この業務ならどの程度が妥当か?」と判断させる出題が多いです。


定義・仕組み

■ RPO(Recovery Point Objective)

許容できるデータ損失時間。

例: RPOが1時間なら、障害発生時に「最大1時間分のデータ損失は許容する」という意味。

つまり、 「どこまで巻き戻ってもよいか」を決める指標です。


■ RTO(Recovery Time Objective)

復旧までに許容される時間。

例: RTOが2時間なら、2時間以内にシステムを復旧させる必要がある。

つまり、 「どれだけ止めてよいか」を決める指標です。


DS検定では
「RPO=時間」「RTO=時間」と覚えるのではなく、

  • RPO → データの観点
  • RTO → 業務停止時間の観点

と意味で区別できることが重要です。


どんな場面で使う?

✔ 使うべき場面

  • システム設計
  • バックアップ戦略の検討
  • クラウド移行時の可用性設計
  • 業務継続計画(BCP)

✔ 誤解しやすい場面

  • 「とりあえず最強構成にすればよい」と考えること
  • コストを無視した設計

DS検定では、 「リアルタイムレプリケーションが最強だから正解」 のような選択肢が出ることがあります。

しかし、業務要件に対して過剰であれば不適切になります。


よくある誤解・混同

❌ RPOとRTOの意味を逆にする
→ DS検定ではこの入れ替え問題が頻出。

❌ レプリケーション=常に最適解
→ コスト・複雑性を無視している場合は誤り。

❌ 増分バックアップ=常に復旧が遅い
→ RPO・RTO次第では十分妥当な戦略。

DS検定では
「最も強力な技術」ではなく
「業務に照らして妥当な設計」を選ばせてくる点に注意。


まとめ(試験直前用)

  • RPO=どこまでデータを失ってよいか
  • RTO=どれだけ業務を止めてよいか
  • 設計は「最強」ではなく「妥当性」で判断
  • 選択肢に“過剰構成”があれば疑う

判断基準は、 業務への影響を軸に考えること。


【対応スキル項目(データエンジニアリング力シート)】

  • システム設計
  • 可用性設計
  • ★ システムの可用性・信頼性を考慮した設計ができる

標本分散と不偏分散の違いとは?【DS検定リテラシー】

  • Source: pages\ds\sample-variance-unbiased-variance.md
  • Permalink: /ds/sample-variance-unbiased-variance/

まず結論

  • 標本分散は「手元データのばらつき」
  • 不偏分散は「母分散を推定するために補正したばらつき」

DS検定では
「nで割るのか」「n−1で割るのか」を正しく判断できるかが問われます。


直感的な説明

たとえば、社内アンケートで
4人だけの満足度を集めたとします。

この4人のばらつきは分かりますが、
会社全体のばらつきはまだ分かりません。

ここで出てくるのが2つの考え方です。

  • 今ある4人のデータのばらつきをそのまま見る → 標本分散
  • この4人から「会社全体のばらつき」を推定したい → 不偏分散

つまり、

不偏分散は「未来の全体」を見に行くための補正版

というイメージです。


定義・仕組み

標本分散

手元にあるデータの平均からのずれを測る指標です。
データ数 n で割ります。

これは純粋に「このデータの散らばり具合」を表します。

不偏分散

標本分散は、実は少し小さく出る傾向があります。

そこで、

  • n ではなく
  • n−1 で割る

ことで補正します。

この「−1」は自由度と呼ばれます。

直感的には、

標本平均を使った時点で、データの自由さが1つ減る

と理解すれば十分です。

この補正をしたものが、不偏分散です。


どんな場面で使う?

標本分散を使う場面

  • 単に手元データのばらつきを知りたいとき
  • データ分析の記述統計

不偏分散を使う場面

  • 母集団の分散を推定するとき
  • 統計的推定・検定の前提計算

DS検定では
「母分散を推定する」という文脈が出たら
不偏分散を選べるかがポイントです。


よくある誤解・混同

誤解①:不偏分散=母分散

これは誤りです。

不偏分散は
「母分散を推定するための値」です。

母分散そのものではありません。


誤解②:「標本」と書いてあるから n−1 で割る

DS検定ではここを混同させてきます。

  • 標本分散 → n で割る
  • 不偏分散 → n−1 で割る

「標本」という言葉に引きずられないこと。


典型的ひっかけ

選択肢に

  • 「標本分散は母分散の不偏推定量である」

とあったら誤りです。

正しくは

  • 不偏分散が母分散の不偏推定量

です。


まとめ(試験直前用)

  • 標本分散 → n で割る
  • 不偏分散 → n−1 で割る
  • 不偏分散は母分散を推定するための値
  • 「推定」という文脈が出たら不偏分散
  • 不偏分散=母分散ではない

判断基準は
目的が「記述」か「推定」かです。


【対応スキル項目(データサイエンス力シート)】

  • 統計基礎
  • 記述統計・推定の理解
  • ★ 分散・標準偏差の違いと役割を理解している

抽出方法の違いを整理(単純無作為・層化・集落・多段・系統)【DS検定】

  • Source: pages\ds\sampling-methods-comparison.md
  • Permalink: /ds/sampling-methods-comparison/

まず結論

  • 抽出方法とは、母集団の中から調査対象を選ぶ方法のことです。
  • DS検定では 「なぜその抽出方法を使うのか」 を理解しているかが問われます。

特に試験では次の5つの抽出方法を区別できることが重要です。

  • 単純無作為抽出
  • 系統抽出
  • 層化無作為抽出
  • 集落抽出
  • 多段抽出

DS検定では 層化抽出と集落抽出を混同させる問題 がよく出ます。


直感的な説明

たとえば、全国の家庭の電気使用量を調査するとします。

しかし、全国すべての家庭を調査するのは現実的ではありません。
そこで 一部だけ調査して全体を推定します。

このとき重要なのが

  • どのようにサンプルを選ぶか

という 抽出方法(サンプリング)です。

抽出方法によって

  • 調査の精度
  • コスト
  • 偏りのリスク

が大きく変わります。

DS検定では
目的に応じて抽出方法を選べるかが問われます。


定義・仕組み

代表的な抽出方法を整理します。

単純無作為抽出(Simple Random Sampling)

母集団のすべての対象が
同じ確率で選ばれるようにランダムに抽出する方法です。


住民名簿からコンピュータでランダムに100人選ぶ

特徴

  • 最も基本的な抽出方法
  • 偏りが少ない
  • 大規模調査では実務的に難しい

キーワード

  • 完全ランダム
  • 同じ確率

系統抽出(Systematic Sampling)

一定の間隔でサンプルを抽出する方法です。

名簿から

  • 最初の1人をランダムに選ぶ
  • その後は 10人ごと に抽出

特徴

  • 実務で使いやすい
  • データに周期性があると偏る可能性

キーワード

  • 一定間隔
  • k人ごと

層化無作為抽出(Stratified Sampling)

母集団を 似た性質ごとのグループ(層)に分けて抽出する方法です。

年齢別に

  • 20代
  • 30代
  • 40代

に分けて、それぞれから抽出する。

特徴

  • 偏りを防げる
  • 出現頻度が低い事象も把握できる

DS検定では
「レアケースを漏らさない」という説明が出たら
層化抽出であることが多いです。

キーワード

  • 属性別
  • 偏り防止
  • レアケース

集落抽出(Cluster Sampling)

母集団を 地域などの集団(集落)に分けて調査する方法です。

全国調査で

  • 市区町村をランダムに選ぶ
  • 選ばれた地域の世帯を調査

特徴

  • 調査コストを大きく下げられる
  • 集落の偏りが結果に影響する

キーワード

  • 地区
  • 学校
  • 市町村
  • 調査コスト

多段抽出(Multistage Sampling)

段階的に抽出を行う方法です。

  1. 都道府県を抽出
  2. 市町村を抽出
  3. 世帯を抽出

このように 複数段階で抽出する方法です。

特徴

  • 大規模統計調査でよく使われる
  • 国勢調査などで採用される

キーワード

  • 段階的
  • 複数ステップ

どんな場面で使う?

抽出方法は 目的によって選びます。

精度を高めたい場合

層化抽出

理由

  • 偏りを防げる
  • レアケースも含められる

調査コストを下げたい場合

集落抽出

理由

  • 地域単位で調査できる
  • 調査範囲を限定できる

大規模調査の場合

多段抽出

理由

  • 現実的な調査設計ができる

よくある誤解・混同

層化抽出 vs 集落抽出

DS検定で最も多い混同です。

抽出方法 目的
層化抽出 偏りを防ぐ
集落抽出 調査コスト削減

選択肢では次のように書かれることがあります。

層化抽出の特徴

  • 出現頻度が低い事象も把握できる

集落抽出の特徴

  • 地域単位で調査できる

無作為抽出の誤解

無作為とは

「完全に適当に選ぶ」ことではありません。

意味は

全ての対象が同じ確率で選ばれるようにすること

です。


まとめ(試験直前用)

抽出方法は 目的で判断するのがコツです。

  • 完全ランダム → 単純無作為抽出
  • 一定間隔 → 系統抽出
  • 偏り防止 → 層化抽出
  • 地域単位 → 集落抽出
  • 段階的抽出 → 多段抽出

DS検定では特に

層化抽出(精度)と集落抽出(コスト)

の違いを問う問題がよく出ます。


【対応スキル項目(データサイエンス力シート)】

  • 数理・統計基礎
  • データの分布とサンプリング
  • ★ 母集団と標本の違いを理解し、適切なサンプリング方法を説明できる

スクラムとは?アジャイル開発の代表的なフレームワーク【DS検定】

  • Source: pages\ds\scrum.md
  • Permalink: /ds/scrum/

まず結論

  • スクラム(Scrum)とは、アジャイル開発を実践するための代表的な開発フレームワークです。
  • DS検定では アジャイル開発の具体的な手法の一つとして理解しているかが問われます。

直感的な説明

アジャイル開発では

  • 小さく作る
  • 動かして確認する
  • 改善する

というサイクルを繰り返します。

しかし

「どうやってチームで進めるのか」

という具体的な方法が必要になります。

そこで使われるのが スクラムです。

スクラムでは

  • 短い開発期間(スプリント)
  • 毎日の進捗確認
  • 定期的な振り返り

などのルールを決めて、チームで開発を進めます。

つまり

アジャイル開発を実際に運用するための方法

と考えると理解しやすいです。


定義・仕組み

スクラム(Scrum)とは

アジャイル開発を実践するための
チームベースの開発フレームワーク

です。

スクラムでは、次の要素が重要になります。


① スプリント

スクラムでは

  • 1〜4週間程度

の短い期間で開発を行います。

この期間を スプリント と呼びます。

スプリントごとに

  • 開発
  • テスト
  • 改善

を繰り返します。


② チームの役割

スクラムでは主に次の役割があります。

役割 内容
プロダクトオーナー 製品の価値を最大化する
スクラムマスター 開発プロセスを支援する
開発チーム 実際の開発を行う

③ 定期的なミーティング

スクラムでは

  • デイリースクラム(進捗共有)
  • スプリントレビュー
  • スプリントレトロスペクティブ(振り返り)

などのミーティングを行います。

これにより

チーム全体で問題を早く発見できます。


どんな場面で使う?

① ソフトウェア開発

スクラムは

  • Webサービス
  • アプリ開発
  • システム開発

などでよく使われます。


② データ分析プロジェクト

データ分析では

  • 分析を進めると新しい課題が見つかる
  • 仮説が変わる

ことが多いため

アジャイル型の開発が向いています。

そのためスクラムを使って

  • 分析
  • モデル改善
  • 検証

を繰り返すことがあります。


③ 新規サービス開発

新しいサービスでは

  • 仕様変更
  • 機能追加

が頻繁に発生します。

スクラムを使うことで

柔軟に開発を進めることができます。


よくある誤解・混同

① アジャイル開発との違い

DS検定ではここがよく出ます。

用語 意味
アジャイル開発 開発思想・開発手法
スクラム アジャイルを実践するフレームワーク

つまり

  • アジャイル → 考え方
  • スクラム → 具体的な方法

です。


② 計画が不要なわけではない

スクラムでは

  • スプリント計画
  • タスク管理

などをしっかり行います。

そのため

自由な開発=無計画

ではありません。


③ 他のアジャイル手法との違い

アジャイル開発の代表例には

  • スクラム
  • XP(エクストリームプログラミング)
  • FDD

などがあります。

DS検定では

スクラムが最も代表的な手法

として出題されることが多いです。


まとめ(試験直前用)

  • スクラム=アジャイル開発を実践するためのフレームワーク
  • 短い期間(スプリント)で開発を繰り返す
  • チームで進捗共有・振り返りを行う
  • アジャイルは 開発思想
  • スクラムは 具体的な開発方法

【対応スキル項目(ビジネス力シート)】

  • プロジェクト推進
  • リソースマネジメント
  • ★ 指示に従ってスケジュールを守り、チームリーダーに頼まれた自分の仕事を完遂できる

自己結合とは?同じテーブルを結合する理由を理解する【DS検定】

  • Source: pages\ds\self-join.md
  • Permalink: /ds/self-join/

まず結論

自己結合(Self Join)とは、同じテーブルを2回使って結合するSQL処理です。

DS検定では 「同じテーブル内のデータ同士を結びつける」ケースで使われます。

ポイントは

テーブルが1つしかない

しかし 別の行の情報を取得したい

という状況です。


直感的な説明

自己結合は

「同じ表の中の別の行を参照する」

ために使います。

例えば次の 社員テーブルを考えます。

社員テーブル

社員ID 名前 上司ID

1 田中 3 2 鈴木 3 3 山本 NULL

この表には

社員の名前

上司のID

はあります。

しかし

上司の名前はありません。

つまり

社員 上司

田中 ? 鈴木 ?

という状態です。

ここで

上司ID = 社員ID

を使って 同じテーブルを結合します。

自己結合のイメージ

社員テーブル(社員) × 社員テーブル(上司)


自己結合の結果

社員 上司

田中 山本 鈴木 山本 山本 NULL

ここで初めて

上司の名前を取得できます。

つまり自己結合とは

同じテーブルの別の行の情報を取得する処理

です。


定義・仕組み

自己結合とは

同じテーブルに別名(エイリアス)を付けてJOINすることです。

SQLでは次のように書きます。

SELECT e1.name AS 社員, e2.name AS 上司 FROM employees e1 LEFT JOIN employees e2 ON e1.manager_id = e2.employee_id;

ここで

エイ

要配慮個人情報とは?個人情報との違いと具体例【DS検定】

  • Source: pages\ds\sensitive-personal-information.md
  • Permalink: /ds/sensitive-personal-information/

まず結論

  • 要配慮個人情報とは、差別や不利益につながる可能性がある特に慎重に扱うべき個人情報です。
  • DS検定では 「通常の個人情報より厳しい取り扱いが必要」 という点が問われます。

最大のポイントは次の一行です。

原則として本人の同意なしに取得できない個人情報

です。


直感的な説明

例えば企業が次のような情報を持っているとします。

  • 病歴
  • 障害
  • 宗教
  • 犯罪歴

これらの情報が不適切に利用されると、

  • 就職差別
  • 保険差別
  • 社会的偏見

につながる可能性があります。

そのため法律では

特に慎重に扱うべき個人情報

として

要配慮個人情報

という分類が作られています。

DS検定では

「通常の個人情報より保護が強い」

という理解が重要です。


定義・仕組み

要配慮個人情報とは

不当な差別や偏見が生じないよう
特に配慮が必要な個人情報

です。

日本の個人情報保護法で定義されています。

代表例は次の通りです。

主な例

  • 人種
  • 信条
  • 社会的身分
  • 病歴
  • 障害
  • 犯罪歴
  • 犯罪被害情報

これらは

差別や不利益につながる可能性

があるため、

通常の個人情報より厳しく扱う必要があります。


通常の個人情報との違い

種類
個人情報 氏名・住所・電話番号
要配慮個人情報 病歴・宗教・犯罪歴

DS検定では

要配慮個人情報は特別な個人情報

という理解が重要です。


重要なルール

要配慮個人情報は

原則として本人の同意なしに取得できません。

これが通常の個人情報との
大きな違いです。

DS検定では

取得時の同意

がポイントになります。


どんな場面で使う?

要配慮個人情報は主に

医療データ

例えば

  • 病院データ
  • 健康診断
  • 治療履歴

などです。


福祉サービス

例えば

  • 障害者支援
  • 介護サービス

などです。

これらの分野では

非常に慎重なデータ管理

が求められます。

DS検定では

プライバシー保護の重要性

の例として出題されます。


よくある誤解・混同

誤解①

要配慮個人情報は個人情報ではない

これは誤りです。

要配慮個人情報は

個人情報の一種

です。

ただし

より厳しい取り扱いが必要

になります。


誤解②

通常の個人情報と扱いが同じ

これも誤りです。

要配慮個人情報は

取得時に本人の同意が必要

になります。


誤解③

匿名加工情報との混同

匿名加工情報は

個人を特定できないデータ

です。

一方

要配慮個人情報は

個人情報の種類

です。

つまり

概念 意味
要配慮個人情報 個人情報の分類
匿名加工情報 個人を特定できないデータ

DS検定では
この違いを混同させる問題が出ることがあります。


まとめ(試験直前用)

  • 要配慮個人情報は 差別や偏見につながる可能性のある個人情報
  • 例:病歴・宗教・犯罪歴など
  • 通常の個人情報より厳しい取り扱い
  • 原則 本人同意なしに取得できない

DS検定では

要配慮個人情報 → 同意なし取得不可

というポイントを覚えておくと
選択肢を判断しやすくなります。


【対応スキル項目(ビジネス力シート)】

  • ビジネスにおけるデータ活用
  • 法律・倫理

★ 個人情報保護やプライバシー保護に関する法制度を理解している


有意水準とp値の違いとは?【DS検定リテラシー】

  • Source: pages\ds\significance-level-and-pvalue.md
  • Permalink: /ds/significance-level-and-pvalue/

まず結論

  • 有意水準は「どこまでなら偶然とみなすか」の基準
  • p値は「今回の結果がどれくらい偶然っぽいか」を示す値

DS検定では、
「p値と有意水準を比較して、帰無仮説を棄却できるかを判断できるか」
が問われます。

👉 判断ルールはシンプルです。
p値が有意水準より小さいとき、帰無仮説を棄却する。

ここを迷わないことが最重要です。


直感的な説明

たとえば、新しい広告を出したとします。

  • 「効果はない(たまたま売上が増えただけ)」という立場が帰無仮説
  • 「効果がある」という立場が対立仮説

ここで考えるのは、

「今回の売上増加は、偶然で説明できるレベルか?」

です。

有意水準(例:5%)

「偶然が5%以下なら、もう偶然とは言わない」と決めるルール。

p値(例:3%)

「今回の結果が偶然で起こる確率は3%です」という計算結果。

つまり、

  • 基準(有意水準)より
  • 実際の偶然度(p値)が小さい

なら、

「これは偶然ではなさそうだ」と判断します。


定義・仕組み

■ 有意水準(significance level)

  • あらかじめ決める基準値
  • 一般的には 5%(0.05)や1%(0.01)
  • 「この確率以下なら偶然ではない」とするライン

DS検定では
“事前に決める基準” であることが重要です。


■ p値(p-value)

  • 帰無仮説が正しいと仮定したとき
  • 今回のデータ以上に極端な結果が出る確率

ポイントはここです:

p値は「帰無仮説が正しい確率」ではない

ここを間違える受験者が非常に多いです。


■ 判断ルール(最重要)

比較 判断
p値 < 有意水準 帰無仮説を棄却
p値 ≥ 有意水準 棄却できない

DS検定ではこの大小関係を問われます。


どんな場面で使う?

✔ 使う場面

  • A/Bテスト
  • 広告効果検証
  • 新商品の売上改善検証
  • 医療や品質管理の統計的判断

ビジネスでは、

「偶然か、意味のある差か」

を判断するために使います。


⚠ 使うと誤解しやすい場面

  • p値が小さい=効果が大きい、ではない
  • p値が大きい=効果がない、とは限らない

p値は「効果の大きさ」ではなく
「偶然かどうかの指標」です。


よくある誤解・混同

❌ p値が低い=帰無仮説が正しい確率が低い

→ 誤りです。

p値は
「帰無仮説が正しいと仮定したときの確率」です。


❌ p値が高いときに棄却する

→ 逆です。

DS検定では
小さいときに棄却する
を確実に押さえましょう。

迷ったらこう覚えます:

p値が小さい=偶然とは言いにくい=棄却


❌ 有意水準はデータから決まる

→ 誤りです。

有意水準は事前に決める基準です。


DS検定での典型的ひっかけ

  • 「p値が0.03、有意水準5%の場合どうするか」
  • 「p値は帰無仮説が正しい確率である」

この2つは頻出です。


まとめ(試験直前用)

  • 有意水準=事前に決める基準
  • p値=今回の結果の“偶然らしさ”
  • p値 < 有意水準 → 帰無仮説を棄却
  • p値は「帰無仮説が正しい確率」ではない

迷ったら:

小さいときに棄却する

これだけ覚えておけば選択肢は切れます。


対応スキル項目(データサイエンス力シート)

  • スキルカテゴリ:統計的推論
  • サブカテゴリ:仮説検定
  • ★ 第1種の過誤、第2種の過誤、p値、有意水準の意味を説明できる

スライスとダイスの違いとは?BIツールの基本操作を整理【DS検定】

  • Source: pages\ds\slice-dice.md
  • Permalink: /ds/slice-dice/

まず結論

  • スライス(Slice):データを「1つの条件」で切り出す操作
  • ダイス(Dice):複数の条件や範囲でデータを切り出す操作

DS検定では、BIツールの操作として
「スライス・ダイス・ドリルダウン・フィルター」の違いを判断させる問題がよく出題されます。


直感的な説明

BIツールでは、大量のデータの中から
「見たい部分だけを取り出して分析する」ことが重要です。

例えば売上データがあるとします。

地域 商品 売上
2024 東京 A 100
2024 大阪 B 120
2023 東京 B 90

このとき、

  • 東京のデータだけ見る
    → スライス

  • 東京かつ2024年のデータを見る
    → ダイス

このように、
条件の数で切り方が変わると考えると理解しやすくなります。


定義・仕組み

BIツールでは、データを「多次元データ」として扱います。

例えば売上データなら

  • 地域
  • 商品
  • 売上

など複数の軸(次元)があります。

スライス(Slice)

1つの次元でデータを切り出す操作

  • 地域 = 東京
  • 年 = 2024

つまり

「1つの条件で断面を切る」

というイメージです。


ダイス(Dice)

複数の次元で範囲を指定してデータを取り出す操作

  • 地域 = 東京 or 大阪
  • 年 = 2023〜2024
  • 商品 = A

つまり

「複数条件でデータの一部分を切り出す」

操作です。


どんな場面で使う?

スライスを使う場面

  • 特定の地域だけ分析したい
  • 特定の年度だけ分析したい
  • 特定カテゴリの売上を見る

つまり

1つの条件でデータを絞る場合


ダイスを使う場面

  • 特定の地域 × 特定の年
  • 特定の商品 × 特定の期間

など

複数条件でデータ範囲を限定する場合


よくある誤解・混同

DS検定では次の操作を混同させてきます。

スライス vs ダイス

操作 意味
スライス 1つの条件で切る
ダイス 複数条件で切る

フィルターとの違い

フィルターも「条件で絞る」操作なので混同されやすいですが

  • フィルター
    → 表示するデータを条件で絞る

  • スライス / ダイス
    多次元データの一部を切り出す操作

DS検定では

「データの断面を切り出す」

と書かれていたら
スライス・ダイスを疑うのがポイントです。


ドリルダウンとの違い

操作 意味
ドリルダウン 詳細レベルへ掘り下げる
スライス 条件で切る
ダイス 複数条件で切る

つまり

  • 粒度を変える → ドリルダウン
  • 条件で切る → スライス / ダイス

です。


まとめ(試験直前用)

  • スライス:1つの条件でデータを切り出す
  • ダイス:複数条件でデータを切り出す
  • ドリルダウン:集計 → 詳細へ掘り下げる
  • フィルター:表示データを条件で絞る

DS検定では
「粒度を変えるのか」「条件で切るのか」を判断すると正解しやすくなります。


【対応スキル項目(データサイエンス力シート)】

  • データ理解・可視化
  • データ可視化

★ データの特徴を理解し、適切な可視化手法を選択できる


SOAPとは?RESTとの違いを整理【DS検定】

  • Source: pages\ds\soap.md
  • Permalink: /ds/soap/

まず結論

SOAPとは、XML形式のメッセージを使って通信するWebサービスのプロトコル(通信仕様)です。
DS検定では「RESTとの違いを正しく切り分けられるか」が問われます。


直感的な説明

SOAPは、
「厳密なルールに従ってやり取りする通信方式」です。

イメージとしては、

  • 決まったフォーマットの書類(XML)
  • 決まった封筒の形式
  • 決まった書き方

でやり取りするようなものです。

自由度は低いですが、
大企業の基幹システムのような、厳密さが求められる場面で使われてきました。

なぜ重要かというと、
DS検定では「RESTとSOAPの対比問題」が頻出だからです。


定義・仕組み

SOAP(Simple Object Access Protocol)は、

  • XMLベースのメッセージ形式
  • 通信ルールが厳密に定義されている
  • エラー処理やセキュリティ仕様も含む

という特徴を持つ通信プロトコルです。

ここが重要です。

RESTは「設計思想」ですが、
SOAPは「通信プロトコル(規格)」です。

DS検定では、

  • 「XMLベースのメッセージ通信」
  • 「厳密な仕様を持つプロトコル」

と書かれていたらSOAPを疑います。


どんな場面で使う?

使う場面

  • 銀行や保険などの基幹システム
  • 厳密なトランザクション管理が必要な場面
  • エラー処理やセキュリティを強く求められる通信

RESTよりも重厚な仕組みです。

誤解しやすい場面

  • 「Webサービス=REST」と思い込むこと

実際には、

  • REST型API
  • SOAP型Webサービス

の両方があります。

DS検定では
「Webサービス=REST」と決めつける選択肢が誤りになります。


よくある誤解・混同

① SOAPとRESTの混同

DS検定では次のように入れ替えて出されます。

  • HTTPメソッドでCRUD操作 → REST
  • XMLベースのメッセージ通信 → SOAP

判断基準はシンプルです。

観点 REST SOAP
立ち位置 設計思想 通信プロトコル
データ形式 自由(JSONなど) XML固定
重さ 軽量 重厚

② XML=SOAPという誤解

RESTでもXMLを使うことはあります。

ただし、

「XMLベースの通信プロトコル」
と書かれていたらSOAPです。

DS検定では
「XMLを使う」ではなく「XMLベースの通信仕様」かどうかが判断基準です。


まとめ(試験直前用)

  • SOAPはXMLベースの通信プロトコル
  • RESTはHTTP中心の設計思想
  • SOAPは厳密、RESTは軽量
  • 「XMLベースの通信仕様」とあればSOAP
  • 「HTTPメソッドでCRUD」とあればREST

RESTとの対比で整理して覚えることが、
DS検定の最短ルートです。


【対応スキル項目(データエンジニアリング力シート)】

  • データ収集・蓄積
  • API・外部データ連携
  • ★ 外部APIを活用してデータを取得・連携できる
  • ★ Webサービス間のデータ連携の仕組みを理解している

Society5.0とは?超スマート社会の本質を整理【DS検定】

  • Source: pages\ds\society5.md
  • Permalink: /ds/society5/

まず結論

Society5.0とは、「サイバー空間(データ)と現実空間を高度に融合させて社会課題を解決する未来社会の構想」です。

DS検定では、「AIやデータを使う目的は何か?」という文脈で問われることが多く、技術そのものではなく“社会への活用”がポイントになります。


直感的な説明

これまでの社会の流れを整理すると、次のようになります。

  • Society1.0:狩猟社会
  • Society2.0:農耕社会
  • Society3.0:工業社会
  • Society4.0:情報社会

そしてその次が Society5.0(超スマート社会) です。

たとえば、

  • 高齢者の見守りをセンサーで行う
  • 渋滞をリアルタイムデータで最適化する
  • 医療データをAIで分析して診断を支援する

こうした 「データ × AI × 社会課題解決」 がSociety5.0のイメージです。

単なるIT化ではありません。
人間中心で、社会をより良くすることが目的です。


定義・仕組み

Society5.0は、日本政府が提唱した未来社会のビジョンです。

ポイントは次の3つです。

① サイバー空間とフィジカル空間の融合

  • センサーで現実世界のデータを取得
  • クラウドやAIで分析
  • 結果を現実世界にフィードバック

これにより、社会の最適化を図ります。

② 人間中心

効率だけを追うのではなく、

  • 高齢化
  • 地方格差
  • 環境問題

といった社会課題を解決することが目的です。

③ 技術は手段

AI、IoT、ビッグデータ、ロボットなどはあくまで手段です。

目的は「豊かで持続可能な社会の実現」です。

DS検定では、
「Society5.0は技術革新そのものを指す」
という選択肢があれば誤りです。


どんな場面で使う?

使う場面

  • DX(デジタルトランスフォーメーション)の説明
  • AI導入の意義を説明するとき
  • スマートシティの議論
  • 政策や社会設計の文脈

注意が必要な場面

  • 単なるIT化との混同
  • 企業のデジタル戦略と同一視すること

Society5.0は「企業の戦略」ではなく、社会全体の構想です。


よくある誤解・混同

① DXとの違い

  • DX:企業や組織の変革
  • Society5.0:社会全体の未来像

スケールが違います。

② IoTやAIとの違い

  • IoTやAI:技術
  • Society5.0:社会モデル

DS検定では、
「Society5.0=AIのこと」
と読ませる選択肢が典型的なひっかけです。

③ 情報社会(Society4.0)との違い

情報を活用する段階がSociety4.0。
社会課題解決まで踏み込むのがSociety5.0です。


まとめ(試験直前用)

  • Society5.0=データとAIで社会課題を解決する未来社会構想
  • 技術ではなく「社会モデル」
  • 人間中心がキーワード
  • DXやAIと混同しない
  • 「目的は何か?」を問われたら社会課題解決と答える

DS検定では、「Society5.0の本質は何か?」と聞かれたら
“技術革新”ではなく“社会課題解決”と判断できるかが重要です。


【対応スキル項目(AI利活用スキルシート)】

  • AIの社会実装
  • AIの活用と社会的影響
  • ★ AIの活用により社会やビジネスがどのように変化するかを理解している

空・雨・傘とは?仮説思考の基本フレーム【DS検定】

  • Source: pages\ds\sora-ame-kasa.md
  • Permalink: /ds/sora-ame-kasa/

まず結論

空・雨・傘とは、「事実→解釈→行動」の順で考えるビジネス思考フレームです。

DS検定では、「データ(事実)と推測(解釈)を混同していないか」を判断させる問題として問われることが多いです。


直感的な説明

たとえば朝、外を見ると――

空がどんよりしている(空)

もうすぐ雨が降りそうだと考える(雨)

傘を持って出かける(傘)

これが「空・雨・傘」です。

ポイントは いきなり行動しないこと。

まず事実を見て、 そこから意味を考え、 最後に行動を決めます。

データ分析でもまったく同じ流れです。


定義・仕組み

空(事実)

観測された客観的な情報。 データそのもの。

例:

売上が前月より20%減少

Webアクセスが急


Sparkとは?ビッグデータを高速処理する分散処理エンジン【DS検定】

  • Source: pages\ds\spark.md
  • Permalink: /ds/spark/

まず結論

Spark(Apache Spark)とは、大量データを複数のコンピュータで並列処理するための高速な分散処理エンジンです。

DS検定では

HDFS=保存 / YARN=リソース管理 / Spark=データ処理

という役割の違いを理解できているかがよく問われます。


直感的な説明

ビッグデータの分析では、1台のコンピュータだけでは処理が終わりません。

例えば

数十TBのログデータ

IoTセンサーデータ

Webアクセスデータ

などを分析する場合です。

そこで使われるのが 分散処理 です。

イメージとしては

1人で計算するのではなく 100人で同時に計算する

ような仕組みです。

Sparkは

多くのサーバーを同時に使ってデータ処理を行う仕組み

です。


定義・仕組み

Sparkは

大規模データを高速に処理するための分散処理フレームワークです。

特徴は次の3つです。

① メモリ上で処理する

従来のHadoop MapReduceは

ディスクに書き込みながら処理

していました。

Sparkは

メモリ上で処理する

ため、処理速度が大幅に向上します。

そのため

機械学習

データ分析

などの処理でよく利用されます。


② 分散処理を行う

Sparkは

複数のコンピュータ(クラスタ)で

並列に処理

を実行します。

例えば

データ ↓ サーバーAで処理 サーバーBで処理 サーバーCで処理

という形で処理を分散します。


③ さまざまな処理に対応

Sparkには

次のような機能があります。

機能 内容

Spark SQL SQLでデータ分析 Spark Streaming ストリーム処理 MLlib 機械学習 GraphX グラフ処理

そのため

データ分析基盤として幅広く使われています。


どんな場面で使う?

Sparkは

ビッグデータ分析基盤で使われます。

代表的な用途は次の通りです。

ログ分析

Webアクセスログ

アプリログ

などを高速に分析できます。


機械学習

Sparkには

MLlib

という機械学習ライブラリがあります。

そのため

レコメンド

予測モデル

などの処理にも利用されます。


リアルタイム分析

Spark Streamingを使うと

IoTデータ

センサーデータ

などを リアルタイムに分析できます。


よくある誤解・混同

Sparkはデータ保存システムと思う

これは誤りです。

Sparkは

データ処理エンジンです。

データ保存は

HDFS

S3

などのストレージが担当します。


SparkとHadoopは別物と思う

完全に別というわけではありません。

Sparkは

HDFS

YARN

と組み合わせて使われることが多いです。

DS検定では

Hadoopエコシステムの一部

として理解しておくと判断しやすくなります。


MapReduceと同じと思う

MapReduceも分散処理ですが

Sparkは

メモリ処理により高速

という特徴があります。


まとめ(試験直前用)

Sparkは 分散データ処理エンジン

多くのサーバーで 並列処理 を行う

メモリ処理で高速

データ保存は HDFSなどのストレージ

DS検定では HDFS / YARN / Sparkの役割の違いが重要


【対応スキル項目(データエンジニアリング力シート)】

スキルカテゴリ名 データ蓄積

サブカテゴリ名 分散技術

★ Hadoop・Sparkの分散技術の基本的な仕組みと構成を理解している


スピアマンの順位相関とは?(Spearmanの順位相関係数)【DS検定】

  • Source: pages\ds\spearman-rank-correlation.md
  • Permalink: /ds/spearman-rank-correlation/

まず結論

  • スピアマンの順位相関とは、2つの変数の「順位」に着目して、単調な関係の強さを測る指標です。
  • DS検定では「ピアソンとの違い」「量的データか質的データか」「線形か単調か」を判断できるかが問われます。

直感的な説明

例えば、営業成績の順位と顧客満足度の順位を比べる場面を考えます。

  • 売上の絶対値はバラバラでも
  • 「上位の人ほど満足度も高い」という順番の傾向があれば関係があると言えます。

このとき使うのがスピアマンの順位相関です。

ポイントは、

「どれくらい増えたか」ではなく
「上がれば上がる、下がれば下がる」という流れを見る

ということです。

DS検定では、
「線形関係ではないが、増加傾向はある」というケースで使える指標はどれか?
と問われることが多いです。


定義・仕組み

スピアマンの順位相関は、

  1. それぞれのデータを順位に変換
  2. その順位同士で相関を計算

する方法です。

つまり、

  • 元の値そのものではなく
  • 順番だけに注目する

というのが本質です。

ピアソンとの違い

指標 見ているもの
ピアソンの積率相関 値の線形関係
スピアマンの順位相関 順位の単調関係

スピアマンは

  • データが正規分布でなくてもよい
  • 外れ値の影響を受けにくい
  • 順序尺度にも使える

という特徴があります。

DS検定では
「質的データ(順序尺度)にも使えるのはどれか?」
といった形で問われることがあります。


どんな場面で使う?

使うべき場面

  • 順位データ(例:満足度5段階)
  • 正規分布を仮定できないデータ
  • 曲線的だが、増加・減少の流れがあるデータ
  • 外れ値の影響を減らしたい場合

使うと誤解しやすい場面

  • 完全な線形関係の強さを知りたい場合
  • 増加幅そのものが重要な場合

例えば、

y = x³ のような関係は
線形ではないが単調増加です。

この場合:

  • ピアソン → 1より小さい
  • スピアマン → +1

になります。

ここはDS検定の典型的なひっかけです。


よくある誤解・混同

❌ ピアソンと同じもの

→ 違います。
ピアソンは「直線的な関係」だけを見ます。
スピアマンは「単調な関係」を見ます。


❌ 値の差をそのまま使う

→ スピアマンは順位に変換してから計算します。


❌ 名義尺度にも使える

→ 使えません。
順序があるデータ(順序尺度)までです。


DS検定での迷いポイント

  • 「線形関係」と書いてあれば → ピアソン
  • 「単調関係」と書いてあれば → スピアマン
  • 「順位」「順序尺度」と書いてあれば → スピアマン

選択肢ではここを混同させてきます。


まとめ(試験直前用)

  • スピアマンは「順位」で相関を測る
  • 単調関係を評価する指標
  • 順序尺度でも使える
  • 線形関係を測るのはピアソン

「線形か?単調か?」
これが判断基準です。


【対応スキル項目(データサイエンス力シート)】

  • スキルカテゴリ:基礎数学
  • サブカテゴリ:統計数理基礎
  • ★ 相関係数の意味を理解している
  • ★ データの尺度水準(名義尺度・順序尺度・間隔尺度・比例尺度)を理解している

DDL文とDML文の違いとは?SQLの基本操作を整理【DS検定】

  • Source: pages\ds\sql-ddl-dml.md
  • Permalink: /ds/sql-ddl-dml/

まず結論

DDL文(Data Definition Language)は「データベースの構造を定義するSQL」

DML文(Data Manipulation Language)は「テーブルに入っているデータを操作するSQL」

DS検定では、「テーブルを作るSQL」と「データを操作するSQL」の違いを理解しているかが問われることが多く、 DDL=構造、DML=データ操作と整理できるかが判断ポイントになります。


直感的な説明

データベースはよく「Excelの表」に例えられます。

まず、

表の列や構造を作る

どんなデータを入れるか決める

必要があります。

そのあとで、

データを追加する

データを修正する

データを削除する

といった操作を行います。

この2つの役割を分けたものがSQLの

DDL文:テーブルの構造を作る

DML文:テーブルのデータを操作する

という分類です。

つまり、

DDL → データの入れ物を作る DML → 中に入っているデータを扱う

と覚えると理解しやすいです。


定義・仕組み

SQL(Structured Query Language)は リレーショナルデータベースを操作するための言語です。

その中でも基本的な分類として、

DDL文(Data Definition Language)

データベースの構造を定義するSQL

代表例

SQL 意味

CREATE テーブルやデータベースを作成 ALTER テーブル構造を変更 DROP テーブルを削除

CREATE TABLE employees ( id INT, name VARCHAR(50) );

これは

「employeesというテーブル構造を作る」

DDL文です。


DML文(Data Manipulation Language)

テーブルに格納されたデータを操作するSQL

代表例

SQL 意味

SELECT データ取得 INSERT データ追加 UPDATE データ更新 DELETE データ削除

SELECT * FROM employees;

これは

「employeesテーブルのデータを取得する」

DML文になります。


どんな場面で使う?

実務では次のような流れになります。

システム開発の初期

データベースの構造を作る

CREATE TABLE

などの DDL文 を使う。


システム運用・分析

データを扱う

売上データ取得

顧客情報更新

ログデータ分析

などで

SELECT INSERT UPDATE DELETE

などの DML文 を使います。

データ分析では特に

SELECT + WHERE + JOIN + GROUP BY

のようなDML操作が頻繁に使われます。


よくある誤解・混同

① SELECTはDDLだと思ってしまう

これはよくある誤解です。

SELECTは

「データの参照」

なので DML文 に分類されます。


② SQLは全部同じ種類と思ってしまう

SQLには実は役割ごとに分類があります。

代表的には

DDL:構造定義

DML:データ操作

です。

DS検定では、

「次のうちDMLに該当するものはどれか」

という形で出題されることがあります。


③ JOINやWHEREはDDLと思ってしまう

これも注意ポイントです。

例えば

SELECT * FROM sales JOIN customers

のようなSQLは

データを取り出す操作なので すべて DML文 の範囲です。


まとめ(試験直前用)

DDL文 = データベースの構造を定義するSQL

DML文 = テーブルのデータを操作するSQL

CREATE / ALTER / DROP → DDL

SELECT / INSERT / UPDATE / DELETE → DML

DS検定では 「構造操作か、データ操作か」を区別できることが重要

迷ったら

テーブルの形を作る → DDL データを扱う → DML

で判断すると選択肢を切りやすくなります。


対応スキル項目

【対応スキル項目(データエンジニアリング力シート)】

スキルカテゴリ:プログラミング

サブカテゴリ:SQL

★ SQLの構文を一通り知っていて、記述・実行できる(DML・DDLの理解、各種JOINの使い分け、集計関数とGROUP BY、CASE文を使用した縦横変換、副問合せやEXISTSの活用など)


SQLのフィルタリング処理とは?(WHERE句によるデータ抽出)【DS検定】

  • Source: pages\ds\sql-filtering.md
  • Permalink: /ds/sql-filtering/

まず結論

SQLのフィルタリング処理とは、条件を指定して必要なデータだけを抽出する操作です。 DS検定では、「条件に合うデータだけを取り出す処理=フィルタリング(WHERE句)」と理解できているかが問われます。


直感的な説明

例えば、次のような売上データがあるとします。

日付 店舗 売上

4/1 東京 80万円 4/2 東京 120万円 4/3 大阪 90万円 4/4 東京 150万円

もし、

「売上が100万円以上の日だけ知りたい」

と思ったらどうするでしょうか。

必要なのは次のデータだけです。

日付 店舗 売上

4/2 東京 120万円 4/4 東京 150万円

このように 条件に合う行だけを取り出す操作が フィルタリング処理(Filtering)です。

Excelの「フィルター機能」やBIツールの絞り込みと同じ考え方です。

SQLではこれを WHERE句で行います。

例:

SELECT * FROM sales WHERE 売上 >= 1000000;


定義・仕組み

フィルタリング処理とは、

データに条件を指定して、条件に合致するレコード(行)だけを抽出する処理です。

SQLでは主に WHERE句を使います。

基本形は次のようになります。

SELECT 列名 FROM テーブル名 WHERE 条件;

条件にはさまざまな演算子を使うことができます。

演算子 意味

AND 複数条件をすべて満たす OR 複数条件のどれかを満たす IN 指定した値の集合に含まれる LIKE 文字列パターン検索 BETWEEN 範囲指定

例:

SELECT * FROM sales WHERE 店舗 = ‘東京’ AND 売上 >= 1000000;

これは

「東京店舗で、売上100万円以上のデータ」

を抽出しています。


どんな場面で使う?

フィルタリング処理は、データ分析ではほぼ必ず使います。

代表例:

売上分析

売上100万円以上の日を抽出

特定店舗の売上だけを見る

顧客分析

30代の顧客だけ抽出

購入回数が多い顧客

ログ分析

エラーが発生したログ

特定期間のアクセス

つまり、

必要なデータだけを取り出して分析するための基本操作

がフィルタリングです。

データ分析では 「抽出 → 集計 → 可視化」 という流れになることが多く、

フィルタリングはその 最初のステップです。


よくある誤解・混同

① フィルタリング=削除ではない

フィルタリングは

データを消す操作ではありません。

あくまで

表示・抽出する行を限定するだけ

です。


② フィルタリングと検索の混同

DS検定では次のような選択肢が出ることがあります。

❌ 「フィルタリングとはデータの検索機能である」

これは厳密には不正確です。

フィルタリングは

条件に基づくデータ抽出

です。


③ 集計処理との混同

フィルタリングは

データを選ぶ処理

であり、

平均・合計などを計算する処理ではありません。

例えば

操作 役割

フィルタリング 必要なデータを抽出 集計(GROUP BY) データをまとめて計算

この違いはDS検定でよく問われます。


まとめ(試験直前用)

フィルタリング処理=条件に合うデータだけを抽出する操作

SQLでは WHERE句を使う

Excelのフィルター機能と同じ考え方

データ分析では 抽出 → 集計 → 可視化 の最初のステップ

データ削除や集計処理と混同しないこと

DS検定では 「条件を指定してデータを抽出する処理はどれか」 という形で問われることが多いです。


対応スキル項目

【対応スキル項目(データエンジニアリング力シート)】

データ加工

フィルタリング処理

★ 数十万レコードのデータに対して、条件を指定してフィルタリングできる(特定値に合致する・もしくは合致しないデータの抽出、特定範囲のデータの抽出、部分文字列の抽出など)


GROUP BYとは?データ集計の基本を理解する【DS検定】

  • Source: pages\ds\sql-groupby.md
  • Permalink: /ds/sql-groupby/

まず結論

GROUP BYとは、データを特定の列でグループ化して集計するSQLの仕組みです。

DS検定では、WHERE(条件抽出)とGROUP BY(集計処理)の違いを理解しているかが問われることがあります。

つまり

WHERE → 行を絞る GROUP BY → データをグループごとに集計する

と整理できることが重要です。


直感的な説明

例えば、次のような売上データがあるとします。

顧客 商品 売上

田中 ノートPC 120000 佐藤 マウス 3000 田中 キーボード 8000 佐藤 モニター 30000

ここで

「顧客ごとの売上合計」

を知りたい場合があります。

このときに使うのが GROUP BY です。

結果は次のようになります。

顧客 売上合計

田中 128000 佐藤 33000

つまり

同じ値を持つ行をまとめて集計する

のがGROUP BYです。


定義・仕組み

GROUP BYとは

指定した列の値ごとにデータをグループ化するSQLの構文です。

基本構文

SELECT 列, 集計関数 FROM テーブル GROUP BY 列

SELECT customer, SUM(sales) FROM orders GROUP BY customer

このSQLは

顧客ごとの売上合計を計算する

という意味になります。

よく使う集計関数

関数 意味

COUNT 件数 SUM 合計 AVG 平均 MAX 最大値 MIN 最小値

例えば

SELECT customer, COUNT(*) FROM orders GROUP BY customer

これは

顧客ごとの注文数を集計しています。


どんな場面で使う?

GROUP BYはデータ分析で非常によく使われます。

例えば

売上分析

商品別売上

顧客別売上


マーケティング分析

地域別顧客数

年齢層別購入数


業務分析

担当者別売上

部門別コスト

このように

データをカテゴリーごとにまとめて分析する場合に使います。


よくある誤解・混同

① WHEREとGROUP BYを混同する

SQL 役割

WHERE 行を条件で絞る GROUP BY グループ化して集計

WHEREは

集計前のデータを絞る処理

GROUP BYは

データをまとめて集計する処理

です。


② GROUP BYは並び替えと思ってしまう

GROUP BYは

並び替え(ORDER BY)ではありません。

役割は

データをグループ化すること

です。


③ 集計関数なしでもGROUP BYが必要な場合

SQLでは

SELECTにある列はGROUP BYに含める必要がある

というルールがあります。

DS検定ではこのルールが選択肢のひっかけになることがあります。


まとめ(試験直前用)

GROUP BY = データをグループ化して集計するSQL

COUNT / SUM / AVGなどの集計関数と一緒に使う

WHEREは条件抽出、GROUP BYは集計処理

DS検定では WHEREとGROUP BYの役割の違いがよく問われる

迷ったら

WHERE → 行を絞る GROUP BY → グループ化して集計

と覚えると判断しやすくなります。


対応スキル項目

【対応スキル項目(データエンジニアリング力シート)】

スキルカテゴリ:プログラミング

サブカテゴリ:SQL

★ SQLの構文を一通り知っていて、記述・実行できる(DML・DDLの理解、各種JOINの使い分け、集計関数とGROUP BY、CASE文を使用した縦横変換、副問合せやEXISTSの活用など)


HAVINGとは?WHEREとの違いを整理【DS検定】

  • Source: pages\ds\sql-having.md
  • Permalink: /ds/sql-having/

まず結論

HAVINGとは、GROUP BYで集計した結果に対して条件を指定するSQLの仕組みです。

DS検定では、WHERE(行の条件)とHAVING(集計結果の条件)の違いを理解しているかがよく問われます。

整理すると

WHERE → 集計前の行を絞る HAVING → 集計後の結果を絞る

という違いになります。


直感的な説明

例えば、次のような注文データがあるとします。

顧客 商品 売上

田中 ノートPC 120000 田中 キーボード 8000 佐藤 マウス 3000 佐藤 モニター 30000

ここで

「売上合計が5万円以上の顧客だけ知りたい」

とします。

まずGROUP BYで顧客ごとに集計します。

顧客 売上合計

田中 128000 佐藤 33000

そして

売上合計が50000以上の顧客だけを取り出します。

このときに使うのが HAVING です。


定義・仕組み

HAVINGとは

GROUP BYで集計した結果に対して条件を指定するSQLの構文です。

基本構文

SELECT 列, 集計関数 FROM テーブル GROUP BY 列 HAVING 条件

SELECT customer, SUM(sales) FROM orders GROUP BY customer HAVING SUM(sales) >= 50000

このSQLは

売上合計が50000以上の顧客だけ取得する

という意味になります。


どんな場面で使う?

HAVINGは、

集計結果に条件をつけたい場合に使います。

例えば

売上分析

売上が一定以上の顧客

売上が少ない商品


マーケティング分析

購入回数が多い顧客

注文数が多い商品


業務分析

売上が多い店舗

利用回数が多いサービス

このように

集計した結果をさらに絞り込みたい場合に使用します。


よくある誤解・混同

① WHEREとHAVINGを混同する

DS検定で非常に多いひっかけです。

SQL 役割

WHERE 行の条件(集計前) HAVING 集計結果の条件

つまり

WHERE → 行を絞る

HAVING → 集計結果を絞る

です。


② HAVINGはGROUP BYなしでも使えると思う

基本的には

HAVINGはGROUP BYとセットで使う

構文です。

DS検定では

「HAVINGはGROUP BYのあとに使う」

という理解があれば十分です。


③ WHEREで集計条件を書いてしまう

例えば

WHERE SUM(sales) > 50000

これは誤りです。

集計関数の条件はHAVINGで指定します。


まとめ(試験直前用)

HAVING = 集計結果に条件をつけるSQL

GROUP BYとセットで使う

WHEREは行の条件、HAVINGは集計結果の条件

DS検定では WHEREとHAVINGの違いが頻出ポイント

迷ったら

WHERE → 集計前の行 HAVING → 集計後の結果

と覚えると選択肢を切りやすくなります。


対応スキル項目

【対応スキル項目(データエンジニアリング力シート)】

スキルカテゴリ:プログラミング

サブカテゴリ:SQL

★ SQLの構文を一通り知っていて、記述・実行できる(DML・DDLの理解、各種JOINの使い分け、集計関数とGROUP BY、CASE文を使用した縦横変換、副問合せやEXISTSの活用など)


JOINとは?テーブル結合の基本を理解する【DS検定】

  • Source: pages\ds\sql-join.md
  • Permalink: /ds/sql-join/

まず結論

JOINとは、複数のテーブルを結合してデータを取得するSQLの仕組みです。

DS検定では、複数テーブルの情報を組み合わせて分析する場面で使うSQL操作として理解しておくことが重要です。

試験では 「JOINはテーブル結合」と理解しているかが問われることが多く、 WHEREとの違いや、結合の目的を理解しているかがポイントになります。


直感的な説明

例えば、次のような2つのテーブルがあるとします。

顧客テーブル

顧客ID 名前

1 田中 2 佐藤

注文テーブル

注文ID 顧客ID 商品

101 1 ノートPC 102 2 スマートフォン

このとき

「誰が何を買ったか」

を知りたい場合、 2つのテーブルを組み合わせる必要があります。

そこで使うのが JOIN です。

JOINを使うと

名前 商品

田中 ノートPC 佐藤 スマートフォン

のように

複数テーブルの情報を1つにまとめて取得できます。


定義・仕組み

JOINとは

複数のテーブルを共通の列(キー)で結合するSQLの機能

です。

基本構文

SELECT 列 FROM テーブルA JOIN テーブルB ON 結合条件

SELECT customers.name, orders.product FROM customers JOIN orders ON customers.id = orders.customer_id;

このSQLでは

customers(顧客テーブル)

orders(注文テーブル)

顧客IDをキーとして結合しています。


どんな場面で使う?

JOINはデータ分析で非常によく使われます。

例えば

売上分析

顧客テーブル + 注文テーブル

→ 顧客ごとの売上分析


ECサイト分析

商品テーブル + 注文テーブル

→ 商品別売上ランキング


ビジネス分析

顧客テーブル + 地域テーブル

→ 地域別売上分析

このように

データは複数テーブルに分かれて保存されるため、 分析ではJOINが必須になります。


よくある誤解・混同

① JOINとWHEREを混同する

DS検定ではよく

JOINとWHEREの役割の違い

がひっかけになります。

SQL 役割

JOIN テーブルを結合する WHERE データを条件で絞る

つまり

JOIN → テーブル結合

WHERE → 条件抽出

です。


② JOINはデータを追加する操作と思う

JOINは

データを変更するSQLではありません

あくまで

データを取得するときに結合する仕組み

です。


③ JOINは2テーブルだけと思う

JOINは

3つ以上のテーブルでも使用できます。

A JOIN B JOIN C

のように複数結合することも可能です。


まとめ(試験直前用)

JOIN = 複数テーブルを結合するSQL

共通キーを使ってデータを組み合わせる

データ分析では頻繁に使う操作

DS検定では JOIN(テーブル結合)とWHERE(条件抽出)を混同させる問題が多い

迷ったら

JOIN → テーブル結合 WHERE → 条件抽出

と覚えておくと選択肢を切りやすくなります。


対応スキル項目

【対応スキル項目(データエンジニアリング力シート)】

スキルカテゴリ:プログラミング

サブカテゴリ:SQL

★ SQLの構文を一通り知っていて、記述・実行できる(DML・DDLの理解、各種JOINの使い分け、集計関数とGROUP BY、CASE文を使用した縦横変換、副問合せやEXISTSの活用など)


WHERE句とは?条件抽出の基本を理解する【DS検定】

  • Source: pages\ds\sql-where.md
  • Permalink: /ds/sql-where/

まず結論

WHERE句とは、SQLで特定の条件に一致するデータだけを取り出すための仕組みです。

DS検定では、JOIN(テーブル結合)とWHERE(条件抽出)の役割の違いを理解しているかがよく問われます。

つまり

JOIN → テーブルを結合する WHERE → 条件でデータを絞る

と整理できるかが重要です。


直感的な説明

例えば、次のような売上データがあるとします。

顧客 商品 価格

田中 ノートPC 120000 佐藤 マウス 3000 鈴木 キーボード 8000

この中から

「1万円以上の商品だけ知りたい」

場合があります。

そのときに使うのが WHERE句 です。

SELECT * FROM sales WHERE price >= 10000

すると

顧客 商品 価格

田中 ノートPC 120000

のように

条件に合うデータだけ取得できます。


定義・仕組み

WHERE句とは

データを取得する際に条件を指定するSQLの構文です。

基本構文

SELECT 列 FROM テーブル WHERE 条件

例えば

SELECT name FROM customers WHERE city = ‘Tokyo’

このSQLは

「Tokyoの顧客だけ取得する」

という意味になります。

よく使う条件演算子

演算子 意味

= 等しい

より大きい <	より小さい =	以上 <=	以下 <>	等しくない

また、複数条件を組み合わせることもできます。

WHERE price > 1000 AND price < 10000


どんな場面で使う?

WHERE句は、データ分析では必ず使う基本機能です。

例えば

売上分析

高額商品の抽出

特定商品の売上確認


顧客分析

特定地域の顧客

年齢条件の顧客


ログ分析

特定日時のログ

エラーの発生データ

このように

必要なデータだけ取り出すためのフィルターとして使います。


よくある誤解・混同

① JOINとWHEREを混同する

DS検定ではここがよく出題されます。

SQL 役割

JOIN テーブルを結合 WHERE 条件抽出

JOINは

テーブルをつなぐ操作

WHEREは

データを絞る操作

です。


② WHEREはデータを変更すると思う

WHEREは

データを変更する機能ではありません。

データを変更するSQLは

UPDATE

DELETE

などです。

WHEREは

「どのデータを対象にするか」

を指定する役割です。


③ WHEREはSELECTでしか使わない

WHEREは

SELECT

UPDATE

DELETE

などでも使われます。

つまり

対象データを指定する条件として使われます。


まとめ(試験直前用)

WHERE句 = 条件に一致するデータを抽出するSQL

データを絞るフィルターの役割

JOINはテーブル結合、WHEREは条件抽出

DS検定では JOINとWHEREの違いを問う問題が多い

迷ったら

JOIN → テーブル結合 WHERE → 条件抽出

と覚えると判断しやすくなります。


対応スキル項目

【対応スキル項目(データエンジニアリング力シート)】

スキルカテゴリ:プログラミング

サブカテゴリ:SQL

★ SQLの構文を一通り知っていて、記述・実行できる(DML・DDLの理解、各種JOINの使い分け、集計関数とGROUP BY、CASE文を使用した縦横変換、副問合せやEXISTSの活用など)


SSL/TLSとは?公開鍵暗号と共通鍵暗号の役割を整理【DS検定】

  • Source: pages\ds\ssl-tls.md
  • Permalink: /ds/ssl-tls/

まず結論

SSL/TLSとは、通信の最初に公開鍵暗号で安全に鍵を共有し、その後は共通鍵暗号で高速にデータを守る仕組みです。

DS検定では、「どの場面でどの暗号方式が使われるか」を判断できるかが問われます。


直感的な説明

SSL/TLSは、ネット上で安全に会話するための「二段構えの防犯システム」です。

① 最初に“合言葉(鍵)”を安全に決める
② その合言葉を使って、実際の会話を暗号化する

ここで大事なのは、

  • 合言葉を決めるとき → 安全性重視
  • 会話を続けるとき → スピード重視

という役割の違いです。

この違いが、「公開鍵暗号」と「共通鍵暗号」の使い分けにつながります。


定義・仕組み

SSL(現在はTLSが主流)は、Webサイトとブラウザの間の通信を暗号化するプロトコルです。

仕組みは次の通りです

① 最初の鍵交換

  • 公開鍵暗号(非対称鍵暗号)を使う
  • サーバーの公開鍵を使って安全に通信を始める
  • 共通鍵(セッション鍵)を安全に生成・共有する

② その後の通信

  • 共通鍵暗号(対称鍵暗号)を使う
  • 同じ鍵でデータを暗号化・復号する
  • 高速で大量のデータを処理できる

DS検定では
「SSLは公開鍵暗号で通信する」と書かれていたら注意です。

正しくは、

  • 鍵交換は公開鍵暗号
  • データ通信は共通鍵暗号

という役割分担です。


どんな場面で使う?

  • WebサイトのHTTPS通信
  • クレジットカード情報の送信
  • ログイン情報の送信
  • API通信

ビジネス現場では、 「顧客情報を送信しているのに暗号化していない」 という状況は重大なリスクです。

DS検定では、

  • 暗号化の目的は「盗聴防止」
  • 認証の目的は「相手が本物か確認」

という観点も問われます。


よくある誤解・混同

❌ SSLは公開鍵暗号で通信する

→ それは一部だけ。実際の通信は共通鍵暗号。

❌ 共通鍵暗号は古くて危険

→ 鍵共有が安全なら、むしろ高速で強力。

❌ 暗号化=認証

→ 暗号化は「内容を守る」
→ 認証は「相手を確認する」

DS検定では
「公開鍵暗号=安全」「共通鍵暗号=弱い」と思い込ませる選択肢が出やすいです。

判断基準は、

  • 鍵をどうやって安全に共有するか?
  • 通信速度はどう確保するか?

この2つで整理してください。


まとめ(試験直前用)

  • SSL/TLSは二段構え
  • 鍵交換は公開鍵暗号
  • 通信は共通鍵暗号
  • 公開鍵=安全に鍵を渡す役割
  • 共通鍵=高速に通信する役割

「最初は公開鍵、その後は共通鍵」

これだけ思い出せれば、選択肢は切れます。


【対応スキル項目(AI利活用スキルシート)】

  • AIの社会実装
  • セキュリティ・リスク管理
  • ★ AIを活用する際のセキュリティリスクを理解している

スタースキーマとは?ファクトテーブルとディメンションテーブルを理解する【DS検定】

  • Source: pages\ds\star-schema.md
  • Permalink: /ds/star-schema/

まず結論

  • スタースキーマ(Star Schema)とは、データウェアハウスで使われるデータ構造の一つです。
  • 中心に ファクトテーブル(事実データ) を置き、その周囲に ディメンションテーブル(分析軸) を配置します。

DS検定では

ファクトテーブルとディメンションテーブルの違い

を理解しているかがよく問われます。


直感的な説明

例えば売上分析を考えます。

企業では

  • 商品
  • 地域
  • 日付

などの視点から売上を分析します。

このときデータは次のように整理されます。

商品
     |
地域 — 売上 — 日付 | 顧客

中央にある

売上データ

がファクトテーブルです。

周囲にある

  • 商品
  • 地域
  • 日付
  • 顧客

などは 分析の視点であり、ディメンションテーブルです。

この形が星の形に見えるため

スタースキーマ

と呼ばれます。


定義・仕組み

スタースキーマは

データウェアハウスで使われるデータモデル

です。

構成は次の2種類です。

ファクトテーブル

事実データ(数値データ)を持つテーブルです。

日付 商品ID 地域ID 売上
2024/01 A 東京 100

特徴

  • 数値データ
  • 集計対象
  • 外部キーを持つ

ディメンションテーブル

分析の視点となる情報を持つテーブルです。

商品テーブル

商品ID 商品名 カテゴリ
A ノートPC 電子機器

地域テーブル

地域ID 地域名
1 東京

特徴

  • 分析の軸
  • 属性情報を持つ

どんな場面で使う?

スタースキーマは

データウェアハウス(DWH)

で使われます。

例えば

BIツール分析

BIツールでは

  • 商品別売上
  • 地域別売上
  • 月別売上

などを分析します。

このとき

ファクトテーブルとディメンションテーブルを使うことで

高速な分析が可能になります。


OLAP分析

OLAPでは

  • スライス
  • ダイス
  • ドリルダウン

などの分析を行います。

これらは

ディメンションを使った分析

です。


よくある誤解・混同

ファクトテーブル vs ディメンションテーブル

テーブル 内容
ファクトテーブル 売上・数量などの数値データ
ディメンションテーブル 商品・地域などの分析軸

DS検定では

数値データ=ファクト

と覚えると判断しやすいです。


スタースキーマ vs 正規化データベース

通常のデータベースは

データの重複を減らす(正規化)

ことを重視します。

一方、スタースキーマは

分析の高速化

を重視します。

そのため

多少データが重複していても
分析しやすい構造になっています。


まとめ(試験直前用)

  • スタースキーマ=データウェアハウスのデータ構造
  • 中央:ファクトテーブル(数値データ)
  • 周囲:ディメンションテーブル(分析軸)
  • BIツールやOLAP分析で利用される
  • DS検定では
    ファクト=数値データと覚えると判断しやすい

【対応スキル項目(データエンジニアリング力シート)】

  • データ基盤
  • データ管理

★ データベースやデータウェアハウスなどのデータ管理基盤の基本概念を理解している


統計の基本まとめ(平均・分散・相関・回帰の関係を整理)【DS検定】

  • Source: pages\ds\statistics-overview.md
  • Permalink: /ds/statistics-overview/

まず結論

統計とは「データのばらつき」と「データ同士の関係」を理解するための考え方です。

DS検定では特に次の流れを理解しているかが問われます。

データの代表値(平均など)

データのばらつき(分散・標準偏差)

データ同士の関係(共分散・相関係数)

予測モデルの説明力(決定係数)

DS検定では、これらの用語の意味の違いを理解して選択肢を切れるかが重要になります。


直感的な説明

統計は大きく分けて 2つのことを知るための道具です。

① データはどんな値の集まりか

例えば、ある会社の社員の年齢データがあったとします。

25, 27, 29, 30, 31

ここで知りたいのは次のようなことです。

だいたい何歳くらいなのか

年齢のばらつきは大きいのか

このとき使うのが

平均

分散

標準偏差

です。


② データ同士に関係はあるか

例えば次のようなデータです。

気温 アイス売上

20℃ 100 25℃ 150 30℃ 200

ここでは

気温が上がると売上も増える

という関係があります。

この関係を調べるときに使うのが

共分散

相関係数

です。

さらに、

その関係でどれくらい予測できるか

を見る指標が

決定係数

です。


定義・仕組み

DS検定では統計の指標を 役割ごとに整理して理解することが重要です。

① データの中心を表す指標

代表値(中心を表す)

平均(Mean)

中央値(Median)

最頻値(Mode)

DS検定では

平均は外れ値の影響を受けやすい

というポイントがよく問われます。


② データのばらつきを表す指標

ばらつき(散らばり)

分散

標準偏差

直感的には

分散 → ばらつきの大きさ

標準偏差 → 分散を元の単位に戻したもの

と理解しておくと十分です。


③ 2つのデータの関係

2変数の関係

共分散

相関係数

共分散は

2つのデータが一緒に増えるか減るか

を見る指標です。

しかし共分散には

単位の影響を受ける

という問題があります。

そこで登場するのが

相関係数です。

相関係数は

−1 ~ 1 の範囲

関係の強さを表す

という特徴があります。


④ 回帰と説明力

データの関係を使って

予測モデル

を作ることを 回帰分析といいます。

そのモデルが

どれくらいデータを説明できているか

を表す指標が

決定係数(R²)

です。

DS検定では

相関係数 r

決定係数 R²

の関係もよく問われます。

単回帰では

決定係数 = 相関係数²

という関係になります。


どんな場面で使う?

統計の指標はデータ分析の基本です。

データの特徴を知る

売上データの平均

顧客年齢のばらつき

ここでは

平均

分散

標準偏差

を使います。


データ同士の関係を調べる

広告費と売上

気温と電力消費

ここでは

共分散

相関係数

を使います。


予測モデルを評価する

売上予測モデル

需要予測

ここでは

回帰分析

決定係数

が使われます。


よくある誤解・混同

相関がある=因果関係がある

これはよくある誤解です。

DS検定でも

相関と因果の違い

はよく問われます。

有名な例

アイス売上 ↑

溺死事故 ↑

これは相関があります。

しかし原因は

気温

です。

つまり

相関 ≠ 因果

です。


相関係数0=関係なし

これも注意が必要です。

相関係数は

直線関係

しか測れません。

例えば

y = x²

のような関係では

相関係数が0に近くなることがあります。


相関係数が高い=予測できる

これも誤解です。

相関が高くても

外れ値

説明変数不足

などの理由で

予測が当たらないことがあります。

DS検定ではこのような選択肢がよく出ます。


まとめ(試験直前用)

DS検定の統計は次の流れで整理すると理解しやすくなります。

代表値 ↓ 平均・中央値 ↓ ばらつき ↓ 分散・標準偏差 ↓ 2変数の関係 ↓ 共分散・相関係数 ↓ 予測モデル ↓ 決定係数

試験では次のポイントを覚えておくと判断しやすくなります。

相関 ≠ 因果

相関係数は直線関係のみを見る

決定係数はモデルの説明力


【対応スキル項目(データサイエンス力シート)】

スキルカテゴリ名 データサイエンス基礎

サブカテゴリ名 統計数理基礎

★ 基本的な統計量(平均、分散、標準偏差など)を理解し、データの特徴を説明できる

★ 相関や回帰など、複数の変数間の関係性を理解し説明できる


DS検定でよく出る統計まとめ(平均・分散・相関を一気に整理)

  • Source: pages\ds\statistics-summary.md
  • Permalink: /ds/statistics-summary/

まず結論

DS検定の統計問題は、次の流れで理解すると整理できます。

  1. データの中心
  2. データのばらつき
  3. データ同士の関係
  4. モデルの説明力
  5. 分布の読み取り

つまり

平均

分散・標準偏差

共分散・相関係数

決定係数

箱ひげ図・外れ値

という構造です。

DS検定では
公式よりも「何を表す指標か」を理解しているかが問われます。


① データの中心

まず最初に理解するのが
データの代表値です。

代表的なものは3つです。

  • 平均(mean)
  • 中央値(median)
  • 最頻値(mode)

平均はよく使われますが、

外れ値の影響を受けやすい

という特徴があります。

そのためDS検定では

平均
中央値

の違いを理解しているかが問われます。


② データのばらつき

平均だけではデータの特徴は分かりません。

例えば

平均70点のクラスでも

  • 全員70点付近
  • 40点〜100点

では全く違います。

そこで使うのが

  • 分散
  • 標準偏差

です。

  • 分散 → 平均からどれくらい離れているか
  • 標準偏差 → 分散を元の単位に戻したもの

詳しくはこちら

分散と標準偏差とは


③ データ同士の関係

次に重要なのが

2つのデータの関係

です。

例えば

  • 気温とアイス売上
  • 勉強時間とテスト点数

この関係を表すのが

  • 共分散
  • 相関係数

です。

相関係数の特徴

  • -1〜1の範囲
  • 0に近い → 関係が弱い

詳しくはこちら

共分散と相関係数とは


④ モデルの説明力

相関が分かると
次は 予測モデルです。

回帰分析では

決定係数(R²)

が重要になります。

決定係数は

モデルがどれくらいデータを説明できるか

を表します。


ステミングとレンマ化の違いとは?(テキスト前処理の基本)【DS検定】

  • Source: pages\ds\stemming-vs-lemmatization.md
  • Permalink: /ds/stemming-vs-lemmatization/

まず結論

ステミングとレンマ化は、単語を「基本形にそろえる」前処理だが、精度と方法が異なる。

DS検定では「どちらがより正確か」「意味を考慮するのはどちらか」といった判断を問われることが多いです。


直感的な説明

文章データを扱うとき、
「run」「running」「ran」が全部バラバラに扱われたら困ります。

検索や分析では、
「同じ意味の単語は同じ形にそろえたい」
という場面がよくあります。

そこで使われるのが、

  • ステミング → とりあえず語尾を機械的に削る
  • レンマ化 → 辞書を使って正しい基本形に直す

という方法です。

ざっくり言えば、

  • 速いけど荒いのがステミング
  • 遅いけど正確なのがレンマ化

というイメージです。


定義・仕組み

ステミング(Stemming)

単語の語尾などを機械的に削って「語幹」にする方法です。

例:

  • running → runn
  • studies → studi

特徴:

  • 文法や意味を考えない
  • ルールベースで単純
  • 処理が速い

つまり、「意味が正しいか」よりも「形が似ていればOK」という発想です。


レンマ化(Lemmatization)

辞書や品詞情報を使って、正しい原形(lemma)に変換する方法です。

例:

  • running → run
  • better → good

特徴:

  • 品詞を考慮する
  • 意味を保つ
  • 精度が高い

つまり、「言語として正しい形」に戻すのがレンマ化です。


どんな場面で使う?

ステミングを使う場面

  • 大量テキストを高速処理したい
  • おおまかな検索
  • 意味の厳密性が不要な分析

レンマ化を使う場面

  • 感情分析
  • 文書分類
  • 意味を正確に扱う必要があるAIモデル

DS検定では
「意味の保存が重要な場合はどちらか?」
と問われることがあります。

答えはレンマ化です。


よくある誤解・混同

① 同じものだと思ってしまう

両方とも「単語をそろえる処理」ですが、

  • ステミング → 機械的
  • レンマ化 → 意味を考慮

という違いがあります。


② レンマ化の方が常に良いと思ってしまう

精度は高いですが、

  • 処理が重い
  • 言語リソースが必要

というデメリットもあります。

用途によって使い分けることが重要です。


③ DS検定のひっかけポイント

選択肢で

  • 「辞書を用いる」
  • 「品詞を考慮する」
  • 「文法的に正しい原形に戻す」

と書いてあればレンマ化です。

一方で、

  • 「語尾を削除する」
  • 「単純なルール処理」
  • 「高速だが粗い」

と書いてあればステミングです。


まとめ(試験直前用)

  • 両者はテキストの前処理
  • ステミングは機械的に語尾を削る
  • レンマ化は辞書・品詞を考慮する
  • 意味を保ちたいならレンマ化
  • 高速処理重視ならステミング

「意味を考慮するかどうか」が判断基準。


【対応スキル項目(AI利活用スキルシート)】

  • AI活用基礎
  • 自然言語処理の基礎理解
  • ★ テキストデータの前処理手法(形態素解析・ステミングなど)を理解している

スチューデントの検定(t検定)とは?【DS検定リテラシー】

  • Source: pages\ds\student-t-test.md
  • Permalink: /ds/student-t-test/

まず結論

スチューデントの検定(t検定)とは、「平均の差が偶然かどうか」を判断するための検定です。
DS検定では「平均の比較なのか」「割合の比較なのか」を切り分けられるかが問われます。


直感的な説明

たとえば、
「新しい研修を受けた社員」と
「受けていない社員」で、テストの平均点が違ったとします。

でも、その差は本当に研修の効果でしょうか?
それとも、たまたまのばらつきでしょうか?

t検定は、

その差は“偶然の範囲”か?
それとも“意味のある差”か?

を判断する道具です。

ビジネスの現場では
「施策の効果が本当にあったのか?」を判断するときに使います。


定義・仕組み

スチューデントの検定(t検定)は、

  • 標本の平均を比較し
  • その差が統計的に有意かどうかを判断する方法

です。

ポイントは次の2つです。

  • 母分散が分からないときに使う
  • 標本サイズがそれほど大きくない場合によく使う

t値という指標を計算し、
それが「偶然では起こりにくい大きさかどうか」で判断します。

ここで重要なのは、
差の大きさそのものではなく、「ばらつきとのバランス」で判断するという点です。

DS検定では「平均との差がある=有意」とは限らないことを理解しているかが問われます。


どんな場面で使う?

使うべき場面

  • 2つのグループの平均を比較したいとき
  • サンプル数がそれほど多くないとき
  • 母分散が分からないとき

例:

  • A/Bテストの効果検証
  • 施策前後の売上平均の比較
  • 教育プログラムの効果測定

使うと誤解しやすい場面

  • 割合(%)を比較するとき → 別の検定を使う
  • 3群以上を同時に比較するとき → 分散分析を使う
  • 相関を調べたいとき → 相関係数の検定

「平均の比較なのか?」をまず確認することが判断の出発点です。


よくある誤解・混同

① z検定との混同

DS検定では
「母分散が分かっている場合はz検定」
と書かれていたら注意です。

実務では母分散が分かることはほとんどありません。
そのため、基本はt検定を想定します。

② 分散分析との混同

  • 2群比較 → t検定
  • 3群以上 → 分散分析

この切り分けは頻出です。

③ “有意=重要”だと思い込む

「統計的に有意」=「ビジネス的に重要」
ではありません。

DS検定ではこの点を混同させる選択肢がよく出ます。


まとめ(試験直前用)

  • t検定=平均の差が偶然かどうかを判断する検定
  • 2群比較かどうかをまず確認する
  • 有意=効果が大きい、ではない
  • z検定・分散分析との切り分けが重要

迷ったら、

「これは平均の比較か?」
「群はいくつか?」

この2点で判断します。


【対応スキル項目(データサイエンス力シート)】

  • 統計学の基礎
  • 仮説検定の理解
  • ★ 仮説検定の基本的な考え方を理解している

SWOT分析とは?企業の強みと外部環境を整理するフレームワーク【DS検定】

  • Source: pages\ds\swot-analysis.md
  • Permalink: /ds/swot-analysis/

まず結論

SWOT分析(SWOT Analysis)とは、企業や事業の状況を「強み・弱み・機会・脅威」の4つの視点で整理するフレームワークです。

DS検定では 企業の戦略を考えるための基本的なビジネスフレームワークとして出題されます。

DS検定では特に

5フォース分析

PEST分析

との 分析対象の違い を判断できるかが重要です。


直感的な説明

例えば、新しいサービスを始めるとします。

そのとき次のようなことを考えます。

自社の強みは何か

自社の弱みは何か

市場のチャンスはあるか

競争や規制のリスクはあるか

これらを整理すると

どの戦略を取るべきか

が見えてきます。

このように

企業の内部と外部の状況を整理する方法

が SWOT分析 です。


定義・仕組み

SWOT分析は次の4つの要素で構成されます。

Strength(強み)

企業の内部にある 優れている点 です。

ブランド力

技術力

コスト競争力


Weakness(弱み)

企業の内部にある 改善すべき点 です。

知名度が低い

資金力が弱い


Opportunity(機会)

企業の外部環境にある ビジネスチャンス です。

市場の成長

新しい技術の登場


Threat(脅威)

企業の外部環境にある リスク要因 です。

競争の激化

法規制の強化


このように

内部要因

外部要因

を整理することで

戦略立案に役立てることができます。


どんな場面で使う?

SWOT分析は主に次のような場面で使われます。

事業戦略の立案

企業の状況を整理して

強みを活かす戦略

弱みを補う戦略

を考えます。


新規事業の検討

市場機会とリスクを整理して

参入するべきか

どのように参入するか

を判断します。


マーケティング戦略

企業の立ち位置を理解し

ターゲット市場

競争戦略

を決めるときに使われます。


よくある誤解・混同

DS検定では次の分析との違いがよく問われます。

5フォース分析との違い

分析 内容

SWOT分析 企業の内部と外部環境を整理 5フォース分析 業界の競争構造を分析

5フォース分析は

業界の競争環境を分析する手法です。


PEST分析との違い

分析 内容

SWOT分析 企業視点で内部・外部を整理 PEST分析 マクロ環境を分析

PEST分析は

政治

経済

社会

技術

などの 外部環境分析です。


まとめ(試験直前用)

SWOT分析は 企業の内部と外部環境を整理するフレームワーク

Strength・Weakness・Opportunity・Threat

内部要因と外部要因を整理する

5フォース分析は 業界の競争環境

PEST分析は マクロ環境分析

DS検定では

「企業の強み・弱み・機会・脅威を整理する」

と書かれていたら

SWOT分析と判断するのがポイントです。


【対応スキル項目(ビジネス力シート)】

ビジネス理解

ビジネスフレームワーク

★ ビジネス課題を整理するための基本的なフレームワークを理解している


対称差集合とは?意味と考え方をやさしく整理【DS検定】

  • Source: pages\ds\symmetric-difference.md
  • Permalink: /ds/symmetric-difference/

まず結論

  • 対称差集合とは「どちらか一方にだけ含まれる要素の集合」です。
  • DS検定では、「和集合から共通部分を除く」という関係を正しく判断できるかが問われます。

直感的な説明

2つのグループを考えてみます。

  • P:Pythonが使える人
  • Q:SQLが使える人

対称差集合は、

「Pythonだけ使える人」と「SQLだけ使える人」

の集合です。

両方に当てはまる人は含みません。

つまり、

  • 「重なっている部分」は除く
  • 「どちらか片方だけ」を残す

というイメージです。


定義・仕組み

集合 P と集合 Q の対称差集合は、

P と Q のどちらか一方にのみ属する要素の集合

です。

式で表すと、次の形になります。

  • (P ∪ Q) − (P ∩ Q)

意味だけ押さえましょう。

  • P ∪ Q … どちらかに含まれるすべて
  • P ∩ Q … 両方に含まれる部分
  • それを引く → 重なりを取り除く

つまり、

「全部集めて、重なりだけ削る」

という操作です。

DS検定ではこの変形が選択肢で出ます。


どんな場面で使う?

① データの差分比較

  • 前回購入した人と今回購入した人の差分
  • 旧システムと新システムで一致しないレコード

「共通している部分」ではなく
「どちらかにしかない部分」を知りたいときに使います。

② データクリーニング

  • 2つのデータセットの不一致検出
  • 重複を除外したいとき

よくある誤解・混同

❌ 和集合と混同する

和集合(P ∪ Q)は「どちらか、または両方」です。

対称差集合は「どちらか片方だけ」です。

DS検定では
「または」という日本語に注意させてくる問題が多いです。


❌ 差集合と混同する

P − Q は
「Pにだけあるもの」です。

対称差は
「Pだけ」+「Qだけ」です。

片側だけではありません。

さらに重要なのはここです。

  • P − Q と Q − P は 異なる
  • しかし PΔQ と QΔP は 同じ

対称差は「どちらか一方にだけ含まれるもの」を 両側から集めた集合なので、順番を入れ替えても結果は変わりません。

一方、差集合は「片側だけ」を取るため、 順番で結果が変わります。

DS検定では
「順番で変わるか?」を判断させる選択肢が出ることがあります。


排他的論理和との関係

対称差集合は論理でいう
「排他的OR(どちらか一方)」と同じ考え方です。

選択肢で

  • 「共通部分を含む」と書いてあれば誤り
  • 「重複を除く」と書いてあれば正しい方向

と判断できます。


まとめ(試験直前用)

  • 対称差集合=「どちらか片方だけ」
  • 共通部分は含まない
  • 和集合 − 共通部分という発想
  • 「または(両方含む)」との違いに注意

DS検定では
“重なりを除く”と書いてあるかどうかが判断基準です。


【対応スキル項目(データサイエンス力シート)】

  • 数理・統計基礎力
  • 集合と論理の基礎理解
  • ★ 和集合、積集合、差集合、対称差集合、補集合についてベン図を用いて説明できる

個人情報の第三者提供とは?同意とオプトアウトのルール【DS検定】

  • Source: pages\ds\third-party-provision.md
  • Permalink: /ds/third-party-provision/

まず結論

  • 第三者提供とは、企業が保有する個人情報を別の企業や組織に提供することです。
  • DS検定では 「本人同意が必要かどうか」 を判断する問題がよく出ます。

基本ルールは次の通りです。

個人情報の第三者提供は原則として本人の同意が必要です。


直感的な説明

例えばECサイトが次のようなデータを持っているとします。

  • 名前
  • メールアドレス
  • 購買履歴

このデータを

  • 広告会社
  • マーケティング会社

に渡すとします。

この行為が

第三者提供

です。

このとき本人が知らないまま
データが共有されると問題になるため、

法律では

本人の同意が必要

とされています。

DS検定では

データ活用とプライバシー保護のバランス

の観点で出題されます。


定義・仕組み

第三者提供とは

企業が保有する個人情報を
自社以外の第三者に提供すること

です。

ここでいう第三者とは

  • 別会社
  • 別組織
  • 外部サービス

などです。


基本ルール

個人情報を第三者に提供する場合は

本人の同意が必要

です。

  • 顧客情報を広告会社へ提供
  • 会員データを他社と共有

オプトアウト制度

一部の場合では

オプトアウト

という仕組みがあります。

オプトアウトとは

本人が拒否できる仕組みを用意することで
事前同意なしで第三者提供できる制度

です。

ただし

次の条件が必要です。

  • 本人が拒否できることを明示
  • 個人情報保護委員会への届出
  • 本人が停止要求できる

DS検定では

同意不要になる例外

として問われることがあります。


要配慮個人情報の場合

重要な例外があります。

要配慮個人情報は
オプトアウトによる第三者提供ができません。

つまり

情報種類 第三者提供
個人情報 同意必要(例外あり)
要配慮個人情報 必ず同意必要

DS検定では
この違いがよく問われます。


どんな場面で使う?

第三者提供は主に

データビジネス

例えば

  • 広告配信
  • マーケティング
  • データ分析

などです。

企業がデータを共有することで
新しいサービスが生まれます。


業務委託

例えば

  • クラウドサービス
  • コールセンター
  • システム管理

などです。

ただし

業務委託は第三者提供に該当しない場合があります。

DS検定では

この区別を問われることがあります。


よくある誤解・混同

誤解①

第三者提供はすべて禁止

これは誤りです。

第三者提供は

本人同意があれば可能

です。


誤解②

オプトアウトなら何でも提供できる

これは誤りです。

要配慮個人情報は

オプトアウト不可

です。


誤解③

業務委託は第三者提供

これは必ずしも正しくありません。

例えば

  • クラウド
  • データ処理委託

などは

委託先の管理下で扱われる場合

第三者提供には該当しません。

DS検定では
この区別が問われることがあります。


まとめ(試験直前用)

  • 第三者提供は 個人情報を外部へ提供すること
  • 原則 本人同意が必要
  • 例外として オプトアウト制度
  • 要配慮個人情報はオプトアウト不可

DS検定では

第三者提供 → 同意原則

という理解が重要です。


【対応スキル項目(ビジネス力シート)】

  • ビジネスにおけるデータ活用
  • 法律・倫理

★ 個人情報保護やプライバシー保護に関する法制度を理解している


第一種の過誤と第二種の過誤の違いとは?【DS検定リテラシー】

  • Source: pages\ds\type1-type2-error.md
  • Permalink: /ds/type1-type2-error/

まず結論

  • 第一種の過誤=本当は差がないのに「ある」と判断してしまう誤り
  • 第二種の過誤=本当は差があるのに「ない」と判断してしまう誤り

DS検定では
「どちらがどの誤りか」「検定力とどう関係するか」を判断できるかが問われます。


直感的な説明

たとえば、新しい薬の効果を検証する場面を考えます。

帰無仮説:「この薬には効果がない」

■ 第一種の過誤(タイプⅠエラー)

本当は効果がないのに
「効果がある」と言ってしまう。

誤って採用してしまうミス


■ 第二種の過誤(タイプⅡエラー)

本当は効果があるのに
「効果はない」と言ってしまう。

本当の効果を見逃すミス


ビジネスで言い換えると:

状況 何が起きている?
第一種の過誤 ダメな施策を「成功」と判断
第二種の過誤 本当は有効な施策を却下

どちらも重大ですが、意味がまったく違います。


定義・仕組み

仮説検定では、

  • 差がない → 帰無仮説
  • 差がある → 対立仮説

という構造を取ります。

■ 第一種の過誤(α)

帰無仮説が正しいのに棄却する誤り。

この確率が 有意水準(α) です。

つまり、

有意水準=第一種の過誤をどこまで許すか

ということです。


■ 第二種の過誤(β)

帰無仮説が誤りなのに棄却できない誤り。

この確率が β(ベータ)です。


■ 検定力(power)

検定力 = 1 − β

意味は:

本当に差があるときに、きちんと差を見つけられる力

DS検定では、

  • 「検定力が高い」とは何か
  • 「βとの関係は何か」

を理解しているかが問われます。


どんな場面で使う?

✔ 医療

  • 第一種の過誤:効かない薬を承認
  • 第二種の過誤:効く薬を却下

✔ ビジネス施策

  • 第一種:意味のない改善を採用
  • 第二種:有効な改善を見逃す

✔ 品質管理

  • 第一種:正常品を不良と判定
  • 第二種:不良品を正常と判定

状況によって「どちらを重く見るか」は変わります。


よくある誤解・混同

❌ 第一種と第二種を逆に覚える

DS検定ではここをよく混同させてきます。

覚え方:

第一種=「ある」と言ってしまうミス
第二種=「ない」と言ってしまうミス


❌ 有意水準=第二種の過誤

→ 誤りです。

有意水準は 第一種の過誤(α) です。


❌ 検定力=有意水準

→ 誤りです。

検定力は 1 − β です。


❌ 有意水準を下げれば全部よくなる

有意水準を厳しくすると:

  • 第一種の過誤は減る
  • しかし第二種の過誤は増えやすい

つまり、

αとβはトレードオフの関係

ここはDS検定でよく問われます。


DS検定での典型的なひっかけ

  • 「検定力とは第一種の過誤を犯す確率である」
  • 「有意水準は第二種の過誤である」

このような選択肢は誤りです。


まとめ(試験直前用)

  • 第一種の過誤=差がないのに「ある」と判断(α)
  • 第二種の過誤=差があるのに「ない」と判断(β)
  • 検定力=1 − β(見逃さない力)
  • αとβはトレードオフ

迷ったら:

第一種=誤って採用
第二種=誤って却下

この判断軸で選択肢を切れます。


対応スキル項目(データサイエンス力シート)

  • スキルカテゴリ:統計的推論
  • サブカテゴリ:仮説検定
  • ★ 第1種の過誤、第2種の過誤、p値、有意水準の意味を説明できる本当は効果があるのに「効果はない」と判断してしまう。
    → チャンスを逃す。

どちらもビジネスでは大きな損失になります。


定義・仕組み

第一種の過誤(Type I Error)

  • 帰無仮説が真なのに棄却してしまう誤り
  • 起こる確率=有意水準(α)

有意水準を5%に設定するということは、
「5%の確率で第一種の過誤を許容する」という意味です。

第二種の過誤(Type II Error)

  • 帰無仮説が偽なのに棄却できない誤り
  • その確率を β と呼ぶ

検出力(Power)

  • 検出力= 1 − β
  • 本当に効果があるときに、正しく見抜ける確率

一般に、検出力は0.8以上が望ましいとされます。


p値との関係

p値とは、

「帰無仮説が正しいと仮定したときに、今のデータ以上に極端な結果が出る確率」

です。

  • p値が有意水準より小さい → 帰無仮説を棄却
  • p値が大きい → 棄却できない

DS検定では、

  • p値は「帰無仮説が正しい確率」ではない
  • p値が小さい=効果が大きい、ではない

といった誤解を突く問題がよく出ます。


どんな場面で使う?

使う場面

  • A/Bテスト
  • 新商品の効果検証
  • 医療の治療効果判定
  • 不良品率の改善確認

実務で重要なポイント

  • 第一種の過誤を小さくすると、第二種の過誤が増えやすい
  • サンプルサイズを増やすと、検出力が上がる

つまり、

「どちらの誤りをより避けたいのか」

が設計の出発点になります。


よくある誤解・混同

① 第一種と第二種を逆に覚える

DS検定ではここをよく入れ替えてきます。
「誤って棄却」か「棄却できない誤り」かで判断します。


② p値=帰無仮説が正しい確率

これは誤りです。
p値は「データの珍しさ」です。


③ 有意水準を下げれば安心

有意水準を1%にすると第一種の過誤は減りますが、
第二種の過誤は増えやすくなります。

試験では、

「有意水準を下げると検出力が上がる」

という選択肢があれば誤りです。


まとめ(試験直前用)

  • 第一種の過誤=本当は差がないのに棄却
  • 第二種の過誤=本当は差があるのに棄却できない
  • 有意水準=第一種の過誤の確率
  • 検出力=本当に効果があるとき見抜ける確率
  • p値は「帰無仮説が正しい確率」ではない

DS検定では
「どの確率を指しているのか」を冷静に切り分けることが重要です。


【対応スキル項目(データサイエンス力シート)】

  • 統計基礎
  • 仮説検定
  • ★ 仮説検定における有意水準・p値・第一種の過誤・第二種の過誤の意味を理解している

分散と標準偏差の違いとは?ばらつきをどう読むか【DS検定】

  • Source: pages\ds\variance-and-standard-deviation.md
  • Permalink: /ds/variance-and-standard-deviation/

まず結論

分散と標準偏差はどちらも「データのばらつきの大きさ」を表す指標で、標準偏差は分散の平方根です。

DS検定では、「ばらつきの意味を理解しているか」と「単位の違いを説明できるか」が問われます。


直感的な説明

たとえば、テストの点数が次の2クラスでどう違うか考えてみます。

  • Aクラス:ほとんどの人が70点前後
  • Bクラス:30点の人もいれば100点の人もいる

平均点が同じでも、「散らばり方」は違います。

この「散らばり方の大きさ」を数値にしたのが
分散や標準偏差です。

ビジネスでは、

  • 売上の安定度
  • 製品の品質のばらつき
  • 作業時間の安定性

などを見るときに使われます。


定義・仕組み

分散の考え方

分散は、

「それぞれのデータが平均からどれだけ離れているか」を
「二乗して平均したもの」

です。

代表的な式は次の通りです。

\[\mathrm{Var}(X) = \frac{1}{n} \sum (x_i - \bar{x})^2\]

意味は、

  • 平均からのズレを計算する
  • プラス・マイナスを打ち消さないために二乗する
  • 全体で平均する

という流れです。


標準偏差の考え方

標準偏差は、

\[\sigma = \sqrt{\mathrm{Var}(X)}\]

つまり、

分散の平方根

です。

なぜ平方根をとるのか?

分散は「二乗」しているため、単位も二乗になります。

例:

  • 点数 → 点²
  • 円 → 円²

これでは直感的に理解しにくい。

そこで平方根をとることで、
元の単位に戻して解釈しやすくしたものが標準偏差です。


どんな場面で使う?

分散を使う場面

  • 数学的な理論展開
  • 統計モデル内部の計算
  • 分散共分散行列

実務では分散単体を解釈することはあまり多くありません。


標準偏差を使う場面

  • データのばらつきを説明するとき
  • 安定性を評価するとき
  • 異常値を判断するとき

ビジネスでは基本的に「標準偏差」を使います。


よくある誤解・混同

① 分散と標準偏差は同じ?

違います。

標準偏差は分散の平方根です。

DS検定では、

「標準偏差は分散の二乗である」

という選択肢は誤りです。


② 標準偏差は平均と同じ単位?

これは正しいです。

標準偏差は元の単位と同じです。


③ 分散が大きい=必ず異常?

必ずしもそうではありません。

もともとばらつきが大きいデータかもしれません。

文脈なしに「大きい=問題」と判断する選択肢は注意です。


④ 分散と標準偏差の符号

どちらも必ず0以上です。

マイナスになることはありません。


まとめ(試験直前用)

  • 分散:平均からのズレを二乗して平均したもの
  • 標準偏差:分散の平方根
  • 標準偏差は元の単位で解釈できる
  • どちらも0以上
  • 実務で解釈するのは基本的に標準偏差

【対応スキル項目(データサイエンス力シート)】

  • データ理解
  • データのばらつき把握
  • ★ 分散と標準偏差の意味を理解している

分散と標準偏差とは?ばらつきを理解する基本統計【DS検定】

  • Source: pages\ds\variance-standard-deviation.md
  • Permalink: /ds/variance-standard-deviation/

まず結論

分散と標準偏差は、データが平均からどれくらい散らばっているか(ばらつき)を表す指標です。

DS検定では

平均だけではデータの特徴は分からない

ばらつきを表す指標として分散や標準偏差を使う

という理解ができているかが問われます。


直感的な説明

例えば、2つのクラスのテスト平均点がどちらも 70点 だったとします。

クラスA

68 70 72 69 71

クラスB

40 60 70 80 100

どちらも平均は70点ですが、データの様子はかなり違います。

クラスA

70点の近くに集まっている

クラスB

点数が大きくばらついている

このように

平均だけではデータの特徴は分かりません。

そこで使うのが

分散

標準偏差

です。

これらは

データのばらつきの大きさ

を表します。


定義・仕組み

分散と標準偏差は

平均からどれくらい離れているか

をもとに計算されます。

分散

分散は

データが平均からどれくらい離れているかを平均したもの

です。

直感的には

平均から大きく離れるデータが多い

→ 分散は大きくなる

平均の近くにデータが集まっている

→ 分散は小さくなる

という関係になります。

ただし平均との差は

プラス

マイナス

があるため、そのまま平均すると打ち消し合ってしまいます。

そこで

平均との差を二乗してから平均する

という方法を使います。


標準偏差

分散には一つ問題があります。

それは

単位が二乗になること

です。

例えば

身長(cm) → 分散(cm²)

になります。

これでは直感的に分かりにくいため

分散の平方根

を取ったものが

標準偏差です。

標準偏差は

元のデータと同じ単位でばらつきを表せる

という特徴があります。


どんな場面で使う?

分散や標準偏差は

データの特徴を理解する最初のステップ

で使われます。

例えば

売上データのばらつき

顧客年齢のばらつき

センサー値の変動

などです。

特にデータ分析では

平均

標準偏差

をセットで確認することが多くあります。

平均だけでは分からない

データの安定性やばらつき

を理解できるためです。


よくある誤解・混同

平均が同じならデータの特徴も同じ

これは誤りです。

平均が同じでも

ばらつきが小さいデータ

ばらつきが大きいデータ

は存在します。

DS検定では

平均だけではデータの特徴は判断できない

という理解が重要です。


分散と標準偏差は同じもの

この2つは似ていますが役割が違います。

分散

ばらつきの大きさを表す基本指標

標準偏差

分散を元の単位に戻したもの

実務では

標準偏差の方が直感的に理解しやすいためよく使われます。


まとめ(試験直前用)

分散と標準偏差は

データのばらつき

を表す指標です。

覚えるポイント

平均だけではデータの特徴は分からない

分散は平均からのズレの大きさ

標準偏差は分散を元の単位に戻したもの

DS検定では

平均とばらつきをセットで考える

ことが重要です。


【対応スキル項目(データサイエンス力シート)】

スキルカテゴリ名 データサイエンス基礎

サブカテゴリ名 統計数理基礎

★ 基本的な統計量(平均、分散、標準偏差など)を理解し、データの特徴を説明できる


ベクトルの内積とは?意味と使いどころを整理【DS検定】

  • Source: pages\ds\vector-dot-product.md
  • Permalink: /ds/vector-dot-product/

まず結論

ベクトルの内積とは、二つのベクトルがどれだけ同じ方向を向いているかを数値で表す仕組みで、
DS検定では「計算」よりも意味の理解と使いどころが問われます。


直感的な説明

ベクトルを「矢印」だと思ってください。

  • 同じ向き → 内積は大きい
  • 直角 → 内積はゼロ
  • 逆向き → 内積はマイナス

つまり内積は、
方向の一致度を数値化したものです。

DS検定では
「似ている」「関係が強い」「一致している」
といった文脈で内積が登場します。


定義・仕組み

二つのベクトルの内積は、
対応する要素を掛けて足し合わせた値です。

例:

  • ベクトルA = (a₁, a₂)
  • ベクトルB = (b₁, b₂)

内積は
a₁×b₁ + a₂×b₂
となります。

また、内積は
大きさ × 大きさ × 角度の情報
をまとめたものとも解釈できます。

このため、

  • 角度が90度 → 内積は0
  • 向きが揃うほど → 内積は大きくなる

という性質を持ちます。


どんな場面で使う?

内積は、次のような場面で使われます。

  • 特徴量ベクトル同士の「似ている度合い」
  • 線形式をコンパクトに表現したいとき
  • 機械学習モデルの内部計算(重み×入力)

特に重要なのが、
線形式を内積として表現できるという点です。

これは
「複数の掛け算と足し算を、1つの内積としてまとめられる」
という意味で、モデル理解の基礎になります。


よくある誤解・混同

DS検定でよくあるひっかけは次の通りです。

  • ❌ 内積 = ベクトルの長さ
  • ⭕ 内積 = 向きの一致度を含む量

  • ❌ 内積が大きい = 距離が近い
  • ⭕ 内積が大きい = 方向が似ている

距離(ユークリッド距離)と
内積・類似度を混同させる選択肢は要注意です。


まとめ(試験直前用)

  • 内積は「向きの一致度」を表す
  • 直角なら内積はゼロ
  • 線形式は内積としてまとめて書ける
  • 距離と内積は別物なので混同しない

【対応スキル項目(データサイエンス力シート)】

  • 数学的理解
  • 線形代数基礎
  • ★ ベクトルの内積に関する計算方法を理解し、線形式をベクトルの内積で表現できる

※ 試験要件の一覧は
データサイエンス力シート を参照


VPNとSSHの違いとは?(安全な通信の仕組みを整理)【DS検定】

  • Source: pages\ds\vpn-ssh.md
  • Permalink: /ds/vpn-ssh/

まず結論

  • VPNは「ネットワーク全体を安全につなぐ仕組み」
  • SSHは「1台のサーバに安全に接続する仕組み」

DS検定では、「守っている範囲の違い」を切り分けられるかがポイントです。


直感的な説明

会社の社内ネットワークに自宅から接続する場面を考えてみます。

  • VPNは「会社の中にいるのと同じ状態をつくるトンネル」
  • SSHは「特定のサーバの部屋に入る鍵」

VPNは“ネットワーク全体”を安全に使えるようにします。
SSHは“特定の1台”に安全にログインします。

DS検定では、
「社内システム全体へ安全に接続する方法はどれか?」
のような問いで出ます。


定義・仕組み

VPN(Virtual Private Network)

  • インターネット上に暗号化された専用回線のような経路をつくる仕組み
  • 社内ネットワークへ安全にアクセスできる
  • 接続すると、社内LANの一部として扱われる

つまり、VPNは「安全なネットワーク環境を作る」技術です。


SSH(Secure Shell)

  • 特定のサーバへ暗号化された通信でログインする仕組み
  • コマンド操作やファイル転送が可能
  • 接続対象は基本的に1台

SSHは「安全な遠隔操作」のための技術です。


どんな場面で使う?

VPNを使う場面

  • 在宅勤務で社内システムを使う
  • 社内サーバ群へまとめてアクセスする
  • 社内専用のデータベースに接続する

VPNは「会社の中に入る」イメージです。


SSHを使う場面

  • クラウド上のLinuxサーバにログインする
  • サーバ設定を変更する
  • ログを確認する

SSHは「1台を操作する」イメージです。


よくある誤解・混同

❌ VPNはサーバ操作専用の技術である

→ VPNはネットワーク接続の仕組みです。

❌ SSHを使えば社内ネットワーク全体に入れる

→ SSHは基本的に特定サーバへの接続です。


DS検定の典型ひっかけ

  • 「社内ネットワークに安全に接続する方法はどれか?」 → VPN

  • 「リモートでサーバを安全に操作する方法はどれか?」 → SSH

ここで“守る範囲”を意識できるかが勝負です。


まとめ(試験直前用)

  • VPN=ネットワーク全体を安全に接続
  • SSH=特定サーバへ安全にログイン
  • VPNは「中に入る」
  • SSHは「1台を操作する」

選択肢では
「社内ネットワーク」「在宅勤務」「LAN接続」ならVPN。
「サーバ操作」「コマンド実行」ならSSH。


【対応スキル項目(データエンジニアリング力シート)】

  • ITシステム基盤
  • セキュリティ
  • ★ 情報セキュリティの基本的な考え方を理解している
  • ★ ネットワークおよび通信の基礎を理解している

WBS(Work Breakdown Structure)とは?タスクを分解してプロジェクトを管理する方法【DS検定】

  • Source: pages\ds\wbs.md
  • Permalink: /ds/wbs/

まず結論

WBS(Work Breakdown Structure)とは、プロジェクトの作業を細かいタスクに分解して整理する管理手法です。

DS検定では、プロジェクト管理で「作業を構造的に分解する方法」として理解しているかが問われます。


直感的な説明

データ分析プロジェクトでは、

データ収集

データ前処理

分析

可視化

レポート作成

といった多くの作業が発生します。

しかし、

「分析をする」

だけでは作業が大きすぎて、 誰が・いつまでに・何をするのかが分かりません。

そこで使われるのが WBS です。

例えば次のように分解します。

売上分析プロジェクト ├ データ収集 │ ├ DBからデータ取得 │ └ CSV整理 ├ 前処理 │ ├ 欠損値処理 │ └ 外れ値確認 ├ 分析 │ ├ 売上推移分析 │ └ 顧客分析 └ レポート作成

このように 作業を階層的に分解して整理することで、 プロジェクト全体を管理しやすくなります。


定義・仕組み

WBS(Work Breakdown Structure)とは、

プロジェクトの成果物や作業を 小さな単位のタスクに分解して構造化する管理手法

です。

特徴は次の3つです。

① 作業を細かく分解する

大きな仕事をそのまま管理するのではなく、

作業

サブ作業

具体的タスク

のように 段階的に分解します。


② 階層構造で整理する

WBSはツリー構造で整理します。

プロジェクト ├ 作業 │ ├ タスク │ └ タスク └ 作業

これにより

作業の抜け漏れ

重複作業

を防ぐことができます。


③ スケジュール管理の基礎になる

WBSはそのまま

スケジュール作成

担当割り当て

進捗管理

の土台になります。

例えば

ガントチャート

プロジェクト管理ツール

などは WBSを元に作成されることが多いです。


どんな場面で使う?

① データ分析プロジェクト

例:

データ収集

データクリーニング

モデル作成

評価

レポート作成

データサイエンスの仕事は工程が多いため、 WBSで整理することで作業管理がしやすくなります。


② システム開発

システム開発では

要件定義

設計

開発

テスト

などの工程があります。

これらを さらに細かいタスクに分解して管理します。


③ プロジェクト管理全般

WBSは次のような管理にも使われます。

スケジュール管理

タスク管理

リソース管理

DS検定でも プロジェクトマネジメントの基本知識として登場します。


よくある誤解・混同

① WBS=スケジュール表ではない

WBSは

作業の分解

です。

一方で

ガントチャート

スケジュール表

は 時間管理のツールです。

DS検定では

WBS → 作業の分解

ガントチャート → スケジュール管理

と整理しておきましょう。


② WBS=組織図ではない

WBSは

作業の構造

を表します。

似た図に

組織図

役割分担表

がありますが、

それらは 人の構造です。

DS検定では

作業を分解している図かどうか

が判断ポイントになります。


③ タスク一覧とWBSは違う

単なるリスト

・データ収集 ・前処理 ・分析

これは タスクリストです。

WBSは

分析 ├ データ収集 ├ 前処理 └ モデル作成

のように 階層構造で整理することが特徴です。


まとめ(試験直前用)

WBS=作業を階層的に分解するプロジェクト管理手法

スケジュールではなく 作業構造を整理するもの

ガントチャートは スケジュール管理

DS検定では 「作業分解」か「時間管理」かを区別できるかがポイント


【対応スキル項目(ビジネス力シート)】

プロジェクト推進

リソースマネジメント

★ 指示に従ってスケジュールを守り、チームリーダーに頼まれた自分の仕事を完遂できる


弱いAIと強いAIの違いとは?【DS検定リテラシー】

  • Source: pages\ds\weak-strong-ai.md
  • Permalink: /ds/weak-strong-ai/

まず結論

弱いAIは特定の作業に特化したAI、強いAIは人間のように幅広い知能を持つとされる理論上のAIである。

DS検定では、「特化型=弱いAI」「汎用的知能=強いAI」という対応関係を正しく判断できるかが問われます。


直感的な説明

イメージしてみてください。

  • 電卓は「計算だけ」なら人間より速い
  • 翻訳AIは「翻訳だけ」なら非常に優秀

でも、電卓に人生相談はできません。

これが 弱いAI(特化型AI) です。
「ある目的に限って強い」のが特徴です。

一方で 強いAI は、

  • 会話もできる
  • 推論もできる
  • 新しい問題にも対応できる

という、人間のような“汎用的な知能”を持つとされる概念です。
ただし、現時点では実現していません。


定義・仕組み

弱いAI(Weak AI)

  • 特定のタスクに限定された人工知能
  • 目的が明確に定義されている
  • 現在実用化されているAIのほとんどがこれ

例:

  • 画像認識AI
  • レコメンドAI
  • 自動運転の個別機能

「知能の一部を代替している」と考えると分かりやすいです。


強いAI(Strong AI)

  • 人間のように汎用的な知能を持つAI
  • 自律的に考え、幅広い問題を解決できる存在
  • 現在は理論的概念

重要なのは、「強いAI=賢いAI」ではなく
“汎用的知能を持つかどうか”が本質的な違い という点です。


どんな場面で使う?

ビジネス文脈

DS検定ではよく次のように問われます。

  • 現在のAIはどの分類か?
  • 汎用型AIと特化型AIの違いは何か?
  • 強いAIは実現しているか?

企業でAI導入を考える場合も、 「今使えるのは弱いAI(特化型)」であることを理解することが重要です。


よくある誤解・混同

❌ 「強いAI=性能が高いAI」

違います。
強いAIは「性能の高さ」ではなく「汎用性」が基準です。


❌ 「生成AIは強いAIである」

現在の生成AIも弱いAI(特化型AI)です。
高度でも、特定目的に最適化されているためです。


❌ 「強いAIはロボットのこと」

ロボットかどうかは関係ありません。
知能の性質の違いを問う概念です。


DS検定でのひっかけ

  • 「自意識を持つ」などの表現が入ると混乱しやすい
  • 「特化型」と「汎用型」を逆に書いてくる選択肢が非常に多い

選択肢では
“特定の作業に限定される”と書かれていたら弱いAI
と判断できるかがポイントです。


まとめ(試験直前用)

  • 弱いAI=特定のタスクに特化
  • 強いAI=人間のような汎用的知能(理論上)
  • 現在実用化されているのは弱いAI
  • 「性能の高さ」と「汎用性」は別物
  • 迷ったら「限定されるかどうか」で判断

【対応スキル項目(AI利活用スキルシート)】

  • AIの基礎理解
  • AIの社会実装

★ AIの特徴・仕組み・限界を理解している
★ AIの適用範囲と限界を理解している


Web APIとは?HTTPでサービスとデータをやり取りする仕組み【DS検定】

  • Source: pages\ds\web-api.md
  • Permalink: /ds/web-api/

まず結論

Web APIとは、HTTP通信を使って外部のサービスやデータをプログラムから利用できる仕組みです。

DS検定では 「Web APIはHTTP通信を利用する」 「GETやPOSTなどのHTTPメソッドでデータをやり取りする」 という理解があるかを問われることが多いです。

特に試験では

Web APIはJSONだけを扱う

Web APIでは画像は取得できない

のような 誤った思い込みを狙った選択肢がよく出ます。


直感的な説明

Web APIは、 「プログラムがWebサービスにお願いする窓口」のようなものです。

例えば次のようなサービスがあります。

天気情報サービス

地図サービス

株価データ

生成AI

翻訳サービス

これらのサービスは、 ブラウザだけでなく プログラムからも利用できます。

例えばPythonから

天気データをください

とリクエストすると

今日の天気:晴れ 気温:25℃

のようなデータが返ってきます。

このように プログラムがHTTP通信を使ってサービスとデータをやり取りする仕組み がWeb APIです。


定義・仕組み

Web APIは次の仕組みで動きます。

① HTTP通信を利用する

Web APIは

HTTP

HTTPS

といった Web通信の仕組みを使います。

つまり、Webブラウザと同じ通信方式です。


② HTTPメソッドを使って操作する

Web APIでは HTTPメソッドを使って操作を表現します。

代表例

メソッド 意味

GET データを取得する POST データを送信する PUT データを更新する DELETE データを削除する

DS検定では

「Web APIのメソッドとしてGETやPOSTがある」

という選択肢がよく出ます。


③ さまざまな形式のデータを扱える

Web APIで扱うデータ形式は様々です。

代表例

JSON

XML

画像

音声

動画

バイナリデータ

DS検定では

「Web APIではJSONしか扱えない」

という誤った選択肢が出ることがあります。


④ RESTという設計思想がよく使われる

多くのWeb APIは REST(Representational State Transfer) という設計原則に基づいて作られています。

RESTは

URLでデータを表現する

HTTPメソッドを使う

シンプルな構造

という特徴があります。

ただし注意点として

RESTは通信プロトコルではなく設計思想です。


どんな場面で使う?

Web APIは データ取得やサービス連携で広く使われます。

代表例をいくつか紹介します。

データ取得

天気データ

株価

地理情報

データサイエンスでは 外部データ収集の手段としてよく利用されます。


AIサービス

翻訳API

生成AI API

画像認識API

AI機能をアプリに組み込むときは Web API経由でAIサービスを利用することが多いです。


システム連携

企業システムでも

顧客管理

在庫管理

決済サービス

などをAPIで連携させています。


よくある誤解・混同

誤解①

Web APIはJSONしか扱えない

これは誤りです。

Web APIは

JSON

XML

画像

音声

など様々なデータを扱えます。

DS検定では

「Web APIでは画像データは取得できない」

という選択肢が出ることがありますが これは 誤りです。


誤解②

RESTは通信プロトコル

これもよくある混同です。

用語 意味

REST APIの設計原則 HTTP 通信プロトコル

つまり

RESTは通信方法ではなく設計ルールです。


誤解③

Web APIはWebページ取得と同じ

似ていますが目的が違います。

用途 説明

Webページ 人が見る Web API プログラムが使う

データサイエンスでは プログラムでデータを取得するためにAPIを使うことが多いです。


まとめ(試験直前用)

Web APIは HTTP通信を使ってサービスやデータを利用する仕組み

GET・POSTなどの HTTPメソッドで操作する

JSONだけでなく 画像・音声なども送受信できる

RESTは APIの設計原則(通信プロトコルではない)

DS検定では 「Web APIでは画像取得できない」などの誤り選択肢に注意


【対応スキル項目(データエンジニアリング力シート)】

IT基盤

API

★ APIを利用したデータ取得・連携の基本的な仕組みを理解している


WebクローリングとWebスクレイピングの違いとは?【DS検定】

  • Source: pages\ds\web-crawling-scraping.md
  • Permalink: /ds/web-crawling-scraping/

まず結論

  • Webクローリングは「Webページを収集すること」
    Webスクレイピングは「収集したページから必要なデータを抽出すること」です。
  • DS検定では、「ページを集める工程」と「データを抜き出す工程」を区別できるかが問われます。

直感的な説明

イメージで整理しましょう。

  • クローリング = 本屋に行って本を集める
  • スクレイピング = 本の中から必要な文章だけを抜き出す

つまり、

集めるのがクローリング
抜き出すのがスクレイピング

という関係です。

データ活用の現場では、 まずWeb上の情報を集め、 その中から価格や商品名、レビューなどを取り出します。

この「工程の違い」を理解しておくことが重要です。


定義・仕組み

■ Webクローリング

Web上のリンクをたどりながら、 複数のWebページを自動的に取得・保存する仕組みです。

検索エンジンはクローラーを使って、 Webページを巡回し、情報を収集しています。

ポイントは、

  • ページそのものを取得する
  • データ抽出までは含まない

という点です。


■ Webスクレイピング

取得したWebページ(HTMLなど)から、 特定のデータを抽出する処理です。

例えば、

  • 商品ページから価格だけ抜き出す
  • ニュース記事からタイトルだけ取得する

といった作業が該当します。

ポイントは、

  • ページの中身を解析する
  • 必要な部分だけ取り出す

という点です。


どんな場面で使う?

使う場面

  • 競合価格の調査
  • 不動産物件の情報収集
  • SNSやニュースの分析
  • 市場動向の把握

実務では、

  1. クローリングでページを集める
  2. スクレイピングで必要な項目を抽出する

という流れになります。


誤解しやすい場面

  • 「スクレイピング=Webから情報を集めること」と広く言ってしまう
  • クローリングとスクレイピングを同義語と扱う

DS検定では、工程の違いを区別できるかが重要です。


よくある誤解・混同

❌ 「クローリング=データ抽出」

これは誤りです。
クローリングはページ取得まで。


❌ 「スクレイピング=ページをダウンロードすること」

これも誤りです。
スクレイピングは「抽出」が目的。


❌ 「両者は同じ意味」

DS検定ではこの選択肢が出やすいです。

違いは「収集」と「抽出」

と覚えておくと切れます。


試験での判断基準

  • 「リンクをたどる」「巡回する」 → クローリング
  • 「抽出する」「取り出す」「解析する」 → スクレイピング

選択肢では
「Webページをダウンロードする」
と書かれていたらクローリング寄りです。


まとめ(試験直前用)

  • クローリング=ページを集める
  • スクレイピング=データを抜き出す
  • 両者は工程が違う
  • 「巡回」と「抽出」で切り分ける
  • 同じ意味と書かれていたら誤り

対応スキル項目

【対応スキル項目(データエンジニアリング力シート)】

  • データ収集
  • データ取得
  • ★ 様々なデータソースからデータを収集・取得することができる

ウェルチのt検定とは?等分散でない場合の平均比較【DS検定】

  • Source: pages\ds\welch-t-test.md
  • Permalink: /ds/welch-t-test/

まず結論

ウェルチのt検定とは、「分散が等しいと仮定できない2つの平均」を比較するための検定です。

DS検定では「分散が等しいかどうか」で通常のt検定と切り分けられるかが問われます。


直感的な説明

例えば、
A社とB社の社員の残業時間の平均を比べたいとします。

しかし、

  • A社はばらつきが小さい
  • B社はばらつきがとても大きい

という場合、単純なt検定を使うと「ばらつきが同じ」という前提が崩れています。

ウェルチのt検定は、

「ばらつきが違っても大丈夫な平均比較」

と覚えておくとイメージしやすいです。

ビジネスでは、母集団の分散が同じとは限らないため、実務ではこちらが使われることも多いです。


定義・仕組み

通常のt検定(スチューデントのt検定)は、

  • 2群の分散が等しい(等分散)
  • 正規分布に従う

という前提があります。

一方、ウェルチのt検定は、

  • 分散が等しいとは仮定しない
  • 標本ごとにばらつきを別々に扱う

という点が違います。

式自体は似ていますが、
自由度の計算方法が異なるのがポイントです。

DS検定では、数式を覚えるよりも、

「等分散を仮定しない平均比較」

と判断できることが重要です。


どんな場面で使う?

使うべき場面

  • 2つのグループの平均を比較したい
  • 分散が同じとは言えない
  • 標本サイズも違う可能性がある

実務では、事前に等分散かどうかが分からないことも多いため、
安全側でウェルチを使うケースもあります。

使うと誤解しやすい場面

  • 3群以上の平均比較 → 分散分析(ANOVA)
  • 対応のあるデータ → 対応のあるt検定

DS検定では、

「2群か?」「対応ありか?」「分散は等しい前提か?」

という整理が重要です。


よくある誤解・混同

① 通常のt検定との混同

DS検定では、

  • 「分散が等しいと仮定する」と書いてあれば → 通常のt検定
  • 「分散が等しいとは限らない」と書いてあれば → ウェルチ

という切り分けになります。

選択肢で
「等分散を前提とする」と書いてあれば、ウェルチではありません。


② 分散分析(ANOVA)との混同

ANOVAは「3群以上」の平均比較です。

ウェルチのt検定は「2群のみ」です。

群の数でまず切り分けましょう。


③ 対応のあるt検定との混同

同じ人の前後比較などは「対応あり」です。

ウェルチは独立した2群を前提とします。

DS検定ではここをよく混同させてきます。


まとめ(試験直前用)

  • ウェルチ=等分散を仮定しない2群の平均比較
  • 通常のt検定は「等分散」が前提
  • 群が3つ以上ならANOVA
  • 同一対象の前後比較なら対応ありt検定

DS検定では
「分散を等しいと仮定するかどうか」が最大の判断ポイントです。


対応スキル項目(データサイエンス力シート)

  • 統計的推測
  • 仮説検定
  • ★ 適切な統計的検定手法を選択できる

WHYの並び立てとは?ストーリー構築の基本【DS検定】

  • Source: pages\ds\why-structure.md
  • Permalink: /ds/why-structure/

まず結論

WHYの並び立てとは、「なぜそう言えるのか?」を順番に積み上げて、結論に至る理由を論理的に示す構成方法です。

DS検定では、データを使って意思決定を説明できるかを問われることが多く、「結論 → 理由」の筋道が通っているかを判断させる問題が出ます。


直感的な説明

たとえば、上司にこう言われたとします。

「この施策をやりたい理由は?」

ここで
「売上が伸びそうだからです」だけでは弱いですよね。

  • なぜ売上が伸びるのか?
  • なぜそのターゲットなのか?
  • なぜ今やるべきなのか?

この「なぜ?」を順番に並べていくことで、 話に納得感が生まれます。

WHYの並び立ては、 「説得力をつくる技術」と考えると分かりやすいです。


定義・仕組み

WHYの並び立てとは、

  • 結論に対して
  • その理由(WHY)を
  • 論理的に順序立てて示すこと

です。

ポイントは、

  1. 結論だけを言わない
  2. 理由を1つで終わらせない
  3. 上位の目的までさかのぼる

という構造です。

ビジネスプレゼンでは、

  • 結論
  • 理由①
  • 理由②
  • 背景・データ

という流れになります。

DS検定では、「データに基づく意思決定」がテーマなので、
なぜその結論になるのかを説明できるかが重要です。


どんな場面で使う?

使うべき場面

  • データ分析結果を報告するとき
  • 施策提案をするとき
  • AI導入の判断を説明するとき

つまり、「意思決定の場面」です。

使うと誤解しやすい場面

WHYの並び立ては、 「話を長くすること」ではありません。

理由が整理されていないと、 単なる言い訳の羅列になります。


よくある誤解・混同

❌ デザインを良くするための手法

→ これは違います。構成の論理の話です。

❌ プレゼン時間を調整するための手法

→ 時間管理とは別問題です。

❌ 聴衆の注意を引くテクニック

→ 注目を集める技法ではありません。

DS検定では、

「WHYの並び立てを用いる目的は何か?」

という形で問われます。

選択肢では
「結論に至るまでの理由や根拠を提示するため」
と書かれていたら正解です。


まとめ(試験直前用)

  • WHYの並び立て=理由を順番に積み上げる構造
  • 目的は「結論の根拠を示すこと」
  • デザイン改善や時間調整とは無関係
  • DS検定では「論理構造を問う問題」に注意

【対応スキル項目(ビジネス力シート)】

  • 課題設定力
  • 課題の構造化
  • ★ ビジネス課題を構造化し、論理的に説明できる

YARNとは?Hadoopクラスタのリソース管理の仕組み【DS検定】

  • Source: pages\ds\yarn.md
  • Permalink: /ds/yarn/

まず結論

YARN(Yet Another Resource Negotiator)とは、Hadoopクラスタ全体の計算資源(CPUやメモリ)を管理し、どの処理をどのサーバーで動かすかを調整する仕組みです。

DS検定では

「HDFS=保存」「YARN=リソース管理」「Spark / MapReduce=処理」

という役割の違いを理解できているかがよく問われます。


直感的な説明

ビッグデータの処理では、1台のコンピュータではなく

複数のサーバー(クラスタ)

を使って計算します。

しかし、そのままでは次の問題が起きます。

どのサーバーが空いているか分からない

どこで処理を実行すればいいか決められない

同時に複数の処理が走ると衝突する

そこで必要になるのが

クラスタの交通整理役です。

この役割を担うのが YARN です。

イメージとしては

多くのサーバーを管理する クラスタの司令塔

のような存在です。


定義・仕組み

YARNは

Hadoopクラスタの計算リソースを管理するシステムです。

主に次の役割があります。

① リソース管理

クラスタにある

CPU

メモリ

などの 計算資源を管理します。

例えば

Sparkの処理

MapReduceの処理

などが同時に動く場合でも

どの処理にどれだけのリソースを割り当てるか

を調整します。


② ジョブのスケジューリング

データ処理は

ジョブ(処理単位)

としてクラスタに送られます。

YARNは

空いているサーバーを探す

処理を割り当てる

という

ジョブの実行管理を行います。


③ クラスタ管理

YARNはクラスタ内の

ノードの状態

実行中の処理

を監視します。

そのため

サーバー障害

リソース不足

が発生しても処理を継続できるよう管理します。


どんな場面で使う?

YARNは

ビッグデータ処理の計算基盤として使われます。

代表的な処理エンジンは

MapReduce

Spark

です。

これらの処理は

YARNの上で動作することが多いです。

つまり

HDFS → データ保存 YARN → リソース管理 Spark / MapReduce → データ処理

という役割分担になります。


よくある誤解・混同

HDFSと役割が同じと思う

これはDS検定で非常に多い混同です。

技術 役割

HDFS データ保存 YARN リソース管理 Spark データ処理

YARNはデータを保存しません。

ここが重要なポイントです。


YARNがデータ処理をすると思う

これも誤解です。

YARNは

処理を実行する場所を管理するだけです。

実際に計算するのは

MapReduce

Spark

などの処理エンジンです。


まとめ(試験直前用)

YARNは Hadoopクラスタのリソース管理システム

CPUやメモリなどの 計算資源を管理する

ジョブの実行場所を決定する

データ保存は HDFS

データ処理は Spark / MapReduce

DS検定では

「保存・管理・処理の役割の違い」

を理解しておくことが重要です。


【対応スキル項目(データエンジニアリング力シート)】

スキルカテゴリ名 データ蓄積

サブカテゴリ名 分散技術

★ Hadoop・Sparkの分散技術の基本的な仕組みと構成を理解している


zスコア法とは?異常値判定の基本を整理【DS検定リテラシー】

  • Source: pages\ds\z-score-method.md
  • Permalink: /ds/z-score-method/

まず結論

zスコア法とは、「平均との差がどれくらい離れているか」を基準にしてデータの異常値を判断する方法です。

DS検定では、「外れ値の判定方法はどれか?」という形で問われることが多く、
クラスタリングや分類手法と混同しないことがポイントです。


直感的な説明

たとえば、ある会社の社員の身長データがあるとします。

  • 平均:170cm
  • 多くの人は165〜175cmくらい

ここに「195cm」の人がいたらどうでしょうか?

「ちょっと離れすぎているな」と感じますよね。

zスコア法は、この
“平均からどれだけ離れているか”を、データのばらつき(標準偏差)で割って数値化する方法です。

つまり、

「平均との差を、データ全体のばらつきで割って標準化する」

という考え方です。


定義・仕組み

zスコアとは、

(データ − 平均) ÷ 標準偏差

で求められる値です。

ここで大事なのは「式」ではなく意味です。

  • 平均からどれくらい離れているか
  • それが“普通のばらつきの範囲内かどうか”

を判断するための指標です。

一般的には、

  • zスコアが ±2〜±3を超える
    → 外れ値(異常値)の可能性がある

と判断されることが多いです。

DS検定では、
「外れ値を検出する代表的な手法」として問われます。


どんな場面で使う?

✔ 使う場面

  • データクレンジングで異常値を除去したいとき
  • センサーデータの異常検知
  • 売上やアクセス数の急激な変化の検出

✔ 注意が必要な場面

  • データが極端に偏っている場合(正規分布でない)
  • 外れ値がすでに平均を大きく歪めている場合

zスコア法は
「平均と標準偏差」が意味を持つ分布であることが前提です。


よくある誤解・混同

❌ k平均法との混同

DS検定では、

  • 「異常値判定」→ zスコア法
  • 「クラスタリング」→ k平均法

を混同させてくることがあります。

k平均法はグループ分けであって、
基本目的は外れ値検出ではありません。


❌ 決定木やSVMとの混同

決定木分析やサポートベクターマシンは
分類モデルです。

選択肢では
「機械学習モデル」が並んでいたら注意。

zスコア法は
統計的な前処理手法です。


❌ 標準化(スケーリング)との混同

zスコアは「標準化」にも使われます。

しかし、

  • 標準化 → モデル学習のためのスケーリング
  • zスコア法 → 外れ値判定

と、目的が違う点に注意です。

DS検定ではここを狙われます。


まとめ(試験直前用)

  • zスコア法=平均との差を標準偏差で割った指標
  • ±2〜±3を超えると外れ値の可能性
  • 分類モデルではない(前処理)
  • DS検定では「外れ値判定」として問われやすい
  • クラスタリングや決定木と混同しない

対応スキル項目(データサイエンス力シート)

  • データ理解・前処理
  • データの前処理
  • ★ データの前処理(外れ値処理、欠損値処理など)を理解している

z検定とは?t検定との違いまで整理【DS検定リテラシー】

  • Source: pages\ds\z-test.md
  • Permalink: /ds/z-test/

まず結論

z検定とは、母平均がある値と同じかどうかを、大きなサンプル数や母分散既知の前提で判断する検定です。

DS検定では「z検定とt検定をどう切り分けるか」が問われることが多いです。


直感的な説明

例えば、ある商品の平均売上が「本当に100個なのか?」を確かめたいとします。

サンプルをたくさん集めて平均を出したとき、

  • 100個からどれくらいズレているか?
  • そのズレは「偶然」なのか?
  • それとも「意味のある差」なのか?

を判断するのが検定です。

z検定は、
「データが十分に多い」または「ばらつきが分かっている」ときに、
ズレがどれくらい異常かを標準化して判断します。


定義・仕組み

z検定は、母平均に関する仮説を検証する方法です。

基本の考え方はシンプルです。

  1. まず「差はない」という前提(帰無仮説)を立てる
  2. サンプル平均と仮説平均との差を計算する
  3. その差を「標準誤差」で割って、どれくらい極端かを見る

この「標準化した値」が z値 です。

z値が大きいほど
「偶然では説明しにくい差」と判断します。

DS検定では、式そのものよりも、

  • なぜ標準化するのか
  • なぜ正規分布を前提にするのか

を理解しているかが重要です。


どんな場面で使う?

使うべき場面

  • サンプル数が十分に大きい場合
  • 母分散が既知の場合
  • 正規分布が前提にできる場合

注意が必要な場面

  • サンプル数が小さい場合
  • 母分散が分からない場合

このときは通常、t検定を使います。

DS検定では
「サンプル数が小さいのにz検定を使っている選択肢」は要注意です。


よくある誤解・混同

① z検定とt検定の混同

最も多いひっかけです。

  • 母分散が分かっている → z検定
  • 母分散が分からない → t検定

と整理しておくと安全です。

DS検定では
「標本分散を使っているのにz検定と書いてある」
といった選択肢が出ることがあります。

② p値との混同

z検定そのものは「方法」です。
p値は「結果の指標」です。

z値をもとにp値を求めます。

「z値=有意差」ではありません。
有意かどうかは、あらかじめ決めた有意水準との比較です。


まとめ(試験直前用)

  • z検定は「母平均の検定」
  • 前提は「大標本」または「母分散既知」
  • 小標本なら基本はt検定
  • z値は差を標準化したもの
  • 検定とp値を混同しない

DS検定では
「どの条件ならどの検定を使うか」を判断できることが最重要です。


【対応スキル項目(データサイエンス力シート)】

  • 統計基礎
  • 仮説検定
  • ★ 仮説検定の基本的な考え方を理解している

ゼロトラストとは?考え方と従来型セキュリティとの違い【DS検定リテラシー】

  • Source: pages\ds\zero-trust.md
  • Permalink: /ds/zero-trust/

まず結論

ゼロトラスト(Zero Trust)とは、
「社内だから安全」とは考えず、すべてを疑って検証するセキュリティの考え方です。

DS検定では、従来型の「境界防御」との違いを理解しているかが問われます。


直感的な説明

従来のセキュリティは、

社内ネットワーク=安全
社外ネットワーク=危険

という考え方でした。

しかし、クラウド利用やリモートワークが増えた現在では、

  • 社内からでも不正アクセスは起こる
  • 端末がマルウェア感染している可能性もある

そこで登場したのがゼロトラストです。

「誰も信用しない」
「毎回確認する」

という発想です。


定義・仕組み

ゼロトラストの基本原則は、

  • すべてのアクセスを検証する
  • 最小限の権限のみ与える
  • 継続的に監視する

重要なのは、

ネットワークの内外で区別しない

という点です。

そのために、

  • 多要素認証(MFA)
  • デバイス状態チェック
  • アクセスログ監視
  • 最小権限設計(Least Privilege)

などを組み合わせます。


どんな場面で使う?

ビジネス環境

  • クラウドサービス利用
  • リモートワーク
  • 社外からの社内システムアクセス
  • API連携

データサイエンス業務では、

  • 顧客データ
  • 機密分析データ
  • AIモデル資産

などを守る必要があります。

ゼロトラストは現代企業の標準的な考え方です。


よくある誤解・混同

① 「完全に信用しない」=何も使えない?

違います。
「毎回確認する」という意味です。


② ファイアウォールを強化すればゼロトラスト?

境界防御の強化は従来型です。

ゼロトラストは
「境界に依存しない」考え方です。


③ MFA=ゼロトラスト?

MFAは手段の一つです。
ゼロトラストは「思想・設計原則」です。

DS検定では
「ゼロトラストは特定の製品名である」といった選択肢があれば誤りです。


まとめ(試験直前用)

  • ゼロトラスト=すべてのアクセスを毎回検証
  • 社内外を区別しない
  • 最小権限+継続監視
  • MFAは手段の一つ

迷ったら、

「これは境界を信用していないか?」

で判断してください。


【対応スキル項目(AI利活用スキルシート)】

  • AI利活用基礎
  • AIを活用するための技術理解
  • ★ AIを活用したサービスの仕組みやリスクを理解している
  • ★ データの取り扱いに関するセキュリティや倫理的配慮の重要性を理解している