このページについて
このページは、
DS検定(リテラシーレベル)で求められているスキル・チェック項目を
一覧で確認するためのページです。
ブログ内の各記事は、
ここに記載されたチェック項目を 1つずつ確実にカバーする ことを目的に作成しています。
- 試験範囲の全体像を把握する
- どこまで学習できているかを確認する
- 記事と試験要件をひも付けて理解する
ための 基準ページ として使ってください。
数学的理解|線形代数基礎
| スキルレベル |
チェック項目 |
| ★ |
ベクトルの内積に関する計算方法を理解し、線形式をベクトルの内積で表現できる |
| ★ |
行列同士、および行列とベクトルの計算方法を正しく理解し、複数の線形式を行列の積で表現できる |
| ★ |
逆行列の定義、および逆行列を求めることにより行列表記された連立方程式が解けることを理解している |
| ★ |
固有ベクトルおよび固有値の意味を理解している |
数学的理解|微分・積分基礎
| スキルレベル |
チェック項目 |
| ★ |
微分により計算する導関数が傾きを求めるための式であることを理解している |
| ★ |
微分により計算する導関数が傾きを求めるための式であることを理解している |
| ★ |
積分と面積の関係を理解し、確率密度関数を定積分することで確率が得られることを説明できる |
数学的理解|集合論基礎
| スキルレベル |
チェック項目 |
| ★ |
和集合、積集合、差集合、対称差集合、補集合についてベン図を用いて説明できる |
| ★ |
論理演算と集合演算の対応を理解している(ANDが積集合に対応するなど) |
科学的解析の基礎|統計数理基礎
| スキルレベル |
チェック項目 |
| ★ |
順列や組合せの式 nPr, nCr を理解し、適切に使い分けることができる |
| ★ |
確率に関する基本的な概念の意味を説明できる(確率、条件付き確率、期待値、独立など) |
| ★ |
平均、中央値、最頻値の算出方法の違いを説明できる |
| ★ |
与えられたデータにおける分散、標準偏差、四分位、パーセンタイルを理解し、目的に応じて適切に使い分けることができる |
| ★ |
母(集団)平均と標本平均、不偏分散と標本分散がそれぞれ異なることを説明できる |
| ★ |
標準正規分布の平均と分散の値を知っている |
| ★ |
相関関係と因果関係の違いを説明できる |
| ★ |
名義尺度、順序尺度、間隔尺度、比例尺度の違いを説明できる |
| ★ |
ピアソンの相関係数の分母と分子を説明できる |
| ★ |
5つ以上の代表的な確率分布を説明できる |
| ★ |
二項分布は試行回数が増えていくとどのような分布に近似されるかを知っている |
| ★ |
変数が量的、質的どちらの場合でも関係の強さを算出できる |
| ★ |
指数関数とlog関数の関係を理解し、片対数グラフ、両対数グラフ、対数化されていないグラフを適切に使いわけることができる |
| ★ |
ベイズの定理を説明できる |
科学的解析の基礎|洞察
| スキルレベル |
チェック項目 |
| ★ |
分析、図表から直接的な意味合いを抽出できる(バラツキ、有意性、分布傾向、特異性、関連性、変曲点、関連度の高低など) |
| ★ |
想定に影響されず、数量的分析結果を客観的に解釈できる |
科学的解析の基礎|性質・関係性
| スキルレベル |
チェック項目 |
| ★ |
適切なデータ区間設定でヒストグラムを作成し、データのバラつき方を把握できる |
| ★ |
適切な軸設定でクロス集計表を作成し、属性間のデータの偏りを把握できる |
| ★ |
量的変数の散布図を描き、2変数の関係性を把握できる |
科学的解析の基礎|推定・検定
| スキルレベル |
チェック項目 |
| ★ |
点推定と区間推定の違いを説明できる |
| ★ |
統計的仮説検定において帰無仮説と対立仮説の違いを説明できる |
| ★ |
第1種の過誤、第2種の過誤、p値、有意水準の意味を説明できる |
| ★ |
片側検定と両側検定の違いを説明できる |
| ★ |
検定する対象となるデータの対応の有無を考慮した上で適切な検定手法(t検定, z検定など)を選択し、適用できる |
科学的解析の基礎|アソシエーション分析
| スキルレベル |
チェック項目 |
| ★ |
条件Xと事象Yの関係性を信頼度、支持度、リフト値を用いて評価できる |
科学的解析の基礎|因果推論
| スキルレベル |
チェック項目 |
| ★ |
ある特定の処置に対して、その他の変数や外部の影響を除いた効果を測定するためには、処置群(実験群)と対照群に分けて比較・分析する必要があることを知っている |
| ★ |
ある変数が他の変数に与える影響(因果効果)を推定したい場合、その双方に影響を与える共変量(交絡因子)の考慮が重要であると理解している(喫煙の有無と疾病発症の双方に年齢が影響している場合など) |
| ★ |
分析の対象を定める段階で選択バイアスが生じる可能性があることを理解している(途中離脱者の除外時、欠損データの除外時など) |
データの理解・検証|データ確認
| スキルレベル |
チェック項目 |
| ★ |
単独のグラフに対して、集計ミスや記載ミスなどがないかチェックできる |
| ★ |
データ項目やデータの量・質について、指示のもと正しく検証し、結果を説明できる |
データの理解・検証|俯瞰・メタ思考
| スキルレベル |
チェック項目 |
| ★ |
データが生み出される経緯・背景を考え、データを鵜呑みにはしないことの重要性を理解している |
データの理解・検証|データ理解
| スキルレベル |
チェック項目 |
| ★ |
どのような知見を得たいのか、目的に即して集計し、データから事実を把握できる |
| ★ |
データから事実を正しく浮き彫りにするために、集計の切り口や比較対象の設定が重要であることを理解している |
| ★ |
普段業務で扱っているデータの発生トリガー・タイミング・頻度などを説明でき、また基本統計量や分布の形状を把握している |
| ★ |
時系列データとは何か、その基礎的な扱いについて説明できる(時系列グラフによる周期性やトレンドの確認、移動平均、回帰や相関計算における注意点など) |
データ準備|サンプリング
| スキルレベル |
チェック項目 |
| ★ |
標本誤差およびサンプリングバイアス、およびそれぞれの違いについて説明できる |
| ★ |
実験計画法の基本的な3原則(局所管理化、反復、無作為化)について説明できる |
データ準備|データクレンジング
| スキルレベル |
チェック項目 |
| ★ |
外れ値・異常値・欠損値とは何かを理解し、指示のもと適切に検出と除去・変換などの対応ができる |
データ準備|データ加工
| スキルレベル |
チェック項目 |
| ★ |
標準化とは何かを理解し、適切に標準化が行える |
| ★ |
名義尺度の変数をダミー変数に変換できる |
データ準備|特徴量エンジニアリング
| スキルレベル |
チェック項目 |
| ★ |
数値データの特徴量化(二値化/離散化、対数変換、スケーリング/正規化、交互作用特徴量の作成など)を行うことができる |
データ可視化|方向性定義
| スキルレベル |
チェック項目 |
| ★ |
データの性質を理解するために、データを可視化し眺めて考えることの重要性を理解している |
| ★ |
可視化における目的の広がりについて概略を説明できる(単に現場の作業支援する場合から、ビッグデータ中の要素間の関連性をダイナミックに表示する場合など) |
データ可視化|軸出し
| スキルレベル |
チェック項目 |
| ★ |
散布図などの軸出しにおいて、目的やデータに応じて縦軸・横軸の候補を適切に洗い出せる |
| ★ |
積み上げ縦棒グラフでの属性の選択など、目的やデータに応じて適切な層化(比較軸)の候補を出せる |
データ可視化|データ加工
| スキルレベル |
チェック項目 |
| ★ |
サンプリングやアンサンブル平均によって適量にデータ量を減らすことができる |
| ★ |
読み取りたい特徴を効果的に可視化するために、統計量を使ってデータを加工できる |
データ可視化|表現・実装技法
| スキルレベル |
チェック項目 |
| ★ |
データ解析部門以外の方に、データの意味を可視化して伝える重要性を理解している |
| ★ |
情報提示の相手や場に応じて適切な情報濃度を判断できる(データインク比の考え方など) |
| ★ |
不必要な誇張をしないための軸表現の基礎を理解できている(コラムチャートのY軸の基準点は「0」からを原則とし軸を切らないなど) |
| ★ |
強調表現がもたらす効果と、明らかに不適切な強調表現を理解している(計量データに対しては位置やサイズ表現が色表現よりも効果的など) |
| ★ |
1~3次元の比較において目的(比較、構成、分布、変化など)に応じ、BIツール、スプレッドシートなどを用いて図表化できる |
| ★ |
端的に図表の変化をアニメーションで可視化できる(人口動態のヒストグラムが経年変化する様子を表現するなど) |
| ★ |
1~3次元の図表を拡張した多変量の比較を適切に可視化できる(平行座標、散布図行列、テーブルレンズ、ヒートマップなど) |
データ可視化|意味抽出
| スキルレベル |
チェック項目 |
| ★ |
外れ値を見出すための適切な表現手法を選択できる |
| ★ |
データの可視化における基本的な視点を挙げることができる(特異点、相違性、傾向性、関連性を見出すなど) |
モデル化|回帰・分類
| スキルレベル |
チェック項目 |
| ★ |
単回帰分析において最小二乗法、回帰係数、標準誤差、決定係数を理解し、モデルを構築できる |
| ★ |
重回帰分析において偏回帰係数と標準偏回帰係数、重相関係数、自由度調整済み決定係数について説明できる |
| ★ |
線形回帰分析とロジスティック回帰分析のそれぞれが予測する対象の違いを理解し、適切に使い分けられる |
モデル化|統計的評価
| スキルレベル |
チェック項目 |
| ★ |
ROC曲線、AUC(Area under the curve)を用いてモデルの精度を評価できる |
| ★ |
混同行列(正誤分布のクロス表)、Accuracy、Precision、Recall、F値、特異度を理解し、精度を評価できる |
| ★ |
RMSE(Root Mean Square Error)、MAE(Mean Absolute Error)、MAPE(Mean Absolute Percentage Error)、決定係数といった評価尺度を理解し、精度を評価できる |
モデル化|機械学習
| スキルレベル |
チェック項目 |
| ★ |
機械学習のモデルを使用したことがあり、どのような問題を解決できるか理解している(回帰・分類、クラスター分析の用途など) |
| ★ |
「教師あり学習」「教師なし学習」の違いを理解している |
| ★ |
過学習とは何か、それがもたらす問題について説明できる |
| ★ |
次元の呪いとは何か、その問題について説明できる |
| ★ |
教師あり学習におけるアノテーションの必要性を説明できる |
| ★ |
観測されたデータにバイアスが含まれる場合や、学習した予測モデルが少数派のデータをノイズと認識してしまった場合などに、モデルの出力が差別的な振る舞いをしてしまうリスクを理解している |
| ★ |
機械学習における大域的(global)な説明(モデル単位の各変数の寄与度など)と局所的(local)な説明(予測するレコード単位の各変数の寄与度など)の違いを理解している |
| ★ |
ホールドアウト法、交差検証(クロスバリデーション)法の仕組みを理解し、訓練データ、パラメータチューニング用の検証データ、テストデータを作成できる |
| ★ |
時系列データの場合は、時間軸で訓練データとテストデータに分割する理由を理解している |
| ★ |
機械学習モデルは、データ構成の変化(データドリフト)により学習完了後から精度が劣化していくため、運用時は精度をモニタリングする必要があることを理解している |
| ★ |
過学習とは何か、それがもたらす問題について説ニューラルネットワークの基本的な考え方を理解し、入力層、隠れ層、出力層の概要と、活性化関数の重要性を理解している明できる |
| ★ |
決定木をベースとしたアンサンブル学習(Random Forest、勾配ブースティング[Gradient Boosting Decision Tree:GBDT]、 その派生形であるXGBoost、LightGBMなど)による分析を、ライブラリを使って実行でき、変数の寄与度を正しく解釈できる |
| ★ |
連合学習では、データは共有せず、モデルのパラメータを共有して複数のモデルを統合していることを理解している |
| ★ |
モデルの性能を改善するためには、モデルの改善よりもデータの質と量を向上させる方が効果的な場合があることを理解している |
モデル化|深層学習
| スキルレベル |
チェック項目 |
| ★ |
深層学習(ディープラーニング)モデルの活用による主なメリットを理解している(特徴量抽出が可能になるなど) |
| ★ |
データサイエンスやAIの分野におけるモダリティの意味を説明できる(データがどのような形式や方法で得られるか、など) |
モデル化|時系列分析
| スキルレベル |
チェック項目 |
| ★ |
時系列分析を行う際にもつべき視点を理解している(長期トレンド、季節成分、周期性、ノイズ、定常性など) |
モデル化|クラスタリング
| スキルレベル |
チェック項目 |
| ★ |
教師なし学習のグループ化(クラスター分析)と教師あり学習の分類(判別)モデルの違いを説明できる |
| ★ |
階層クラスター分析と非階層クラスター分析の違いを説明できる |
| ★ |
階層クラスター分析において、デンドログラムの見方を理解し、適切に解釈できる |
モデル化|ネットワーク分析
| スキルレベル |
チェック項目 |
| ★ |
ネットワーク分析におけるグラフの基本概念(有向・無向グラフ、エッジ、ノード等)を理解している。 |
モデル利活用|レコメンド
| スキルレベル |
チェック項目 |
| ★ |
レコメンドアルゴリズムにおけるコンテンツベースフィルタリングと協調フィルタリングの違いを説明できる |
非構造化データ処理|自然言語処理
| スキルレベル |
チェック項目 |
| ★ |
テキストデータに対する代表的なクリーニング処理(小文字化、数値置換、半角変換、記号除去、ステミングなど)を目的に応じて適切に実施できる |
| ★ |
形態素解析や係り受け解析のライブラリを適切に使い、基本的な文書構造解析を行うことができる |
| ★ |
自然言語処理を用いて解けるタスクを理解し、各タスクの入出力を説明できる(GLUEタスクや固有表現抽出、機械翻訳など) |
非構造化データ処理|画像認識
| スキルレベル |
チェック項目 |
| ★ |
画像のデジタル表現の仕組みと代表的な画像フォーマットを知っている |
| ★ |
画像に対して、目的に応じた適切な色変換や簡単なフィルタ処理などを行うことができる |
| ★ |
画像データに対する代表的なクリーニング処理(リサイズ、パディング、正規化など)を目的に応じて適切に実施できる |
| ★ |
画像認識を用いて解けるタスクを理解し、入出力とともに説明できる(識別、物体検出、セグメンテーションなどの基本的タスクや、姿勢推定、自動運転などの応用的タスク) |
非構造化データ処理|映像認識
| スキルレベル |
チェック項目 |
| ★ |
動画のデジタル表現の仕組みと代表的な動画フォーマットを理解しており、動画から画像を抽出する既存方法を使うことができる |
非構造化データ処理|音声認識
| スキルレベル |
チェック項目 |
| ★ |
wavやmp3などの代表的な音声フォーマットの特徴や用途、基本的な変換処理について説明できる(サンプリングレート、符号化、量子化など) |
生成|大規模言語モデル
| スキルレベル |
チェック項目 |
| ★ |
大規模言語モデル(LLM)でHallucinationが起こる理由を学習に使われているデータの観点から説明できる(学習用データが誤りや歪みを含んでいる場合や、入力された問いに対応する学習用データが存在しない場合など) |
使い方のおすすめ
- 学習前:
どんな項目があるかをざっと確認
- 学習中:
該当する記事を読んだらチェック項目を見返す
- 試験前:
★がすべて説明できるかを自己確認
このページを「軸」にして、
各ブログ記事を積み上げていく想定です。
🔗 関連記事