ds modeling preprocessing
まず結論
アノテーション(annotation)とは、データに意味を付けるための「正解ラベル」を付ける作業のことです。
DS検定では 「AIが学習するための教師データを作る作業」として理解しているかが問われます。
特に試験では
アノテーション
教師データ
教師あり学習
この3つの関係を理解しているかがポイントになります。
アノテーション ↓ 教師データ ↓ 教師あり学習
直感的な説明
AIは、そのままのデータだけでは
何が正しいのか分かりません。
例えば画像認識を考えてみます。
犬と猫を判別するAIを作りたい場合、
画像 正解
犬の写真 犬 猫の写真 猫 犬の写真 犬
このように
画像に「これは犬」「これは猫」と正解を書き込む作業
が必要になります。
この
データに意味を付ける作業
が
アノテーションです。
つまり
AIに「これは何か」を教えるための下準備
と言えます。
定義・仕組み
アノテーションとは
データに対してラベル(正解情報)を付与する作業
のことです。
AIでは特に以下のようなデータに対して行われます。
画像データのアノテーション
画像AIでは、単に「犬」「猫」と書くだけではなく
画像のどこに対象があるのか
を指定する必要があります。
そのときに使われる代表的な方法が
バウンディングボックス(Bounding Box)
です。
バウンディングボックスとは
バウンディングボックスとは
対象物を四角形で囲んで位置を示す方法です。
例えば自動運転AIでは
人
車
自転車
信号
などを画像から検出します。
その際、アノテーションでは次のようにラベルを付けます。
画像 ┌─────────────┐ │ │ │ □ 車 │ │ │ │ □ 人 │ │ │ └─────────────┘
四角で囲んだ部分が
バウンディングボックスです。
そしてデータとしては
ラベル(例:car)
四角の位置
が保存されます。
例
car : (x1, y1, x2, y2) person : (x1, y1, x2, y2)
これは
物体検出(Object Detection)AI
で使われる重要なアノテーションです。
DS検定では
画像AI → バウンディングボックスでラベル付け
という関係が理解できているかが問われます。
テキストデータのアノテーション
例:感情分析
「この映画は最高だった」 → ポジティブ
「この店はもう行きたくない」 → ネガティブ
このように
文章に意味ラベルを付けるのもアノテーションです。
音声データのアノテーション
例
音声データ → 「こんにちは」
音声認識AIでは
音声 → 正しい文字
を対応させることで学習します。
どんな場面で使う?
① 教師あり学習
最も代表的な用途です。
例
画像分類
スパムメール判定
感情分析
教師あり学習では
データ + 正解ラベル
が必要になります。
そのため
アノテーションが必須の工程になります。
② 半教師あり学習
すべてのデータにラベルを付けるのは
非常にコストが高いです。
そのため
一部だけアノテーション
残りは未ラベル
というデータで学習する方法があります。
これが
半教師あり学習(Semi‑supervised learning)です。
DS検定では
アノテーションコスト削減の方法
として出題されることがあります。
③ アダプティブラーニング
教育AIでは
学習履歴
正解 / 不正解
理解度
などの情報をデータに付与して分析します。
このような
データに意味情報を付ける処理
も広い意味ではアノテーションと考えられます。
よくある誤解・混同
① アノテーション=AIが自動で付ける
これは誤りです。
多くの場合
人間が手作業で行います。
実際には
クラウドソーシング
専門チーム
社内作業
などで大量に作られます。
② アノテーション=データ前処理
完全には同じではありません。
用語 内容
前処理 欠損値処理、正規化など アノテーション 正解ラベル付与
ラベル付けがあるかどうかが違いです。
③ アノテーション=教師あり学習
これも誤りです。
正しくは
アノテーション ↓ 教師データ作成 ↓ 教師あり学習
という関係です。
DS検定では
「教師あり学習の前工程」
と理解しているかがよく問われます。
まとめ(試験直前用)
アノテーション=データに正解ラベルを付ける作業
教師あり学習では 必須工程
画像AIでは バウンディングボックスで物体位置を指定
ラベル作成コストが大きいため 半教師あり学習が使われる
DS検定では
「教師データを作る工程は何か」
と問われたら
アノテーション
を思い出すと判断しやすくなります。
対応スキル項目(AI利活用スキルシート)
AI利活用
AIの基礎理解
★ AIで利用するデータの特徴(学習データ・教師データなど)を理解している ★ AIを活用するためのデータ準備(データ収集・アノテーションなど)の重要性を理解している
🔗 関連記事
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- Aprioriアルゴリズムとは?(アソシエーション分析の基本手法)【DS検定】
- アソシエーション分析とは?購買データの関係性を見つける分析【DS検定】
- 共起頻度・支持度・信頼度・リフト値の違いとは?【DS検定】
- バスケット分析とは?(リフト値まで整理)【DS検定】