Skip to the content.

DS検定トップ > アノテーションとは?(AI学習データを作る重要な作業)【DS検定】

まず結論

アノテーション(annotation)とは、データに意味を付けるための「正解ラベル」を付ける作業のことです。

DS検定では 「AIが学習するための教師データを作る作業」として理解しているかが問われます。

特に試験では

アノテーション

教師データ

教師あり学習

この3つの関係を理解しているかがポイントになります。

アノテーション ↓ 教師データ ↓ 教師あり学習

直感的な説明

AIは、そのままのデータだけでは

何が正しいのか分かりません。

例えば画像認識を考えてみます。

犬と猫を判別するAIを作りたい場合、

画像 正解

犬の写真 犬 猫の写真 猫 犬の写真 犬

このように

画像に「これは犬」「これは猫」と正解を書き込む作業

が必要になります。

この

データに意味を付ける作業

アノテーションです。

つまり

AIに「これは何か」を教えるための下準備

と言えます。

定義・仕組み

アノテーションとは

データに対してラベル(正解情報)を付与する作業

のことです。

AIでは特に以下のようなデータに対して行われます。

画像データのアノテーション

画像AIでは、単に「犬」「猫」と書くだけではなく

画像のどこに対象があるのか

を指定する必要があります。

そのときに使われる代表的な方法が

バウンディングボックス(Bounding Box)

です。

バウンディングボックスとは

バウンディングボックスとは

対象物を四角形で囲んで位置を示す方法です。

例えば自動運転AIでは

自転車

信号

などを画像から検出します。

その際、アノテーションでは次のようにラベルを付けます。

画像 ┌─────────────┐ │ │ │ □ 車 │ │ │ │ □ 人 │ │ │ └─────────────┘

四角で囲んだ部分が

バウンディングボックスです。

そしてデータとしては

ラベル(例:car)

四角の位置

が保存されます。

car : (x1, y1, x2, y2) person : (x1, y1, x2, y2)

これは

物体検出(Object Detection)AI

で使われる重要なアノテーションです。

DS検定では

画像AI → バウンディングボックスでラベル付け

という関係が理解できているかが問われます。

テキストデータのアノテーション

例:感情分析

「この映画は最高だった」 → ポジティブ

「この店はもう行きたくない」 → ネガティブ

このように

文章に意味ラベルを付けるのもアノテーションです。

音声データのアノテーション

音声データ → 「こんにちは」

音声認識AIでは

音声 → 正しい文字

を対応させることで学習します。

どんな場面で使う?

① 教師あり学習

最も代表的な用途です。

画像分類

スパムメール判定

感情分析

教師あり学習では

データ + 正解ラベル

が必要になります。

そのため

アノテーションが必須の工程になります。

② 半教師あり学習

すべてのデータにラベルを付けるのは

非常にコストが高いです。

そのため

一部だけアノテーション

残りは未ラベル

というデータで学習する方法があります。

これが

半教師あり学習(Semi‑supervised learning)です。

DS検定では

アノテーションコスト削減の方法

として出題されることがあります。

③ アダプティブラーニング

教育AIでは

学習履歴

正解 / 不正解

理解度

などの情報をデータに付与して分析します。

このような

データに意味情報を付ける処理

も広い意味ではアノテーションと考えられます。

よくある誤解・混同

① アノテーション=AIが自動で付ける

これは誤りです。

多くの場合

人間が手作業で行います。

実際には

クラウドソーシング

専門チーム

社内作業

などで大量に作られます。

② アノテーション=データ前処理

完全には同じではありません。

用語 内容

前処理 欠損値処理、正規化など アノテーション 正解ラベル付与

ラベル付けがあるかどうかが違いです。

③ アノテーション=教師あり学習

これも誤りです。

正しくは

アノテーション ↓ 教師データ作成 ↓ 教師あり学習

という関係です。

DS検定では

「教師あり学習の前工程」

と理解しているかがよく問われます。

まとめ(試験直前用)

アノテーション=データに正解ラベルを付ける作業

教師あり学習では 必須工程

画像AIでは バウンディングボックスで物体位置を指定

ラベル作成コストが大きいため 半教師あり学習が使われる

DS検定では

「教師データを作る工程は何か」

と問われたら

アノテーション

を思い出すと判断しやすくなります。

対応スキル項目(AI利活用スキルシート)

AI利活用

AIの基礎理解

★ AIで利用するデータの特徴(学習データ・教師データなど)を理解している ★ AIを活用するためのデータ準備(データ収集・アノテーションなど)の重要性を理解している

🔗 関連記事


🏠 DS検定トップに戻る