アノテーション
Annotation
学習データに「正解ラベル」や意味情報を人手で付与する作業。教師あり学習の品質を左右する。
アノテーションとは
アノテーション(Annotation)は、学習データに「正解ラベル」や意味情報を人手で付与する作業です。教師あり学習では、このラベル品質がモデル精度を直接左右します。
具体例
- テキスト分類: メール文に「クレーム / 依頼 / 報告」などのラベルを付ける
- 固有表現抽出: 文中の「人名」「会社名」「金額」をマーク
- 画像認識: 画像内の対象物を枠で囲む(バウンディングボックス)
- 音声認識: 音声に対応する書き起こしテキストを付ける
- RLHF用ランキング: 複数の回答候補に好ましさの順位を付ける
品質のポイント
- ガイドラインを明文化(判断基準を揃える)
- 複数人での重複アノテーション(ブレの検出)
- 定期的なレビュー
- 専門領域ではドメイン専門家による付与が必要
雑なアノテーションは、どれだけアルゴリズムが良くても性能の天井を下げてしまいます。
士業実務との関係
業務特化AIを作る場合、「模範的な回答」「誤回答の例」「判断区分」などを有資格者がアノテーションすることが品質の要です。外注ではなく、事務所内の知見を活かすべき工程と言えます。
