データ拡張
Data Augmentation
既存の学習データを変形・言い換え等で水増しし、モデルの汎化性能を高める手法。
データ拡張とは
データ拡張(Data Augmentation)は、既存の学習データを変形・加工・言い換えなどで水増しし、実質的な学習データ量を増やす手法です。少量データでも過学習を抑え、汎化性能を高めるのに有効です。
具体例
- 画像: 回転、反転、ズーム、色調変化、ノイズ付加
- 音声: 速度変化、背景ノイズ合成、ピッチ変更
- テキスト:
- 類義語での言い換え
- 語順入れ替え
- 逆翻訳(他言語に翻訳して戻す)
- LLMによるパラフレーズ生成
なぜ効くか
同じ意味・同じラベルだが表面的には異なるバリエーションをモデルに見せることで、「本質的に何を見ているか」を学ばせやすくなります。結果として、未知の入力に対しても安定した性能を出せるようになります。
注意点
- 意味が変わる加工はラベルとの整合性が崩れる(例: 強い画像歪みで対象が別物になる)
- 業務文書では、固有名詞・数値・法令の表現を雑に変えると内容の正確性を損なう
- LLMでの自動パラフレーズは便利だが、ハルシネーションを取り込まないチェックが必要
位置づけ
実運用の学習データは不足しがちで、データ拡張は少量データから実用的なモデルを作るための定番手段です。アノテーションコストを抑えたいときの現実解として広く使われています。
