データ拡張（Data Augmentation）とは？学習データを水増しする技術｜士業AI用語集

データ拡張とは

データ拡張（Data Augmentation）は、既存の学習データを変形・加工・言い換えなどで水増しし、実質的な学習データ量を増やす手法です。少量データでも過学習を抑え、汎化性能を高めるのに有効です。

具体例

画像: 回転、反転、ズーム、色調変化、ノイズ付加
音声: 速度変化、背景ノイズ合成、ピッチ変更
テキスト:
- 類義語での言い換え
- 語順入れ替え
- 逆翻訳（他言語に翻訳して戻す）
- LLMによるパラフレーズ生成

なぜ効くか

同じ意味・同じラベルだが表面的には異なるバリエーションをモデルに見せることで、「本質的に何を見ているか」を学ばせやすくなります。結果として、未知の入力に対しても安定した性能を出せるようになります。

注意点

意味が変わる加工はラベルとの整合性が崩れる（例: 強い画像歪みで対象が別物になる）
業務文書では、固有名詞・数値・法令の表現を雑に変えると内容の正確性を損なう
LLMでの自動パラフレーズは便利だが、ハルシネーションを取り込まないチェックが必要

位置づけ

実運用の学習データは不足しがちで、データ拡張は少量データから実用的なモデルを作るための定番手段です。アノテーションコストを抑えたいときの現実解として広く使われています。

士業AIで業務を効率化しませんか？

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で始めるログイン