データ拡張

Data Augmentation

既存の学習データを変形・言い換え等で水増しし、モデルの汎化性能を高める手法。

データ拡張とは

データ拡張(Data Augmentation)は、既存の学習データを変形・加工・言い換えなどで水増しし、実質的な学習データ量を増やす手法です。少量データでも過学習を抑え、汎化性能を高めるのに有効です。

具体例

  • 画像: 回転、反転、ズーム、色調変化、ノイズ付加
  • 音声: 速度変化、背景ノイズ合成、ピッチ変更
  • テキスト:
    • 類義語での言い換え
    • 語順入れ替え
    • 逆翻訳(他言語に翻訳して戻す)
    • LLMによるパラフレーズ生成

なぜ効くか

同じ意味・同じラベルだが表面的には異なるバリエーションをモデルに見せることで、「本質的に何を見ているか」を学ばせやすくなります。結果として、未知の入力に対しても安定した性能を出せるようになります。

注意点

  • 意味が変わる加工はラベルとの整合性が崩れる(例: 強い画像歪みで対象が別物になる)
  • 業務文書では、固有名詞・数値・法令の表現を雑に変えると内容の正確性を損なう
  • LLMでの自動パラフレーズは便利だが、ハルシネーションを取り込まないチェックが必要

位置づけ

実運用の学習データは不足しがちで、データ拡張は少量データから実用的なモデルを作るための定番手段です。アノテーションコストを抑えたいときの現実解として広く使われています。

士業AIで業務を効率化しませんか?

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で今すぐ試す