データセット
Dataset
AIの学習・評価に使うデータの集合。品質・量・偏りがモデル性能を大きく左右する。
データセットとは
データセット(Dataset)は、AIの学習・評価に使うデータの集合です。テキスト、画像、音声、表など、用途に応じてさまざまな形があります。
AIの性能はアルゴリズムと同じくらいデータセットの量・質・偏りのなさに強く依存します。
主な種類
- 学習用(training set): モデルを訓練するための中心データ
- 検証用(validation set): 学習途中の性能を確認し、ハイパーパラメータを調整
- テスト用(test set): 最終的な汎化性能を測る未知データ
これらを分けて扱うのが基本で、混ぜると過学習に気づけません。
品質が決め手
- 量: 多いほど学習が安定
- 質: 誤り・ノイズが少ないこと
- 多様性: 偏りが少なく、実運用の分布に近いこと
- ラベルの正確さ: アノテーションの品質
偏ったデータで学習するとバイアスがそのまま応答に現れます。
士業実務との関係
事務所で業務特化AIを作る場合、過去の相談記録・書面・Q&Aなどが社内データセットになります。取り扱いには守秘義務・個人情報保護の観点からの設計が不可欠で、クラウドに出したくない場合は連合学習やオンプレ学習が選択肢になります。
