インストラクションチューニング
Instruction Tuning
「指示と理想的な回答」のペアで学習させ、AIを指示に従いやすくするチューニング手法。
インストラクションチューニングとは
インストラクションチューニング(Instruction Tuning)は、「指示(プロンプト)と理想的な回答」のペアを大量に学習させ、AIを"指示に従いやすい状態"にするチューニング手法です。
事前学習だけのモデルは「続きの単語を予測する」ことに最適化されており、ユーザーの指示に素直に応えるわけではありません。この段階を経ることで、対話アシスタントらしい挙動になります。
仕組み
- 「要約してください」「翻訳してください」など多様なタスクの指示と模範回答のペアを用意
- その組み合わせでモデルを追加学習(教師あり学習の一種)
- 未知のタスクにも指示に沿った形式で応えられるようになる
関連する調整工程
- 事前学習 → 言語と知識の土台
- インストラクションチューニング → 指示追従性の獲得
- RLHF / DPO → 人間の好みに合わせた応答品質のさらなる調整
この3段階でChatGPTやClaudeのような対話型AIが仕上がります。
ファインチューニングとの違い
広義のファインチューニングの中に含まれますが、区別する場合は以下のイメージです。
- インストラクションチューニング: 「指示に従う能力そのもの」を鍛える汎用調整
- (狭義の)ファインチューニング: 特定業界・特定タスク用の追加学習
