自己教師あり学習
Self-Supervised Learning
ラベルなしデータからタスクを自動生成して学習する手法。LLMの事前学習を支える中核技術。
自己教師あり学習とは
自己教師あり学習(Self-Supervised Learning)は、ラベル付けされていない大量のデータから、タスクを自動的に作り出して学習する手法です。GPTやClaudeなどLLMの事前学習を支える中核技術でもあります。
仕組み
人手のラベルを必要とせず、データの一部から残りを予測させる形でタスクを作ります。
- 次の単語を予測(GPT系の基本)
- 一部を隠して当てさせる(BERT系のマスク予測)
- 画像なら、一部を切り取って元画像との関係を学習
「自分自身がラベルを生成する」ため、自己教師ありと呼ばれます。
他の学習との違い
- 教師あり学習: 人間が付けた正解ラベルが必要
- 教師なし学習: クラスタリング等、正解そのものがない
- 自己教師あり学習: 正解は人手不要で自動生成されるが、学習は教師ありに近い形で進む
つまり「人手に頼らず、しかし正解がある学習」という位置づけです。
なぜ重要か
Web上の膨大なテキスト・画像・音声をラベル付けなしにそのまま活用できるため、LLMのような大規模モデルの事前学習が可能になりました。現在の生成AIブームを技術的に支えている土台です。
