事前学習
Pretraining
大規模な汎用テキストデータでAIモデルに言語や知識の土台を学ばせる最初の学習段階。
事前学習とは
事前学習(Pretraining)は、大規模な汎用テキストデータを使って、AIモデルに言語や世界知識の土台を学ばせる最初の学習段階です。GPTやClaudeのようなLLMは、この段階で数兆トークン規模のデータを読み込みます。
ここで得た「言葉の使い方」「一般常識」「論理構造」が、その後のあらゆる応用の基盤になります。
仕組み
- 自己教師あり学習で進むのが主流(次の単語を当てる等)
- 人手のラベルが不要なため、Web文書・書籍・コード等を大量投入できる
- 学習には大量のGPUと数週間〜数ヶ月の計算コストがかかる
事前学習済みの状態を**基盤モデル(Foundation Model)**と呼びます。
ファインチューニングとの関係
- 事前学習: 汎用的な言語能力・知識を獲得する段階(超大規模)
- ファインチューニング: その上に特定用途を載せる追加学習(小規模)
- インストラクションチューニングやRLHFも、事前学習の後段で行う調整工程
実務への示唆
事前学習は基本的に大手AI企業が担う領域で、士業事務所が自前で行うことはまずありません。ただし「なぜモデルによって回答の傾向が違うのか」「なぜ最新情報に弱いのか」を理解するうえで、どの時点までのデータで事前学習されたかという視点は押さえておくと役立ちます。
