事前学習

Pretraining

大規模な汎用テキストデータでAIモデルに言語や知識の土台を学ばせる最初の学習段階。

事前学習とは

事前学習(Pretraining)は、大規模な汎用テキストデータを使って、AIモデルに言語や世界知識の土台を学ばせる最初の学習段階です。GPTやClaudeのようなLLMは、この段階で数兆トークン規模のデータを読み込みます。

ここで得た「言葉の使い方」「一般常識」「論理構造」が、その後のあらゆる応用の基盤になります。

仕組み

  • 自己教師あり学習で進むのが主流(次の単語を当てる等)
  • 人手のラベルが不要なため、Web文書・書籍・コード等を大量投入できる
  • 学習には大量のGPUと数週間〜数ヶ月の計算コストがかかる

事前学習済みの状態を**基盤モデル(Foundation Model)**と呼びます。

ファインチューニングとの関係

  • 事前学習: 汎用的な言語能力・知識を獲得する段階(超大規模)
  • ファインチューニング: その上に特定用途を載せる追加学習(小規模)
  • インストラクションチューニングRLHFも、事前学習の後段で行う調整工程

実務への示唆

事前学習は基本的に大手AI企業が担う領域で、士業事務所が自前で行うことはまずありません。ただし「なぜモデルによって回答の傾向が違うのか」「なぜ最新情報に弱いのか」を理解するうえで、どの時点までのデータで事前学習されたかという視点は押さえておくと役立ちます。

士業AIで業務を効率化しませんか?

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で今すぐ試す