事前学習（Pretraining）とは？LLMの土台を作る学習段階｜士業AI用語集

事前学習とは

事前学習（Pretraining）は、大規模な汎用テキストデータを使って、AIモデルに言語や世界知識の土台を学ばせる最初の学習段階です。GPTやClaudeのようなLLMは、この段階で数兆トークン規模のデータを読み込みます。

ここで得た「言葉の使い方」「一般常識」「論理構造」が、その後のあらゆる応用の基盤になります。

仕組み

自己教師あり学習で進むのが主流（次の単語を当てる等）
人手のラベルが不要なため、Web文書・書籍・コード等を大量投入できる
学習には大量のGPUと数週間〜数ヶ月の計算コストがかかる

事前学習済みの状態を**基盤モデル（Foundation Model）**と呼びます。

ファインチューニングとの関係

事前学習: 汎用的な言語能力・知識を獲得する段階（超大規模）
ファインチューニング: その上に特定用途を載せる追加学習（小規模）
インストラクションチューニングやRLHFも、事前学習の後段で行う調整工程

実務への示唆

事前学習は基本的に大手AI企業が担う領域で、士業事務所が自前で行うことはまずありません。ただし「なぜモデルによって回答の傾向が違うのか」「なぜ最新情報に弱いのか」を理解するうえで、どの時点までのデータで事前学習されたかという視点は押さえておくと役立ちます。

士業AIで業務を効率化しませんか？

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で始めるログイン

無料で今すぐ試す