チャンク分割

Chunking

長い文書を検索しやすい単位に分割する処理。RAGの回答品質を大きく左右する前処理工程。

チャンク分割とは

チャンク分割(Chunking)は、長い文書を検索・埋め込みしやすい単位に切り分ける前処理です。RAGでは、この分割の良し悪しが検索精度・回答品質を大きく左右します。

文書全体を一つのベクトルにしてしまうと話題がぼやけ、逆に短すぎると文脈が失われます。意味が1つの塊として残る程度のサイズに切るのが基本です。

代表的な分割方式

  • 固定長分割: 一定文字数・トークン数で機械的に区切る(実装が簡単)
  • 意味単位分割: 段落・見出し・箇条書きなど文書構造で区切る
  • オーバーラップ付き: チャンク間で一部を重ねて、境界で文脈が切れないようにする
  • 再帰的分割: 章→節→段落と段階的に細分化

士業の実務での重要性

  • 条文・通達: 条番号・項・号で区切ると、後で根拠提示がしやすい
  • 判例・Q&A: 「事案/争点/結論」のブロック単位で切る方が引きやすい
  • 契約書: 条項単位で分けることで、レビュー用途に直結する
  • 社内マニュアル: 見出し構造を活かすと、手順単位で引ける

チャンク設計次第で「同じ資料なのに役立つRAGとそうでないRAGに分かれる」ため、設計段階で最も時間をかけるべき工程です。

注意点

  • 大きすぎるとノイズが増え、小さすぎると文脈が失われます。実データで評価しながら調整するのが現実的です。
  • 見出し・出典・日付などのメタデータもチャンクに付与すると、後段の絞り込み・引用提示で効きます。

士業AIで業務を効率化しませんか?

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で今すぐ試す