チャンク分割
Chunking
長い文書を検索しやすい単位に分割する処理。RAGの回答品質を大きく左右する前処理工程。
チャンク分割とは
チャンク分割(Chunking)は、長い文書を検索・埋め込みしやすい単位に切り分ける前処理です。RAGでは、この分割の良し悪しが検索精度・回答品質を大きく左右します。
文書全体を一つのベクトルにしてしまうと話題がぼやけ、逆に短すぎると文脈が失われます。意味が1つの塊として残る程度のサイズに切るのが基本です。
代表的な分割方式
- 固定長分割: 一定文字数・トークン数で機械的に区切る(実装が簡単)
- 意味単位分割: 段落・見出し・箇条書きなど文書構造で区切る
- オーバーラップ付き: チャンク間で一部を重ねて、境界で文脈が切れないようにする
- 再帰的分割: 章→節→段落と段階的に細分化
士業の実務での重要性
- 条文・通達: 条番号・項・号で区切ると、後で根拠提示がしやすい
- 判例・Q&A: 「事案/争点/結論」のブロック単位で切る方が引きやすい
- 契約書: 条項単位で分けることで、レビュー用途に直結する
- 社内マニュアル: 見出し構造を活かすと、手順単位で引ける
チャンク設計次第で「同じ資料なのに役立つRAGとそうでないRAGに分かれる」ため、設計段階で最も時間をかけるべき工程です。
注意点
- 大きすぎるとノイズが増え、小さすぎると文脈が失われます。実データで評価しながら調整するのが現実的です。
- 見出し・出典・日付などのメタデータもチャンクに付与すると、後段の絞り込み・引用提示で効きます。
