リトリーバル
Retrieval
質問に関連する資料を検索・取得する工程。RAGの「R」を担う、回答品質を決める要の処理。
リトリーバルとは
リトリーバル(Retrieval)は、質問に関連する資料をデータソースから検索・取得する処理です。RAG(Retrieval-Augmented Generation)の「R」にあたり、生成(Generation)の前段で回答の根拠となる情報を集めます。
どれだけ優秀なLLMでも、渡される資料が的外れだと正しい回答は出せません。RAG全体の品質の大半はリトリーバル段階で決まると言われます。
リトリーバルの主な方式
- キーワード検索: BM25 など、単語一致ベース
- セマンティック検索: 埋め込みベクトルで意味の近さを測る
- ハイブリッド検索: キーワード+セマンティックを併用
- リランキング: 一次取得の結果を専用モデルで並べ直す
士業の実務との関係
- 税理士: 質問に対し、過去の申告書類・通達・社内Q&Aを引く
- 弁護士: 論点に近い判例・書面ひな型・意見書事例を集める
- 社労士: 就業規則の類似条項・行政解釈を拾う
- 行政書士: 業種・自治体ごとの許認可要件を絞り込む
共通して、**「質問にちゃんと関係する資料を、取りこぼしなく拾う」**ことがRAGを業務で使える水準に押し上げる鍵です。
注意点
- 検索のヒット率(Recall)と精度(Precision)はトレードオフになりがちで、両立にはハイブリッド検索+リランキングなどの工夫が要ります。
- 取得段階で出典・日付・版情報を一緒に引いておくと、後段の引用提示・鮮度管理がスムーズです。
