埋め込み(Embedding)
Embedding
単語や文章を「意味を保った数値ベクトル」に変換する技術。意味ベースの検索やRAGの土台となる。
埋め込み(Embedding)とは
埋め込みは、単語や文章を「意味を保った数値ベクトル」に変換する技術です。たとえば「税理士」という単語は、数百〜数千次元の数値の並びに変換されます。
この数値ベクトルは、似た意味の文章は似た値になる性質を持っています。これにより、キーワードが一致しなくても「意味が近い」文章を見つけられるようになります。
なぜ役立つか
従来のキーワード検索は文字の一致で探しますが、埋め込みを使った検索は意味の近さで探します。
- キーワード検索: 「源泉徴収」でヒット、「源泉税」は別扱い
- 意味検索(ベクトル検索): 「源泉徴収」「源泉税」「天引き」など意味が近いものをまとめて取得
主な用途
- セマンティック検索: 質問の意図に近い文書を検索
- RAG: 検索した関連文書をLLMに渡し、根拠付きの回答を生成
- 分類・クラスタリング: 似た内容のテキストをグループ化
- レコメンド: 内容が近い資料を推薦
士業業務との関係
直接 Embedding を触ることは少ないですが、社内ナレッジを検索できるRAGシステムの中で広く使われています。「過去の類似案件を検索できる」「通達を意味ベースで引ける」といった機能の裏側で動いているのが埋め込みです。
