Self-Attention(自己注意機構)
Self-Attention
同じ文章内の単語同士の関連を計算するアテンション。Transformerの中核として文脈理解を支える。
Self-Attentionとは
Self-Attention(自己注意機構)は、同じ文章内の単語同士がどれだけ関連しているかを計算するアテンション機構です。Transformerの中核部品であり、LLMが文脈を深く理解できる理由の中心にあります。
「Self(自己)」とは、入力文1つの中で単語同士を参照し合うという意味です。
仕組み
文中の各単語について、以下の3つのベクトルを作ります。
- Query(問い): 自分が何を知りたいか
- Key(鍵): 他の単語が何を提供するか
- Value(値): 実際の意味情報
各単語のQueryと、文中すべての単語のKeyとの類似度を計算し、どの単語にどれだけ注目するかの重みを決定。その重みでValueを合成して、文脈を織り込んだ新しい表現を作ります。
なぜ強力か
- 長距離依存を捉えられる: 文頭と文末の語も直接関連付けられる
- 並列処理可能: すべての単語ペアを同時に計算できる
- 多層重ねで複雑な文脈を獲得: 何層も重ねることで高次の意味を扱える
Multi-Head Self-Attention
実際のTransformerは、複数の「頭(Head)」で並列にSelf-Attentionを計算するMulti-Head Self-Attentionを使います。頭ごとに異なる観点(文法、意味、長距離関係など)で文脈を捉えられます。
他との関係
Transformerを構成する最重要部品であり、位置エンコーディングと組み合わせて単語の順序情報も扱います。ChatGPTやClaudeが長文を筋道立てて理解できるのは、何層ものSelf-Attentionが文脈を精緻に織り上げているためです。
