アテンション(注意機構)
Attention
文中のどの単語にどれだけ「注目」すべきかを学習する仕組み。Transformerの中核を担う。
アテンションとは
アテンション(Attention、注意機構)は、入力された文章の中で、どの単語にどれだけ「注目」して処理すべきかを学習する仕組みです。Transformerの中核部品で、現代のLLMの賢さの源泉とされています。
なぜ必要か
たとえば「その契約書についてそれを修正してほしい」という文では、「それ」が何を指すかを正しく掴む必要があります。
アテンションは、各単語が文中のどの単語と強く関係しているかを数値スコアで計算し、重要な部分に重み付けして処理します。これにより、離れた位置にある語同士の関係も正しく扱えます。
仕組みのイメージ
- 各単語について Query(問い)・Key(鍵)・Value(値) の3つのベクトルを作成
- Query と Key の類似度から注目度スコアを算出
- スコアに従って Value を重み付き合成
これにより「この単語は文脈上どの単語を"見て"解釈すべきか」をデータから学習します。
他との関係
- Self-Attention: 同じ文中の単語同士でAttentionを取る仕組み(Transformerの中核)
- Transformer: Attentionを積み重ねて作られたアーキテクチャ
- LLM: TransformerベースなのでAttentionが動作原理の中心
ChatGPTやClaudeが長文の文脈を正しく追えるのは、このAttention機構のおかげです。
