残差接続(Residual Connection)

Residual Connection

層の入力を出力に「足し込む」ことで深いネットワークの学習を安定させる仕組み。Transformerでも標準採用。

残差接続とは

残差接続(Residual Connection、スキップ接続)は、ニューラルネットワークの層の入力を、その層の出力に直接"足し込む"仕組みです。2015年のResNetで提案され、Transformerにも標準で組み込まれています。

式で書くと「出力 = 層(入力) + 入力」という非常にシンプルな構造です。

なぜ必要か

ニューラルネットワークは層を深くすると表現力が上がる一方、勾配消失により学習が進まなくなる問題がありました。層を100以上重ねても、初期層まで学習信号がほぼ届かないのです。

残差接続は、この問題を次のように解決します。

  • 勾配が"近道"で伝わる: 入力を直接加算する経路ができるため、逆伝播時も信号が減衰しにくい
  • "何もしない"も学べる: 層が恒等写像を学習しやすく、不要な変換を強制されない
  • 100層以上の深さが実現可能に

Transformerでの役割

Transformerでは、Self-Attention層とFeed Forward層の直後にそれぞれ残差接続が入り、その後**層正規化(Layer Normalization)**を通す構造が標準です。

  • 数十層を積み重ねても学習が安定
  • 巨大LLM(100層超)の土台となる
  • 事前学習の高速化・収束性にも貢献

他との関係

TransformerSelf-Attentionと並ぶ、深層学習の基本的な設計原理の1つです。一見単純な「足し算」ですが、これがなければ現代の巨大LLMは成立しません。地味ですが極めて重要な土台技術です。

士業AIで業務を効率化しませんか?

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で今すぐ試す