MoE(Mixture of Experts)
Mixture of Experts
複数の専門家ネットワークのうち一部だけを選んで使うことで、大規模化と効率を両立するアーキテクチャ。
MoEとは
MoE(Mixture of Experts、専門家の混合)は、1つの巨大モデル内に複数の「専門家(Expert)」ネットワークを持ち、入力ごとに一部の専門家だけを選んで使うアーキテクチャです。
全パラメータを常に動かす従来の密なモデルと違い、実際の推論で使うパラメータ数を抑えつつ、総パラメータ数は巨大にできるのが特徴です。
仕組み
- モデル内部にN個の「専門家ネットワーク」を用意(例: 8個、128個)
- ルーター(Gating Network)が、入力トークンごとに使う専門家をK個だけ選択(例: 8個中2個)
- 選ばれた専門家の出力だけを合成
たとえば「総パラメータ 1,000億・実効パラメータ 150億」のMoEなら、150億パラメータ相当の計算コストで1,000億規模の知識を扱えるイメージです。
メリット
- スケールしやすい: 総容量を伸ばしつつ推論コストを抑制
- 専門化が進む: 専門家ごとに異なる分野・パターンを担当
- 推論が速い: 密モデルに比べ計算量が少ない
課題
- 専門家間のロードバランスが崩れやすい
- メモリ消費は総パラメータ分必要(VRAM負荷)
- 学習の不安定さ
他との関係
GPT-4、Mixtral、DeepSeekなど、近年の最上位LLMで採用が広がっている手法です。「パラメータ数は巨大だが推論は高速」と謳われるモデルの多くは、裏でMoEを使っています。LLM大規模化の主要な設計トレンドの1つです。
