MoE(Mixture of Experts)

Mixture of Experts

複数の専門家ネットワークのうち一部だけを選んで使うことで、大規模化と効率を両立するアーキテクチャ。

MoEとは

MoE(Mixture of Experts、専門家の混合)は、1つの巨大モデル内に複数の「専門家(Expert)」ネットワークを持ち、入力ごとに一部の専門家だけを選んで使うアーキテクチャです。

全パラメータを常に動かす従来の密なモデルと違い、実際の推論で使うパラメータ数を抑えつつ、総パラメータ数は巨大にできるのが特徴です。

仕組み

  • モデル内部にN個の「専門家ネットワーク」を用意(例: 8個、128個)
  • ルーター(Gating Network)が、入力トークンごとに使う専門家をK個だけ選択(例: 8個中2個)
  • 選ばれた専門家の出力だけを合成

たとえば「総パラメータ 1,000億・実効パラメータ 150億」のMoEなら、150億パラメータ相当の計算コストで1,000億規模の知識を扱えるイメージです。

メリット

  • スケールしやすい: 総容量を伸ばしつつ推論コストを抑制
  • 専門化が進む: 専門家ごとに異なる分野・パターンを担当
  • 推論が速い: 密モデルに比べ計算量が少ない

課題

  • 専門家間のロードバランスが崩れやすい
  • メモリ消費は総パラメータ分必要(VRAM負荷)
  • 学習の不安定さ

他との関係

GPT-4、Mixtral、DeepSeekなど、近年の最上位LLMで採用が広がっている手法です。「パラメータ数は巨大だが推論は高速」と謳われるモデルの多くは、裏でMoEを使っています。LLM大規模化の主要な設計トレンドの1つです。

士業AIで業務を効率化しませんか?

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で今すぐ試す