VRAM
Video RAM
GPUに搭載されているメモリ。AIモデルはここに載せて動かすため、VRAM容量が扱えるモデルサイズを決める重要な指標となる。
VRAMとは
VRAM(Video RAM)は、GPUに搭載されているメモリです。AIモデルは動かすときにこのVRAM上に読み込まれるため、VRAM容量がそのGPUで扱えるモデルサイズを直接決めます。
通常のPCメモリ(RAM)とは別物で、GPU専用の高速メモリです。
なぜ重要か
LLMはパラメータをすべてVRAMに載せて計算します。そのため、
- VRAMが足りない → モデルがそもそも動かない
- VRAMギリギリ → 長いコンテキストを入れられない
- VRAMに余裕 → 大型モデルや長文処理が可能
目安(推論時)
| モデル規模 | 必要VRAM(目安) |
|---|---|
| 7Bクラス | 約8〜16GB |
| 13Bクラス | 約16〜24GB |
| 70Bクラス | 約48〜80GB以上 |
量子化(精度を落として軽量化)を使うと、必要VRAMを大幅に削減できます。
節約の技術
- 量子化: 重みを16bit→8bit→4bitへ圧縮
- モデル分割: 複数GPUに分散
- CPUオフロード: 一部をメインメモリに逃がす(速度は落ちる)
事務所が意識すべき点
クラウドAIを使うだけならVRAMは気にする必要はありません。ローカルでオープンモデルを動かしたい場合に、**「自社のGPUのVRAMで動くモデル規模は何か」**を最初に確認する指標になります。
