LLM推論課題の入口

今年のAI側で出ている名前

メモ上では、2026年AI側の議論に次の名前が出ています。

名前何か現時点の扱い
QwenAlibaba/QwenチームのLLMシリーズ公式モデルカードあり
Qwen3-235B-A22B総235B、活性化22BのMoEモデル公式モデルカードあり
SGLang高スループット・低レイテンシ向けLLM serving framework公式ドキュメントあり
DynamoNVIDIAの分散推論serving framework公式ドキュメントとGitHubあり
PD disaggregationprefillとdecodeを別workerに分ける推論構成SGLang/Dynamoに公式説明あり

Qwen3-235B-A22B

Qwen3-235B-A22BのHugging Faceモデルカードでは、主な仕様が次のように説明されています。

項目内容
種類Causal Language Model
パラメータ数総235B、活性化22B
層数94
Attention headsQ: 64、KV: 4
Experts128
Activated experts8
Context lengthnative 32,768 tokens、YaRNで131,072 tokens
ライセンスApache-2.0

MoEなので、全パラメータを毎token使うわけではありません。ただし、重みはGPUメモリ上に載せる必要があるため、active parametersだけで必要VRAMを見積もると失敗します。

SGLang

SGLang公式ドキュメントでは、SGLangは大規模言語モデルとマルチモーダルモデル向けの高性能serving frameworkと説明されています。特徴として、RadixAttention、prefix caching、multi-GPU parallelismなどが挙げられています。

2025年大会のAI側では、DeepSeek-R1 671BをSGLangで推論する課題だったことが公式発表で確認できます。

Dynamo

NVIDIA Dynamoは、分散LLM servingのためのframeworkです。メモ上では、Dynamoのbenchmarksrecipes/qwen3-235b-a22b-fp8が2026年AI側の参考として示されています。

ただし、該当recipeのREADMEはTensorRT-LLM向けと説明しているため、SGLang課題とどう関係するのかは大会運営への確認が必要です。

推論の2段階: prefillとdecode

LLM推論は大きく2段階に分かれます。

段階何をするか性能特性
prefill入力prompt全体を処理し、KV cacheを作る計算量が大きい。長い入力で重くなる
decode1 tokenずつ次tokenを生成するメモリ帯域、KV cacheアクセス、batchingが効く

SGLangのPD Disaggregationドキュメントも、prefillは計算集約、decodeはKV cache管理を伴うメモリ集約と説明しています。

参考文献