用語辞書

大会・HPC一般

用語説明
HPCHigh Performance Computing。多数のCPU/GPU、メモリ、ネットワークを使って大規模計算を高速に行う分野
ノードクラスタを構成する1台の計算機。CPU、GPU、メモリ、NICを持つ
rankMPIプロセスの番号。OpenFOAMではrankごとに計算領域の一部を担当する
MPIMessage Passing Interface。複数プロセス間で通信する標準API
PBS / SlurmHPCクラスタでジョブを投入・管理するジョブスケジューラ
wall time実際に時計で測った経過時間。大会の実行時間評価で重要
strong scaling問題サイズを固定し、ノード数を増やしてどれだけ速くなるか
weak scaling1ノードあたりの問題サイズを固定し、ノード数と問題サイズを同時に増やす評価
NUMACPUソケットごとにメモリアクセス距離が違う構造。bindingを誤ると遅くなる
CPU affinity / bindingプロセスやスレッドを特定CPU coreに固定すること
InfiniBandHPCでよく使われる低レイテンシ・高帯域ネットワーク
RDMARemote Direct Memory Access。CPUをあまり介さずリモートメモリへ直接転送する仕組み
UCXHPC通信で使われる通信framework。InfiniBand/RDMAなどを抽象化する
profiling実行時間やCPU/GPU/メモリ/通信/I/Oの使用状況を計測し、性能問題を調べること
bottleneck全体性能を制限している最も遅い部分。最適化ではまずここを特定する
hotspot実行時間の多くを占める関数や処理箇所
scaling analysisノード数やGPU数を増やしたとき、性能がどれだけ伸びるかを測る分析
parallel efficiency並列化したときに、理想的な速度向上に対してどれだけ効率が出ているか
PMPIMPIのprofiling interface。MPI関数の呼び出し時間などを測るツール実装に使われる
NCCLNVIDIA Collective Communications Library。複数GPU間のAllReduceなどのcollective通信に使われる
load imbalancerank/スレッド間で計算量が偏ること。最も遅いrankに全体が引っ張られる
Amdahl's law並列化できない逐次部分があると、資源を増やしても速度向上が頭打ちになる法則
MPI_Allreduce各rankの値を集約し結果を全rankへ配るcollective通信。反復ソルバで多発する
collective通信全rank/全GPUが参加する通信(AllReduce、AllGather、Broadcastなど)
memory bandwidthメモリ帯域。単位時間に転送できるデータ量。律速になると計算が待たされる
false sharing(偽共有)別スレッドが同一cache lineを更新し合い、無駄なcache同期で遅くなる現象
first-touch最初にアクセスしたスレッドのローカルメモリに割り当てるNUMAの仕組み
numactlNUMAポリシーを制御し、特定ノードでプロセスを動かすコマンド
A64FX富岳のArmベースCPU。48コア、HBM2、SVE512が特徴
SVEScalable Vector Extension。ベクトル長非依存のArm SIMD拡張(富岳は512bit)
HBM2広帯域メモリ。A64FXが採用
LTOLink Time Optimization。複数の翻訳単位を横断した最適化
PGOProfile-Guided Optimization。実行プロファイルを利用した最適化
-Ofast精度を犠牲にしうる積極的なコンパイラ最適化。大会での許容範囲は要確認
-march対象CPU固有の命令を使うコンパイラ最適化オプション
サニタイザー未定義動作やメモリエラーを検出するビルド機能(ASan、UBSanなど)
scratch領域マシンから高速にアクセスできる一時作業用ストレージ

OpenFOAM / CFD

用語説明
CFDComputational Fluid Dynamics。流体の運動を数値計算で解く分野
OpenFOAMCFD向けのオープンソースソフトウェア群
caseOpenFOAMでの計算問題一式。0/constant/system/などを含む
solver方程式を解く実行プログラム。例: simpleFoampimpleFoam
mesh計算領域を小さなcellに分割したもの
cellmeshの最小単位
domain decomposition計算領域を複数プロセスに分けること
decomposeParDict領域分割方法を指定するOpenFOAM設定ファイル
decomposeParcaseを並列実行用に分割するコマンド
reconstructPar並列実行後の分割結果を結合するコマンド
residual数値解が方程式をどれだけ満たしていないかの指標
tolerance / relTol線形ソルバの収束判定条件
RANSReynolds-Averaged Navier-Stokes。乱流を平均化して扱う手法
LESLarge Eddy Simulation。大きな渦を直接解き、小さな渦をモデル化する手法
KPIKey Performance Indicator。TTSFなど性能評価用の指標
TTSTime To Solution。解を得るまでの時間
Pressure Solver圧力の連立方程式を解くソルバ。OpenFOAMの実行時間の多くを占める
反復法正解に少しずつ近づけて解く方法。CG/PCG/BiCGStab/GAMGなど
PCGPreconditioned Conjugate Gradient。前処理付き共役勾配法
GAMGGeometric-Algebraic Multi-Grid。マルチグリッド系ソルバ。通信特性が異なる
decomposeParDictのmethodsimple/hierarchical/scotch/ptscotchなど領域分割の手法
Boundary Cells(境界セル)分割した領域の境界にあるcell。隣rankと情報交換が必要

AI推論

用語説明
LLMLarge Language Model。大規模言語モデル
inference学習済みモデルを使って出力を生成すること
servingAPIとして推論を受け付け、複数requestを処理する運用形態
tokenLLMが処理するテキストの単位
prefill入力prompt全体を処理してKV cacheを作る段階
decodeKV cacheを使って1 tokenずつ出力を生成する段階
KV cacheAttention計算で使うKey/Valueを保存し、過去tokenの再計算を避けるcache
TTFTTime To First Token。最初のtokenが返るまでの時間
TPOTTime Per Output Token。出力token 1個あたりの時間
ITLInter-Token Latency。token間の待ち時間
throughput単位時間あたりの処理量。tokens/sやrequests/s
concurrency同時に処理するrequest数
ISLInput Sequence Length。入力token数
OSLOutput Sequence Length。出力token数
p95 latency遅い側5%を含めた応答時間。体感品質を見るのに重要

モデル・並列化

用語説明
QwenAlibaba/QwenチームのLLMシリーズ
DeepSeek-R1reasoning向けLLM。2025年大会AI課題で使われた
MoEMixture of Experts。複数expertのうち一部だけをtokenごとに使うモデル構造
expertMoE内の専門サブネットワーク
active parameters1 tokenの計算で実際に使われるパラメータ数
total parametersモデル全体のパラメータ数。VRAM見積もりではこちらも重要
TPTensor Parallelism。1層内の行列計算を複数GPUに分ける
PPPipeline Parallelism。層を複数GPU/ノードに分ける
DPData Parallelism。同じモデル複製で別request/batchを処理する
EPExpert Parallelism。MoEのexpertを複数GPUに分ける
DP AttentionAttention部分をdata-parallel寄りに扱う最適化。モデル・実装依存
CUDA GraphCUDA kernel実行列をgraph化し、起動 overheadを減らす仕組み
prefix cache同じprefixを持つrequestでKV cacheを再利用する仕組み
RadixAttentionSGLangのprefix sharing/cache管理に関係する仕組み
speculative decoding小さいモデルや補助headで先のtokenを予測し、採用できた分だけ高速化する手法
MTPMulti Token Prediction。複数tokenを先読み予測する手法
quantization重みやKV cacheを低精度化してメモリや計算を減らす手法
FP8 / BF16数値形式。FP8は低精度で軽い、BF16は学習・推論でよく使われる16bit形式

Framework / Tool

用語説明
SGLang高性能LLM serving framework
DynamoNVIDIAの分散推論serving framework
TensorRT-LLMNVIDIA GPU向けLLM推論最適化ライブラリ
vLLMLLM serving framework。PagedAttentionなどで知られる
AIPerfAI推論性能測定ツール。Dynamo docsで利用例がある
NIXLNVIDIAのKV転送などで使われる通信/転送ライブラリ
MooncakeSGLangのPD disaggregationで使えるKV transfer engineの一つ