-
GPU性能-矩阵乘法
Thursday, February 13, 2025
Acronyms 2 理论:计算和内存瓶颈分析 2.1 计算量评估 2.2 内存访问量评估(Bytes) 2.3 Arithmetic Intensity 3 GPU GEMM优化办法 3.1 Tile the Output 3.2 Tensor Core 3.2 Typical Tile Dimensions in cuBLAS 3.4 tile size的影响…
-
快速诊断GPU性能瓶颈
Tuesday, February 11, 2025
GPU性能瓶颈主要分为3类:Latency Bound, Math Bound, Memory Bound。 1 诊断步骤: 1.1 评估硬件参数 GPU SM数量,比如 A100~108, V100~80 GPU 算…