本篇参考:
https://zhuanlan.zhihu.com/p/1910636263666610461

https://zhuanlan.zhihu.com/p/703256080

https://zhuanlan.zhihu.com/p/441146275

GEMM 算子详解

1 概念

从数学上讲,GEMM 描述的是一个非常基础的线性代数运算:

C=αA×B+βCC = \alpha A \times B + \beta C

其中:

  • AAM×KM \times K 的矩阵。
  • BBK×NK \times N 的矩阵。
  • CCM×NM \times N 的结果矩阵。
  • α\alphaβ\beta 是常数标量(通常 α=1,β=0\alpha=1, \beta=0)。

深度学习中 90% 以上的计算量都来自矩阵乘法:

  • 全连接层(Linear/FC):本质就是 GEMM。
  • 卷积层(Conv2d):通过一种叫 im2col 的技术,卷积运算会被转化为 GEMM 运行,以利用 GPU 的极致算力。
  • Transformer(大模型):其核心的 Attention 机制本质上是多组连续的 GEMM 运算。