GEMM优化实战

发表于2026-01-31|更新于2026-01-31|教程

|阅读量:

本篇参考：
https://zhuanlan.zhihu.com/p/1910636263666610461

https://zhuanlan.zhihu.com/p/703256080

https://zhuanlan.zhihu.com/p/441146275

GEMM 算子详解

1 概念

从数学上讲，GEMM 描述的是一个非常基础的线性代数运算：

C = \alpha A \times B + \beta C

其中：

$A$ 是 $M \times K$ 的矩阵。
$B$ 是 $K \times N$ 的矩阵。
$C$ 是 $M \times N$ 的结果矩阵。
$\alpha$ 和 $\beta$ 是常数标量（通常 $\alpha=1, \beta=0$ ）。

深度学习中 90% 以上的计算量都来自矩阵乘法：

全连接层（Linear/FC）：本质就是 GEMM。
卷积层（Conv2d）：通过一种叫 im2col 的技术，卷积运算会被转化为 GEMM 运行，以利用 GPU 的极致算力。
Transformer（大模型）：其核心的 Attention 机制本质上是多组连续的 GEMM 运算。

文章作者: Lpl

文章链接: http://earnshawn.cn/2026/01/31/GEMM%E4%BC%98%E5%8C%96%E5%AE%9E%E6%88%98/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Earnshawn！

gemm 并行计算算子优化

相关推荐

【CUDA】（一）基于CUDA的异构并行计算

【CUDA】（七）调整指令级原语

【CUDA】（二）CUDA编程模型

【CUDA】（六）流和并发

【CUDA】（三）CUDA执行模型

【CUDA】（零）前置知识

评论

数据库加载中