Page 2 – orczhou.com

了解 CLIP 模型

2026-02-03
目录
1. 实验设计
2. 实验数据与结果分析
2.1 可视化结果
3. 其他

深度学习领域除了大语言模型之外，另一个极其活跃的领域即为视频、图像处理领域（或者叫“多模”数据）。随着 Stable Diffusion 取得成功，这个领域也在非常快速的发展。这里也打算极其粗浅的了解一下这个领域。打算，从最为基础“组件”之一 “CLIP” 开始。

“CLIP”的全称是“Contrastive Language–Image Pre-training”，描述的是一种训练方法，可以把“图片”、“文字”嵌入（Embedding）到同一个空间（例如 512 维的向量空间），并保持非常好的相关性。利用这个特点，则可以非常好的进行诸如：图片相似性、文本图片相关性的人物；也可以作为其他模型的一部分，提供非常好的文本与图片一致性的关系。这里以典型的“clip-vit-base-patch32”模型为例，去简单实践并了解该模型。

1. 实验设计

这里选择一张图片，如右图，使用该模型对图片进行 Embedding；然后再选择一组文本，如下，使用该模型对其进行 Embedding ，然后观察这些向量之间的余弦距离关系。

texts = [ "a dog", "a cat", "a car", "a landscape", "a person", "a person behind a statue", "a person riding a bicycle", "tourist attraction", "a vacation" ]

2. 实验数据与结果分析

在使用模型进行Embedding后，然后把所有文本向量与图片计算余弦相似度后有右侧数据：

可以看到，图片和文本之间表现出了非常强的相关度。相关度最高的文本为：“a person behind a statue”，也是所有文本中对图片最为准确的描述。“a person” 也比 “a person riding a bicycle” 有着更高的相似度，更比诸如 “a dog”、“a cat” 要高非常多。

0.2707 | a person behind a statue 0.2508 | tourist attraction 0.2074 | a person 0.2063 | a vacation 0.1974 | a person riding a bicycle 0.1875 | a dog 0.1821 | a landscape 0.1754 | a cat 0.1655 | a car

2.1 可视化结果

这里在一个数轴上，简单对上述结果进行可视化，从而建立一个更为直观一点的认识：

在数轴上将上述文本与图片的相似度取值绘制出来，可以看到，“a person behind a statue”远比其他的文本相似度要高。

3. 其他

对于 Embedding 出来的向量，这里也使用诸如“T-SNE”、“PCA”、“UMAP”、“MDS”等方式去降维到二维空间分析，但是并没有观察余弦相似度的保持，与上述计算结果不符合。也许是点太少、也许是用法不对。这也让对诸如“T-SNE”等算法在可视化上效果，提高了警惕。关于这部分计算的数据和结果可以参考：SD-Forward-Diffusion-Process.ipynb@Colab，这里不再展示。
线性代数回顾(二)

2026-02-01
目录
1. 向量空间
1.1 基
1.2 线性相关与线性无关
1.3 一些重要的结论
2. 线性变换与矩阵
2.1 概述
2.2 线性变换
2.3 欧氏空间的线性变换与矩阵
3. 特征向量与特征值
3.1 为什么
3.2 关于对特征向量的理解
4. 最后

到目前为止，前面的线性方程组的解，还有一些问题没有彻底回答（例如，解空间的描述），在回答这个问题之前，我们需要先了解一下“向量空间”。“向量空间”的严格定义是有些枯燥的，这里暂时把“向量空间”的限制为大家所熟悉的、最为典型的“ $n $ 维欧氏空间”。

1. 向量空间

1.1 基

要描述一个向量空间中的元素，则首先需要一组基（坐标）。在$n$维欧氏空间，最为常见的一组基，即为多个“垂直”（“正交”）的单位向量，即：

$$ \begin{align}
\alpha_1 &= (1,0,\dots) \\
& \vdots \\
\alpha_i &= (\dots,0,1,0,\dots) \\
& \vdots \\
\alpha_n &= (0,\dots,1)
\end{align}
$$

在二维平面空间中，则为：$ \alpha_1 = (1,0) \quad \alpha_2 = (0,1)$；三维空间则为：$ \alpha_1 = (1,0,0) \quad \alpha_2 = (0,1,0) \quad \alpha_3 = (0,0,1)$。

既然有“正交”基，那么当然有不那么“正交”的基，而此类“基”则是更为普遍的。事实上，更为普遍的，任何 $ n $ 个线性无关的向量都可以作为向量空间的基。

1.2 线性相关与线性无关

考虑一组向量$ \alpha_1,\dots , \alpha_n $，如果当且仅当所有$ a_i = 0 \quad i=1,\dots,n$时如下的等式才成立：

$$ a_1\alpha_1 + a_2\alpha_2 + \dots + a_n\alpha_n = 0 $$

那么，就说这组向量 $ \alpha_1,\dots , \alpha_n $ 是线性无关的。反之，则称这组向量是线性相关的。

或者这么说，对于一组线性无关的向量$ \alpha_1,\dots , \alpha_n $：任何一个向量都不能用剩余的向量做“线性表示”。

1.3 一些重要的结论

结论：设$ \{ \alpha_1,\dots , \alpha_n \}$是向量空间$ V $的一组基，那么$ V $空间中的每一个向量都可以唯一的表示为这组基的线性组合。这个线性组合的系数，就叫“坐标”（注：相对于这组基）。

结论：$ W_1 $、$ W_2 $是$ V $的有限子空间，那么有：

$$ dim(W_1+W_2) = dim(W_1) + dim(W_2) – dim(W_1\cap W_2) $$

结论：$ n $维向量空间中，任意$ n $个线性无关的向量都可以取做基。

2. 线性变换与矩阵

2.1 概述

“线性变换”是指向量空间中一类特殊的映射 $ \sigma : R^n \to R^m $ ，需要满足条件是：

$ \sigma(\xi + \eta) = \sigma(\xi) + \sigma(\eta) $

$ \sigma(a\xi) = a\sigma(\xi) $

“线性变换” 描述了向量空间之间的映射。后续所有的内容大概都是围绕此而展开，后续所有的内容都会尝试通过各种方式将 “线性变换” 的特性研究清楚。这里写出部分结论，后面再慢慢展开：

线性变换之下，原点保持不变。即 $ \sigma( \vec{0} ) = \vec{0} $

几何意义下，通常，线性变换包括了：旋转、镜像、拉伸/压缩（特别的，有时候会压缩到零）、剪切

为了研究清楚一个线性变换上述的特点，通常需要选取一组“基”，然后使用这组“基”的“坐标”来描述空间中的点，进而再描述对应的线性变换。最为常见的基为“正交单位基”。

从方法上来看，研究清楚“线性变换”最为关键的是研究清楚对应的“变换矩阵”。所以，“线性代数”的核心后面就变成了对矩阵特性的研究，但是，也不要忘记了初衷，否则很快就迷失了。

2.2 线性变换

我在大学期间对于线性变换、矩阵有什么作用，是完全没有概念的。所以对于他们的特性研究也没有掌握的很深，基本上是停留在能够把一些联系题做对这个层面。而现在，注意线性变换的广泛应用之后，尝试去理解去本质之后，就会寻根问底的去理解清楚什么是线性变换、什么是矩阵。这里再次说说我的理解。

在一个向量空间中，最为常见的是 $n $ 维欧氏空间，会有很多的向量，例如每个 Embedding 就可以理解是在一个线性空间中，“线性变换”表述了是空间中的一类映射，该映射满足上述“小结2.1”中的两个要求，即原点依旧到原点、映射保持所谓的“线性”（例如，向量和的映射等于映射的和等）。

在一个向量空间中，一个线性变换就是一个符合一定条件的映射。与向量空间的基的选取是没有关系的。自此，与矩阵也是没有关系的。所以，线性变换本身是更为底层、更为基础的概念。

2.3 欧氏空间的线性变换与矩阵

现在我们把问题限定在 $n $ 维欧氏空间中。那么，这时候，我们如何描述一个线性变换呢？是的，就是“基”与“矩阵”。

通常，$n $ 维欧氏空间，我们会先选取一组基，然后使用一个矩阵去描述这个线性变换。并且非常幸运的，一旦这组基选定了，这个矩阵是唯一的。

结论：在$n $ 维欧氏空间（这个条件似乎可以去掉）中，对于线性变换 $\sigma $，如果选定一组“基”，那么就存在唯一的“矩阵”描述该线性变换。

上述的结论，是比较明显的。我们考虑对于线性变换中的上述选定的基向量 $\alpha_i,\quad \text{where } i = 1,\ldots,n $，线性变换将其映射到 $\beta_i,\quad \text{where } i = 1,\ldots,n $，那么根据“基”的基本性质，对于这里的任何 $\beta_i $都可以表示成$\alpha_i $的线性组合，所有的这些系数构成的矩阵，就是上述描述的唯一的“矩阵”。具体的：

$$
\begin{aligned}
\beta_1 &= a_{11}\alpha_1 + a_{21}\alpha_2 + \cdots + a_{n1}\alpha_n \\[0.5em]
\beta_2 &= a_{12}\alpha_1 + a_{22}\alpha_2 + \cdots + a_{n2}\alpha_n \\[0.5em]
&\ \vdots \\[0.5em]
\beta_n &= a_{1n}\alpha_1 + a_{2n}\alpha_2 + \cdots + a_{nn}\alpha_n
\end{aligned}
$$

即：

$$
\begin{aligned}
\begin{bmatrix}
\beta_1 & \beta_2 & \cdots & \beta_n
\end{bmatrix}
=
\begin{bmatrix}
\alpha_1 & \alpha_2 & \cdots & \alpha_n
\end{bmatrix}
\begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{bmatrix}
\end{aligned}
$$

即在这个线性变换$\sigma $ 在选定基 $\alpha_i,\quad \text{where } i = 1,\ldots,n $ 对应的矩阵为：

$$
\begin{aligned}
A =
\begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{bmatrix}
\end{aligned}
$$

从这段简洁的“证明”（或“说明”）来看，我们很自然有如下结论，根据空间中的“基”的选取不同，我们会得到不同的矩阵。因为我们反复会提到，我们经常会通过研究矩阵的特性来研究线性变换。那么，同一个线性变换在不同的“基”下的不同“矩阵”，很自然的能够想到，这些“矩阵”是有某些共性的，是的，我们称这些矩阵为“相似矩阵”，相关特性，暂不展开。

3. 特征向量与特征值

3.1 为什么

为什么我们需要关注“特征值与特征向量”呢？为什么我们要去了解奇异值分解（SVD）呢？

原因是“线性变换”是一个映射，是非常抽象的。而特征值、特征向量、SVD分解可以把线性变换最为关键的特性，以非常“直观”的形式表达出来。当然，这里的“直观”并不是简单意义上能够一眼就看出什么来，事实上，“线性变换”本身就有很强的抽象性，这里的“直观”只是相对的，是否直观，完全依赖于各位看客自己的“悟性”了。

特征向量的基本定义：如果有 $ \sigma(\xi) = \lambda \xi $ ，那么这里的 $ \xi $ 就是特征向量，对应的 $\lambda $ 就是对应的特征值。

要想真正说清楚特征向量与特征值是需要非常多篇幅的，而且关于对特征向量的理解对于理解线性变化也是非常关键的，所以，建议花些时间较为系统的做一些理解。如果你已经建立的基础概念，这里的一篇文章可能是帮助你增强一些理解：特征向量与特征值。

3.2 关于对特征向量的理解

完整的讨论特征向量与特征值是复杂的，这里将其限定在一些较为简单的情况，作为一个入门。我们这里考虑最为简单的情况，即对于一个 $n \times n $的矩阵，其秩为 $n $，并且在计算特征值时，有 $n $ 是不重复的实数解，即没有任何根式重根。如果，恰好 $ n = 2 $这大概是最为简单的情况了，不过理解这种情况，再进一步拓展，则学习曲线会平滑很多。

我们来看一个实例，在二维空间中，在标准基下，我们有如下的线性变换矩阵：

$$
W = \begin{bmatrix}
2 & 1 \\
1 & 2
\end{bmatrix}
$$

根据上述特征向量特征值的定义进行求解，我们可以有如下的特征值与特征向量：

$ \lambda_1 = 3 $ 特征向量 $ (1,1) $

$ \lambda_2 = 1 $ 特性向量 $ (-1,1) $

从特征向量角度理解线性变换：那么上述的矩阵A对应的线性变换 $\sigma $ 有如下特性，在这个二维空间任何向量 $\beta $，都可以分解（投影）为上述两个特征向量方向的向量： $\beta_1 \,, \beta_2 $，且有：$\beta = \beta_1 + \beta_2 $。那么，则有：$\sigma(\beta) = \lambda_1 \beta_1 + \lambda_2 \beta_2 $。即，这个线性变换可以这样描述：先将任何向量沿着特征向量方向分解，然后再按照特征值的大小进行拉伸或压缩，然后再把向量合并起来。

上述的解释，可以对照着右图去理解。特征向量分别为 $(1,1) $ 和 $(-1,1) $ ，即图中浅绿色、浅蓝色方向。该矩阵作用在向量 $(0,1) $ 上，即图中的红色向量。先将红色向量沿着浅绿色、浅蓝色方向分解，然后按照特征值进行拉伸，即图中的绿色、蓝色向量，最后合并为图中的紫色最终向量。

上述的场景是线性变换中，最为简单的一类。而实际的线性变换，则更为复杂，可能还涉及到对于向量的旋转、镜像、剪切等变换。关于更多场景可以自己探索，或者阅读相关书籍，也可以看看这篇文章中的更多直观的例子：特征值与特征向量。

“特征向量”可以很好的帮助理解“方阵”变换，还有一类变换时非方阵的情况，通常这时候可以借助于奇异值分解的方式去理解，关于奇异值分解可以参考：奇异值分解–深度学习的数学基础。

4. 最后

初等的线性代数核心部分大概是这些内容，出于完整性的考虑，可以再进一步了解“Jordan 块”相关的内容，从而把相关理论补充完整，这里不再详述。

如果再回到最初的线性方程组解的问题，我们这里就可以回答最后一个问题：对于一个线性方程组，如果有解，那么所有的解空间是怎样的？

结论：如果方程组的系数矩阵的秩为$ r $，那么解空间的维度为$ n-r $。解空间的“基”则可以通过初等变换求得。这里不再详述。
2025 云数据库年度总结

2026-01-31
目录
1. 数据库与 AI
2. 云数据库或厂商的重要发布
3. 其他
4. 重要的收购与融资
5. 开源与商业
6. 相关阅读
参考链接

年度总结是从前两年开始写的，鉴于考虑把“行业动态”的发布频率改为“月度”的，所以，也就同时要求自己每年都写一个数据库的年度总结了。在总结时，大家总是倾向于赋予最近一年过多的意义，但如果放在更长的时间尺度里面，可能不尽然。过去的2025年，并不是属于数据库的，而依旧是属于“AI”的，摆正这个位置后，在这个大背景下，我们再来看看数据库的发展情况吧。

1. 数据库与 AI

数据库与AI结合的方向包含了向量数据库、Memory、以及如何使用 AI 用好数据库。

OceanBase 是可能是国内数据库厂商中 AI 投入最大的厂商^[43]，除了持续建设向量存储与搜索技术外，今年还全新发布轻量向量数据库 seekdb ^[41]；全新发布 PowerMem^[42]（兼容Mem0）；此外，ODC 发布 DataPilot、诊断Agent等能力。

新的向量数据库 VexDB 正式发布，该数据库由清华研发团队，能够支持百亿千维向量数据毫秒级查询，召回准确度高，并在国际权威的 DABSTEP 非结构化数据分析测试中，VexDB 的数据代理系统以领先第二名超 10 个百分点的成绩夺冠^[24]。

不约而同，在年底火山引擎 MySQL^[50]、阿里云 MySQL^[51]分别支持向量类型的索引与搜索能力，均使用 HNSW 索引，这非常大程度弥补了开源MySQL的弱项（仅能够进行向量存储，并不支持基于向ANN的检索算法）。

感受上，Google 也在各种方式尝试将AI技术更好的与数据库进行结合。具体的，在数据库与 AI 能力结合上，Google发布了 (1) MCP Toolbox for Databases^[19] (2) 在控制台集成了Gemini 的 Text2SQL (3) 使用 Gemini 修复 Studio 中的错误^[18] (4) 将数据库访问与管理集成到 Gemini CLI 中^[20]（说明：使用的是MCP Toolbox）。

阿里云数据库团队在 AI 结合上也做了大量探索，还是比较有意思的。包括尝试加速推理效率的 PolarKVCache ^[48]；另外，Tair KVCache ^[56]团队似乎也在尝试通过文件系统、内存优化解决推理效率。目前，PolarKVCache 相关功能还处于内测阶段。LLM 推理过程中，在 Decoder 阶段由于KV Cache的问题，显存是巨大的瓶颈，如果通过硬件、软件结合的技术扩展缓存池的大小，可以大大增加推理的并发性，并更好的利用内存去加速推理。

此外，阿里云 RDS PostgreSQL 现推出AI插件“rds_ai”^[6]；PolarDB for AI ^[8][9]则内置了多种机器学习算法模型、NL2SQL等能力。

Zilliz Milvus 流行度进一步增强，GitHub Star 数量达到4万^[60]；Milvus 在过去一年则新增了如下的重要能力：RaBitQ 1-bit Quantization^[57]、内置文本向量化^[58]、Decay Ranker^[59]、增强了JSON支持、Geospatial Data Type 等功能。

2. 云数据库或厂商的重要发布

AWS RDS/Aurora 支持了 MySQL 9.4/9.5^[69]，PostgreSQL 18^[75]，InfluxDB 3 ^[70]，SQL Server Developer Edition^[71] ；Aurora DSQL 现已全面推出^[72]；主要的数据库实例均支持了新的 Gravition 4 实例 ^[73][74]；Aurora DSQL正式GA^[77]，且支持在几秒钟内创建集群^[76]; 继续使用 Zero-ETL 方式打通数据库与Redshift 、SageMaker等平台^[11][13]；Aurora PostgreSQL 现在支持与 Kiro powers（MCP）集成^[78]。

RDS 支持了 PostgreSQL 18^[61]、SQL Server 2025 企业集群版、标准版^[62]。RDS PostgreSQL、MySQL推出DuckDB分析实例^[63][64][65]；PolarDB 发布“文档数据库”MongoDB的访问能力^[66]，“PolarSearch”功能^[4]；阿里云 RDS 发布 Supabase 托管服务，帮助客户利用 Supabase / RDS PostgreSQL 能力快速构建全栈应用 ^[67]；基于阿里云 DTS 构建了 RDS MySQL、PostgreSQL全球多活数据库（GAD）^[7][68]，Zero-ETL AnalyticDB等^[5]。

MySQL/veDB支持 RockDB ^[79]，ARM 架构规格^[80]，Sequence Engine^[81]，Flashback Query^[82]，多节点实例^[83]；此外，还发布了DBCopilot^[84]、NL2SQL^[85]、MongoDB 8.0^[86]；补充细节竞争力，例如提供SSL加密传输^[23]、varchar的Online DDL、提升IN谓词时的性能等^[21]；支持 veDB-Search 混合检索^[87]。

TDSQL-C MySQL 支持了创建“分析集群”（“LibraDB 内核”）^[88]、全球数据库功能^[89]、二级存储功能（Serverless 版）^[90]。云数据库支持了PostgreSQL 18.0^[91]、通过通过 SQL 调用大模型 API（PostgreSQL版 / tencentdb_ai ）^[92]、SQL Server 发布全新多节点架构（一主多备） ^[93]。TDSQL-C MySQL 版发布多项性能优化提升全缓存、大数据集等场景性能^[94]。

HeatWave MySQL 新增支持 9.2.0、8.4.4 和 8.0.41 ^[95]、9.3.2^[97]等版本、规格 MySQL.96 ^[96]等。PostgreSQL 增加了对 PostgreSQL 16 、pg_cron 和 pgaudit 等支持^[98]；Autonomous AI Database 内支持 Select AI RAG^[99]、 API for DynamoDB^[100]、最新备份克隆数据库^[101]、数据库恢复到特定的 SCN ^[102]等。

Cloud SQL 支持了 PostgreSQL/MySQL 读取池自动扩缩容^[103][104]、PostgreSQL 18^[105]、MySQL 8.4^[107]、AI 辅助故障排除等；AlloyDB 支持了 C4 系列（288vCPU）^[106]、更新 alloydb_scann 扩展^[108]、自然语言查询功能^[109]、自动向量化^[112]；Spanner 支持了向量索引和近似最近邻^[110]、更新了优化器^[111]、预过滤向量索引 ^[113]。

发布了“云原生”数据库HorizonDB^[114][115]; 支持了Cassandra v5.0 ^[116]、MySQL 8.4^[117]、PostgreSQL 机密计算^[118]、PostgreSQL 18 正式发布^[119]、Near-zero-downtime MySQL/PostgreSQL^[120][121]；Cosmos DB支持了全局二级索引^[122]、Float16 的向量索引^[123]、向量存储和搜索^[124]、MCP工具^[125^]等。Azure DocumentDB 发布^[126]；SQL Server 2025 发布；Azure SQL 数据库 DiskANN 向量索引^[127]。

TaurusDB 发布 PostgreSQL 引擎支持^[128]、Serverless支持冷热分离能力^[129]、开放弹性策略自定义^[130]、支持动态脱敏^[131]、增强智能DBA SQL限流^[132]；RDS支持MySQL 8.4^[133]；GeminiDB Redis 接口性能版基于存算分离架构，单分片最高可支持百万QPS^[134]；GaussDB 透明多写功能发布^[135]；GaussDB Doer 基于AI的智能助手；openGauss 发布 MCP Server^[136]。

RDS 支持了数据库大版本升级^[137]、线程池优化、持跨地域备份（PostgreSQL）^[138]；GaiaDB 支持双机房部署^[139]、新增大规格^[140]、一键从RDS同步^[141]；VectorDB 支持可视化^[142]、新的CLI 支持^[143]。

发布新的中文名“海扬数据库”^[137]；发布PowerRAG、共享存储和桌面版（2c6g环境运行）^[138]、轻量向量数据库 seekdb ^[139]；seekdb 支持嵌入式、Server两种模式；发布 PowerMem^[140]（兼容Mem0）；ODC 发布 DataPilot、诊断Agent等能力。

发布基于对象存储（例如：S3）的版本 “TiDB X” ^[144]，使用对象存储天然具备的“扩展性”、快照等能力去实现一个具备“PB”级别扩展的 OLTP 数据库^[145][146]。

TeleDB 荣登 TPC-DS 全球测评总榜第二（10 TB）^[147]。

3. 其他

在今年国产数据库目录新增了两个新的国产数据库^[33]：大云海山数据库（He3DB for PostgreSQL）、崖山数据库。去年新增的国产数据库包括^[34]：GaussDB（集中式/分布式版）、TaurusDB、KingBase、神州通用、Vastbase，分布式数据库还有 TiDB、达梦、PolarDB、GBase、虚谷、TDSQL、GoldenDB、OceanBase。整个国产数据库的目录大抵就是在这个范围内了，后续相信不会再增加太多。而这些数据库也可能就组成了未来中国10~30年、甚至更长时间的数据库基础设施的格局。

Gartner 2025云数据库魔力象限发布^[149]，阿里云依旧处于 Leaders 象限、华为云在 Challengers 象限。Redis、Neo4j从 Visionaries 象限落入 Niche Players。

阿里云 PolarDB 打破 TPC-C 记录^[3][4]，以更高的性能、更好的性价比超越之前OceanBase、TDSQL创下的记录。PolarDB本次使用的使用的版本为多主集群(Limitless)，总计使用2340个数据节点，56,160个cores，1170个处理器。

达梦数据库创始人冯裕才教授获2024年“CCF最高科学技术奖”^[2]。获奖理由：“冯裕才教授是我国著名数据库科技工作者，长期致力于我国自主数据库的研发和产业化工作，突破了数据库共享存储集群技术，开发了达梦系列数据库，打造了国内首家数据库上市企业“达梦数据”，为推动我国基础软件产业的发展做出了重要贡献。”；达梦发布2024年度报告，该年年度营收达10.4亿，同比增长31.49%，净利润为3.6亿^[148]。

清华大学李国良入选ACM Fellow，以表彰其在人机协同（human-in-the-loop）数据集成与基于学习的数据库系统领域做出的重要贡献。此外，李国良还是 openGauss 社区技术委员会主席。^[7]

4. 重要的收购与融资

在数据库领域，收购或融资相关的事件几乎都与“AI”相关。

MongoDB $2.2 亿收购 Voyage AI ：Voyage AI 提供相比于通用模型效果更好的 Embedding 能力、以及 ReRank 模型等；这很好的补充了 MongoDB 在向量存储、搜索的能力^[26][27]。

Elastic 收购 Jina AI：通过收购“Jina AI”，Elastic 公司可以快速的具备更强的向量处理技术，包括更好的向量算法、更好的 ReRank 功能，可以让 ElasticSearch 在 RAG 场景（或类似场景）有更强的竞争力^[25]。

多云数据库平台服务商Tessell获 $6000万融资。此次融资将用于进一步扩大市场覆盖，并计划推出基于 AI 驱动的对话式数据库管理服务^[150]。

Databricks收购Neon^[28]，该产品则基于云基础设施提供Serverless的PostgreSQL服务，并且提供诸如快速Branching等能力。

Snowflake 以 $2.5 亿收购了CrunchyData^[29][30]，该公司提供云端企业级全托管的PostgreSQL服务，同时支持基于相关数据的分析能力；

Supabase 今年有两次重大的融资，分别是 $2 亿美元（估值$20亿）^[32]、$1 亿美元（估值$50亿）^[31]。凭借在开发者中良好的采用率，并随着 “Vibe coding”的流行，该公司快速起飞，可以将其理解为未来自然语言编程的基础组件。

IBM 110亿美元收购数据流厂商 Confluent^[54]，该公司创建于2014年，最初致力于 Apache Kafka 的商业化，逐步扩展为完整的实时数据流平台。

IBM 计划收购 DataStax，该公司基于 Apache Cassandra 提供企业级的数据库存储与AI方案^[151]。

MariaDB 宣布收购高可用产品 Galera Cluster。通过此次收购，MariaDB可以向客户提供更具竞争力的企业级高可用方案；而对于 Galera 则可以获得更多可靠的客户^[152]。

ClickHouse 宣布融资3.5亿美元C轮融资^[153]，主要用于全球化业务推进、AI与分析能力增强等方向。

5. 开源与商业

今年，Redis 将 SSPL 协议改成更容易被社区接受的 AGPL 协议，并发布 8.0 版本^[36]。但是，社区似乎已经开始逐步转向了Valkey，例如，Azure 已经计划于2027^[15]、2028^[16] 年停用Redis Enterprise与Azure Cache for Redis。Redis 在2024年将协议从 BSD 更改为了dual RSALv2+SSPLv1^[37]，而后多家大型公司“联合”起来fork了新的项目 Valkey 。

开源软件和商业软件的竞争，经过了MongoDB、Redis、ElasticSearch等与云厂商的探索，逐渐形成了某些模式：主线足够强大，则可以合作分润；主线如果稍有羸弱，则可能会被分叉出新分支；或者面临着云厂商的自研。因为对于云厂商来说，这部分收入与利润，足以支撑起在该方向的投入。

6. 相关阅读

2024 数据库年度总结

2022云数据库技术年度盘点

Databases in 2025: A Year in Review

Another year passes. I was hoping to write more articles instead of just these end-of-the-year screeds, but I almost died in the spring …

Andy Pavlo

……

Databases in 2024: A Year in Review

Like a shot to your dome piece, I’m back to hit you with my annual roundup of what happened in the rumble-tumble game of databases …

Andy Pavlo

Jan. 01, 2025

Databases in 2023: A Year in Review

I am starting this new year the same way I ended the last: taking antibiotics because my biological daughter brought home a nasty sinus bug from Carnegie Mellon’s …

Andy Pavlo

Jan. 04, 2024

Databases in 2022: A Year in Review

This article originally appeared on the OtterTune website.
Another year has gone by, and I’m still alive. As such, it is an excellent time to reflect on what happened …

Andy Pavlo

Dec. 31, 2022

Databases in 2021: A Year in Review

It was a wild year for the database industry, with newcomers overtaking the old guard, vendors fighting over benchmark numbers, and eye-popping funding rounds. …

Andy Pavlo

Dec. 28, 2021

What Goes Around Comes Around… And Around…

Two decades ago, one of us co-authored a paper commenting on the previous 40 years of data modelling research and development [188]. That paper demonstrated that the relational model (RM) and SQL are the prevailing choice …

Michael Stonebraker, Andrew Pavlo

June 2024

What Goes Around Comes Around

This paper provides a summary of 35 years of data model proposals, grouped into 9 different eras. We discuss the proposals of each era, and show that there are only a few basic data modeling ideas, and most have been around a long time …

Michael Stonebraker, Joey Hellerstein

2005

参考链接

[1] https://mp.weixin.qq.com/s/Wo6v2dQtqohj9LtYfUPPHQ

[2] https://mp.weixin.qq.com/s/nR4iIK-6m6elVh4p-kLwgQ

[3] https://www.tpc.org/tpcc/results/tpcc_results5.asp?print=false&orderby=tpm&sortby=desc

[4] https://www.linkedin.com/posts/panfeng-zhou-a16a934_im-excited-to-share-that-weve-just-set-activity-7290434703789109248-7ymy/

[5] https://www.tpc.org/tpcc/results/tpcc_result_detail5.asp?id=125012701

[6] https://help.aliyun.com/zh/rds/apsaradb-rds-for-postgresql/ai-rds-ai

[7] https://mp.weixin.qq.com/s/-HjfyeW2ucyUWHh_Foah6A

[8] https://help.aliyun.com/zh/polardb/polardb-for-mysql/user-guide/enable-the-polardb-for-ai-feature

[9] https://help.aliyun.com/zh/polardb/polardb-for-mysql/user-guide/chatbi-best-practices

[10] https://mp.weixin.qq.com/s/Ix4BSsMZL1YybEGCVadRxw

[11] https://docs.aws.amazon.com/AmazonRDS/latest/AuroraUserGuide/Concepts.Aurora_Fea_Regions_DB-eng.Feature.Zero-ETL.html

[12] https://aws.amazon.com/blogs/aws/now-open-aws-asia-pacific-new-zealand-region/

[13] https://aws.amazon.com/about-aws/whats-new/2025/10/amazon-aurora-postgresql-zero-etl-integration-sagemaker/

[14] https://azure.microsoft.com/updates?id=502004

[15] https://azure.microsoft.com/updates?id=499606

[16] https://azure.microsoft.com/updates?id=499577

[17] https://azure.microsoft.com/updates?id=500765

[18] https://cloud.google.com/sql/docs/sqlserver/write-sql-gemini#fix-query

[19] https://github.com/googleapis/genai-toolbox

[20] https://docs.cloud.google.com/sql/docs/mysql/pre-built-tools-with-mcp-toolbox#mcp-configure-your-mcp-client-geminicli

[21] https://www.volcengine.com/docs/6313/1840904

[22] https://www.volcengine.com/docs/6313/1840828

[23] https://www.volcengine.com/docs/6438/1864761

[24] https://vexdb.com/

[25] https://ir.elastic.co/news/news-details/2025/Elastic-Completes-Acquisition-of-Jina-AI-a-Leader-in-Frontier-Models-for-Multimodal-and-Multilingual-Search/default.aspx

[26] https://www.mongodb.com/company/blog/news/redefining-database-ai-why-mongodb-acquired-voyage-ai

[27] https://www.bloomberg.com/news/articles/2025-02-24/mongodb-buys-voyage-ai-for-220-million-to-bolster-ai-search?embedded-checkout=true

[28] https://neon.com/

[29] https://techcrunch.com/2025/06/02/snowflake-to-acquire-database-startup-crunchy-data/

[30] https://www.crunchydata.com/

[31] https://supabase.com/blog/supabase-series-e

[32] https://fortune.com/2025/04/22/exclusive-supabase-raises-200-million-series-d-at-2-billion-valuation/

[33] https://www.itsec.gov.cn/aqkkcp/cpgg/202508/t20250822_231110.html

[34] https://www.itsec.gov.cn/aqkkcp/cpgg/202409/t20240930_194299.html

[35] https://mp.weixin.qq.com/s/3TGIKrpPLeQ-gBHY67w0Eg

[36] https://antirez.com/news/151

[37] https://github.com/redis/redis/commit/0b34396924eca4edc524469886dc5be6c77ec4ed

[38] https://www.pingcap.com/blog/introducing-tidb-x-a-new-foundation-distributed-sql-ai-era/

[39] https://mp.weixin.qq.com/s/w8itCbW_–mG2LhSPL79FA

[40] https://mp.weixin.qq.com/s/RX4K3nXEYSrmTxIeogMh2A

[41] https://www.oceanbase.ai/

[42] https://www.powermem.ai/

[43] https://mp.weixin.qq.com/s/PEhpO3zJjswSS5OdZyA4xQ

[44] https://azure.microsoft.com/en-us/updates?id=523814

[45] https://azure.microsoft.com/en-us/updates?id=523803

[46] https://azure.microsoft.com/en-us/products/horizondb

[47] https://techcommunity.microsoft.com/blog/adforpostgresql/announcing-azure-horizondb/4469710

[48] https://help.aliyun.com/zh/polardb/polardb-for-mysql/user-guide/polarkvcache-inference-acceleration?spm=a2c4g.11186623.0.0.24e23ba1PKfYAM

[49] https://help.aliyun.com/zh/polardb/polardb-for-mysql/user-guide/polardb-ray?spm=a2c4g.11186623.0.0.24e23ba1PKfYAM

[50] https://www.volcengine.com/docs/6313/1978527

[51] https://help.aliyun.com/zh/rds/apsaradb-rds-for-mysql/vector-storage-1

[52] https://mp.weixin.qq.com/s/j-CgF6CaP-kylz7aB2gWxA

[53] https://www.volcengine.com/docs/6313/74505

[54] https://investors.confluent.io/news-releases/news-release-details/ibm-acquire-confluent-create-smart-data-platform-enterprise

[55] https://www.gartner.com/doc/reprints?id=1-2MC14I3H&ct=251121&st=sb

[56] https://mp.weixin.qq.com/s/2BbfcnxgR4aPN7_LKRYlNQ

[57] https://milvus.io/docs/ivf-rabitq.md
[58] https://milvus.io/docs/embedding-function-overview.md
[59] https://milvus.io/docs/decay-ranker-overview.md

[60] https://github.com/milvus-io/milvus

[61] https://help.aliyun.com/zh/rds/apsaradb-rds-for-postgresql/features-of-apsaradb-rds-for-postgresql

[62] https://help.aliyun.com/zh/rds/apsaradb-rds-for-sql-server/features

[63] https://help.aliyun.com/zh/rds/apsaradb-rds-for-postgresql/duckdb-based-analytical-instance

[64] https://help.aliyun.com/zh/rds/apsaradb-rds-for-mysql/htap-based-automatic-query-routing-is-available-for-apsaradb-rds-for-mysql

[65] https://help.aliyun.com/zh/rds/apsaradb-rds-for-mysql/blue-green-deployment

[66] https://help.aliyun.com/zh/polardb/polardb-for-mysql/user-guide/compatibility-with-document-databases/

[67] https://help.aliyun.com/zh/rds/apsaradb-rds-for-postgresql/rds-supabase

[68] https://help.aliyun.com/zh/rds/apsaradb-rds-for-mysql/release-of-global-active-databases-in-apsaradb-rds-for-mysql

[69] https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/MySQL.Concepts.VersionMgmt.html#mysql-preview-environment-version-9-5
[70] https://aws.amazon.com/about-aws/whats-new/2025/10/amazon-timestream-influxdb-3/
[71] https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/sqlserver-dev-edition.html
[72] https://aws.amazon.com/about-aws/whats-new/2025/05/amazon-aurora-dsql-generally-available/
[73] https://aws.amazon.com/about-aws/whats-new/2025/03/amazon-rds-postgresql-mysql-mariadb-m8g-r8g-database-instances-additional-regions
[74] https://aws.amazon.com/about-aws/whats-new/2025/03/amazon-aurora-r8g-database-instances-additional-aws-regions
[75] https://aws.amazon.com/about-aws/whats-new/2025/12/amazon-aurora-postgresql-18-1-rds-database-preview
[76] https://aws.amazon.com/about-aws/whats-new/2025/12/amazon-aurora-dsql-cluster-creation-in-seconds
[77] https://aws.amazon.com/about-aws/whats-new/2025/05/amazon-aurora-dsql-generally-available/
[78] https://aws.amazon.com/about-aws/whats-new/2025/12/amazon-aurora-postgresql-integration-kiro-powers
[79] https://www.volcengine.com/docs/6313/74512
[80] https://www.volcengine.com/docs/6313/74505
[81] https://www.volcengine.com/docs/6313/1467064
[82] https://www.volcengine.com/docs/6313/1521305
[83] https://www.volcengine.com/docs/6313/75366
[84] https://www.volcengine.com/docs/6956/1515364
[85] https://www.volcengine.com/docs/6956/1802899
[86] https://www.volcengine.com/docs/6447/1808426
[87] https://www.volcengine.com/docs/6357/1820181

[88] https://cloud.tencent.com/document/product/1003/119870
[89] https://cloud.tencent.com/document/product/1003/118899
[90] https://cloud.tencent.com/document/product/1003/119284
[91] https://cloud.tencent.com/announce/detail/2140
[92] https://cloud.tencent.com/document/product/409/116227
[93] https://cloud.tencent.com/document/product/238/115279

[94] https://cloud.tencent.com/document/product/1003/71714

[95] https://docs.oracle.com/iaas/releasenotes/mysql-database/heatwave-920-844-8041.htm
[96] https://docs.oracle.com/iaas/releasenotes/mysql-database/TC-40271-heatwave-mysql96-new-shape.htm
[97] https://docs.oracle.com/iaas/releasenotes/mysql-database/heatwave-932.htm
[98] https://docs.oracle.com/iaas/releasenotes/postgresql/pg_cron-pgaudit.htm
[99] https://docs.oracle.com/iaas/releasenotes/autonomous-database-dedicated/adbd-selectai-rag.htm
[100] https://docs.oracle.com/iaas/releasenotes/autonomous-database-serverless/2025-12-autonomous-ai-database-api-for-dynamodb.htm
[101] https://docs.oracle.com/iaas/releasenotes/autonomous-database-dedicated/adbd-clone-latestbackup.htm
[102] https://docs.oracle.com/iaas/releasenotes/autonomous-database-dedicated/adbd-restore-db-scn.htm

[103] https://docs.cloud.google.com/sql/docs/postgres/read-pool-autoscaling
[104] https://docs.cloud.google.com/sql/docs/mysql/read-pool-autoscaling
[105] https://cloud.google.com/sql/docs/postgres/create-instance
[106] https://docs.cloud.google.com/alloydb/docs/choose-machine-type
[107] https://cloud.google.com/sql/docs/mysql/upgrade-major-db-version-inplace
[108] https://cloud.google.com/alloydb/docs/reference/ai/scann-index-reference
[109] https://cloud.google.com/alloydb/docs/ai/use-natural-language-generate-sql-queries
[110] https://cloud.google.com/spanner/docs/find-approximate-nearest-neighbors
[111] https://docs.cloud.google.com/spanner/docs/query-optimizer/versions
[112] https://docs.cloud.google.com/alloydb/docs/ai/generate-manage-auto-embeddings-for-tables
[113] https://cloud.google.com/spanner/docs/find-approximate-nearest-neighbors#filter-vector-index
[114] https://azure.microsoft.com/en-us/products/horizondb
[115] https://techcommunity.microsoft.com/blog/adforpostgresql/announcing-azure-horizondb/4469710
[116] https://azure.microsoft.com/updates?id=499753
[117] https://azure.microsoft.com/updates?id=501989
[118] https://azure.microsoft.com/updates?id=500795
[119] https://azure.microsoft.com/updates?id=523196
[120] https://azure.microsoft.com/updates?id=508403
[121] https://azure.microsoft.com/updates?id=500765
[122] https://azure.microsoft.com/updates?id=491257
[123] https://azure.microsoft.com/updates?id=523796
[124] https://azure.microsoft.com/en-us/updates?id=523803
[125] https://azure.microsoft.com/en-us/updates?id=523814
[126] https://azure.microsoft.com/updates?id=523735
[127] https://azure.microsoft.com/updates?id=523110
[128] https://mp.weixin.qq.com/s/3TGIKrpPLeQ-gBHY67w0Eg
[129] https://support.huaweicloud.com/usermanual-taurusdb/taurusdb_03_0195.html
[130] https://support.huaweicloud.com/usermanual-taurusdb/taurusdb_02_0210.html
[131] https://support.huaweicloud.com/kerneldesc-taurusdb/taurusdb_20_0069.html
[132] https://support.huaweicloud.com/usermanual-taurusdb/taurusdb_03_0163.html
[133] https://support.huaweicloud.com/productdesc-rds-mysql/zh-cn_topic_0043898356.html
[134] https://support.huaweicloud.com/redisug-nosql/nosql_05_0053.html
[135] https://mp.weixin.qq.com/s/3TGIKrpPLeQ-gBHY67w0Eg
[136] https://mp.weixin.qq.com/s/jEDXFwRYtAWmZ11HV-W-1w
[137] https://mp.weixin.qq.com/s/N1HgNddZSW4aebpTS26JGg
[138] https://mp.weixin.qq.com/s/Ax8Iov00ebfjsCy3Afub_Q
[139] https://www.oceanbase.ai/
[140] https://www.powermem.ai/
[137] https://cloud.baidu.com/doc/RDS/s/Umhbe5vhw
[138] https://cloud.baidu.com/doc/RDS/s/rmciw3o9v
[139] https://cloud.baidu.com/doc/GaiaDB/s/Umde6uvii
[140] https://cloud.baidu.com/doc/GaiaDB/s/elt5qt0i9
[141] https://cloud.baidu.com/doc/GaiaDB/s/Mmbz2f64q
[142] https://cloud.baidu.com/doc/VDB/s/Cm7bly8u6
[143] https://cloud.baidu.com/doc/VDB/s/Em1zvj00h
[144] https://www.pingcap.com/blog/introducing-tidb-x-a-new-foundation-distributed-sql-ai-era/
[145] https://mp.weixin.qq.com/s/w8itCbW_–mG2LhSPL79FA
[146] https://mp.weixin.qq.com/s/RX4K3nXEYSrmTxIeogMh2A
[147] https://www.tpc.org/tpcds/results/tpcds_results5.asp
[148] https://www.sse.com.cn/disclosure/listedinfo/announcement/c/new/2025-04-15/688692_20250415_LKHL.pdf
[149] https://www.gartner.com/doc/reprints?id=1-2MC14I3H&ct=251121&st=sb
[150] https://techcrunch.com/2025/04/09/tessell-snags-60m-to-drive-data-management-at-scale/
[151] https://www.datastax.com/blog/ibm-plans-to-acquire-datastax
[152] https://www.businesswire.com/news/home/20250527634819/en/MariaDB-Acquires-Galera-Cluster
[153] https://clickhouse.com/blog/clickhouse-raises-350-million-series-c-to-power-analytics-for-ai-era
线性代数回顾

2026-01-25
目录
1. 为什么要重温线性代数
2. 线性代数讨论的主要问题
3. $n $ 元一次方程组的解
4. 矩阵基础与部分结论
5. 向量空间
5.1 基
5.2 线性相关与线性无关
5.3 一些重要的结论
6. 线性变换与矩阵
6.1 概述
6.2 线性变换
6.3 欧氏空间的线性变换与矩阵
7. 特征向量与特征值
7.1 为什么
7.2 关于对特征向量的理解
8. 一些补充说明
9. 再看看前面的问题

如果要理解大模型内部是如何工作的，良好的数学基础是必须的，而线性代数又是所有这些的基础。例如我们来看 $\text{Attention} $ 机制中的如下问题。

1. 为什么要重温线性代数

考虑第 $j $ 个 $ \text{Layer} $ 中的第 $ i $ 个 $ \text{Head} $ ，则有如下的计算（为了简化，下述的角标省略了 $ \text{Layer} $ 部分）：

$$
\begin{aligned}
Q_i &= XW_i^Q \\[0.3em]
K_i &= XW_i^K \\[0.3em]
\text{Therefore:} \\[0.3em]
\text{Attention Score}_i &= Q_iK_i^T \\[0.3em]
&= XW_i^Q(XW_i^K)^T \\[0.3em]
&= XW_i^Q\big((W_i^K)^T X^T\big) \\[0.3em]
&= XW_i^Q(W_i^K)^T X^T \\[0.3em]
&= X\big(W_i^Q (W_i^K)^T\big) X^T \\[0.3em]
\text{Let:} \quad \\[0.3em]
W_i^{QK} &= W_i^Q (W_i^K)^T \\[0.3em]
\text{Therefore:} \\[0.3em]
\text{Attention Score}_i &= XW_i^{QK} X^T \\[0.3em]
\end{aligned}
$$

注：上述的推导使用矩阵的一些简单特性，包括转置计算、结合律等。其中，在开源的GPT2模型中，$W_i^Q \,, W_i^K $ 都是 $64 \times 768 $的矩阵。

这里一个简单、又不太简单的问题是：那为什么每一个 $ \text{Head} $ 中不使用一个权重 $ W_i^{QK} $ 就可以了？这个问题从我第一次看明白 $ \text{Attention} $ 的计算后，困扰了我一会儿，直到重温了线性代数，才算是理解了上述的计算。

大学时学习线性代数学得非常痛苦，而现在带着问题再去看这本书，竟然花了两个晚上就看完了。这里对里面的基本概念和结论做个梳理，以更好的理解什么是“线性变换”、与矩阵的关系是什么、如何研究一个线性变换或矩阵的性质等。

本系列主要以介绍线性代数的“直觉”为主，不会做任何证明，为了更好的阐述“直觉”，甚至牺牲了很多的数学严谨，看客也需要从构建“直觉”与“联系”的角度阅读。本文的阅读前提是已经有一定的线性代数的基础、也对神经网络/LLM技术有一定了解，那么本文则尝试通过较小的篇幅去构建两者的联系，看看如何使用线性代数的技术去研究神经网络的中的问题。

2. 线性代数讨论的主要问题

通常“线性代数”课程会从 $n$ 元一次线性方程组引入，并使用行列式理论，去较为彻底的回答如何解决 $n$ 元一次线性方程组。更进一步的，为了更好/更完整的研究 $n$ 元一次线性方程组的“解空间”，则需要引入一个新的研究对象：“向量空间”。而向量空间本身所具备的普遍性，已经远超出 $n$ 元一次线性方程组本身。而后，“向量空间”、“线性变换”就变成了新的研究对象，因为现实问题中，我们经常会尝试通过“线性变换”来洞察向量空间中向量的关系。

是不是感觉上面描述漏了什么？是的，漏了“矩阵”。无论是讨论 $n$ 元一次线性方程组还是“向量空间”或“线性变换”，矩阵都是“核心”工具。这个工具“核心”或者说重要到什么程度呢？甚至很多问题，只需要研究清楚对应“矩阵”的特性，原来的问题就研究清楚了。所以，你会注意到，线性代数的书中，几乎全都在介绍“矩阵”的各种特性。

而各种 $ \text{Embedding} $ 就可以理解为是在最为典型的欧氏空间中的向量。

3. $n $ 元一次方程组的解

线性代数通常都会以解“$ n $元一次方程组”为切入点，这个问题看似很简单，但是最终要完全讨论清楚，则需要很多篇幅。这也是“线性代数”前半部分比较枯燥的原因。整体上来看，关于“$ n $元一次方程组”的解需要讨论清楚几个问题：

(a) $ n $元一次方程组的解是否存在？

(b) 如果存在，如何求解

(c) 如果解不存在，充要条件是什么

(d) 如果有解，那么所有的解如何表达

在探讨上述问题的时候，先是引入了“行列式”、“矩阵”的概念与理论，并通过矩阵的“初等变换”实现对上述问题的求解。这里涉及到的概念延伸出了：

(a) 矩阵的初等变换

(b) 矩阵的秩等

这里我们列举一些主要的结论（并不做推倒，推倒过程还是非常复杂的，这也正是线性代数书比较枯燥的原因之一）。这里考虑如下的线性方程组：

$$
a_{11}x_1 + a_{12}x_2 + \cdots + a_{1n}x_n = b_1, \\
a_{21}x_1 + a_{22}x_2 + \cdots + a_{2n}x_n = b_2, \\
\quad\vdots \\
a_{m1}x_1 + a_{m2}x_2 + \cdots + a_{mn}x_n = b_m.
$$

结论：线性方程组有解的充分必要条件是：它的系数矩阵与增广矩阵有相同的秩。

结论：线性方程组系数矩阵和增广矩阵的秩都是$ r $，方程组的未知数的个数是$ n $，如果：

$ r = n $ 则线性方程组有唯一解

$ r < n $ 则线性方程组有无穷组解

上述两个定理较为彻底的回答了解存在性的问题。那么，解的公式化表达是怎样的呢？为了略微简化问题，这里考虑仅考虑$ n $个方程、$ n $个未知数，且解唯一的情况：

$$
\begin{cases}
a_{11}x_1 + a_{12}x_2 + \cdots + a_{1n}x_n = b_1, \\
a_{21}x_1 + a_{22}x_2 + \cdots + a_{2n}x_n = b_2, \\
\quad\vdots \\
a_{n1}x_1 + a_{n2}x_2 + \cdots + a_{nn}x_n = b_n
\end{cases}
\quad\Longleftrightarrow\quad
\begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{bmatrix}
\begin{bmatrix}
x_1 \\ x_2 \\ \vdots \\ x_n
\end{bmatrix}
=
\begin{bmatrix}
b_1 \\ b_2 \\ \vdots \\ b_n
\end{bmatrix}
$$

形式化的解，则可以由两种方式给出：

使用矩阵的表达：

$$
\vec{x} = A^{-1}\vec{b}
$$

“克莱默法则”（Cramer’s rule / formula）：

$$
x_1 = \frac{D_1}{D},x_2 = \frac{D_2}{D},\dots , x_n = \frac{D_n}{D},
$$

注意：上述的两种表达，无论哪种，限制条件都非常苛刻，即要求：矩阵$ A $可逆或者行列列式$D \neq 0$，当然，这两个条件式等价的。并且，这里的$D$也经常写作：$ det(A) $。

4. 矩阵基础与部分结论

虽然是为了求解线性方程组才引入矩阵的，但很快就会意识到，对矩阵本身特性的研究有着更为广泛的应用。

首先，在定义了矩阵的运算之后，很快就会有一些矩阵的运算律。例如，加法的结合律、交换律、分配律等。这里，矩阵的乘法是重点，且略微复杂一些：

首先，首先矩阵的乘法是不满足交换律的

很幸运，结合律和分配律都是满足的

再次，对于转置运算，是满足如下形式的：$ (AB)^T = B^TA^T $

结论：线性方程组的初等变换，对应着三个初等变换矩阵：$ P_{ij} $、$ D_i(k) $、$ T_{ij}(k) $，且这三个初等变换矩阵都是可逆的。

结论：一个$ m \times n$的矩阵$ A $总是可以通过初等变换化为以下形式的矩阵：

$$ \bar{A} = \begin{bmatrix}
I_r & O_{r,\,n-r} \\
O_{m-r,\,r} & O_{m-r,\,n-r}
\end{bmatrix} $$

这里，$I_r$是$ r $阶单位矩阵，$O_{st}$表示$ s\times t$的零矩阵，$ r $等于矩阵$A$的秩。

结论：$n $ 阶矩阵$ A $可逆，当且仅当$ A $的秩等于$ n $。

如何求解矩阵的逆：有了这些结论，那么对于一个可逆矩阵要求其逆矩阵，则可以有些办法：即对一个矩阵实施一系列的初等变换，将其变为单位矩阵。而同时，在开始的时候，就将所有的这些初等变换作用在一个单位矩阵上。最后，当原矩阵变为单位矩阵的时候，后面的单位矩阵就变成原矩阵的逆了。

结论：两个矩阵乘积的秩，不大于任何一个矩阵的秩。特别的，如果有一个矩阵是可逆的，则乘积的秩则等于另一个矩阵的秩。

结论：一个矩阵的行空间的维数等于列空间的维数，等于这个矩阵的秩。

5. 向量空间

到目前为止，前面的线性方程组的解，还有一些问题没有彻底回答（例如，解空间的描述），在回答这个问题之前，我们需要先了解一下“向量空间”。“向量空间”的严格定义是有些枯燥的，这里暂时把“向量空间”的限制为大家所熟悉的、最为典型的“ $n $ 维欧氏空间”。

5.1 基

要描述一个向量空间中的元素，则首先需要一组基（坐标）。在$n$维欧氏空间，最为常见的一组基，即为多个“垂直”（“正交”）的单位向量，即：

$$ \begin{align}
\alpha_1 &= (1,0,\dots) \\
& \vdots \\
\alpha_i &= (\dots,0,1,0,\dots) \\
& \vdots \\
\alpha_n &= (0,\dots,1)
\end{align}
$$

在二维平面空间中，则为：$ \alpha_1 = (1,0) \quad \alpha_2 = (0,1)$；三维空间则为：$ \alpha_1 = (1,0,0) \quad \alpha_2 = (0,1,0) \quad \alpha_3 = (0,0,1)$。

既然有“正交”基，那么当然有不那么“正交”的基，而此类“基”则是更为普遍的。事实上，更为普遍的，任何 $ n $ 个线性无关的向量都可以作为向量空间的基。

5.2 线性相关与线性无关

考虑一组向量$ \alpha_1,\dots , \alpha_n $，如果当且仅当所有$ a_i = 0 \quad i=1,\dots,n$时如下的等式才成立：

$$ a_1\alpha_1 + a_2\alpha_2 + \dots + a_n\alpha_n = 0 $$

那么，就说这组向量 $ \alpha_1,\dots , \alpha_n $ 是线性无关的。反之，则称这组向量是线性相关的。

或者这么说，对于一组线性无关的向量$ \alpha_1,\dots , \alpha_n $：任何一个向量都不能用剩余的向量做“线性表示”。

5.3 一些重要的结论

结论：设$ \{ \alpha_1,\dots , \alpha_n \}$是向量空间$ V $的一组基，那么$ V $空间中的每一个向量都可以唯一的表示为这组基的线性组合。这个线性组合的系数，就叫“坐标”（注：相对于这组基）。

结论：$ W_1 $、$ W_2 $是$ V $的有限子空间，那么有：

$$ dim(W_1+W_2) = dim(W_1) + dim(W_2) – dim(W_1\cap W_2) $$

结论：$ n $维向量空间中，任意$ n $个线性无关的向量都可以取做基。

6. 线性变换与矩阵

6.1 概述

“线性变换”是指向量空间中一类特殊的映射 $ \sigma : R^n \to R^m $ ，需要满足条件是：

$ \sigma(\xi + \eta) = \sigma(\xi) + \sigma(\eta) $

$ \sigma(a\xi) = a\sigma(\xi) $

“线性变换” 描述了向量空间之间的映射。后续所有的内容大概都是围绕此而展开，后续所有的内容都会尝试通过各种方式将 “线性变换” 的特性研究清楚。这里写出部分结论，后面再慢慢展开：

线性变换之下，原点保持不变。即 $ \sigma( \vec{0} ) = \vec{0} $

几何意义下，通常，线性变换包括了：旋转、镜像、拉伸/压缩（特别的，有时候会压缩到零）、剪切

为了研究清楚一个线性变换上述的特点，通常需要选取一组“基”，然后使用这组“基”的“坐标”来描述空间中的点，进而再描述对应的线性变换。最为常见的基为“正交单位基”。

从方法上来看，研究清楚“线性变换”最为关键的是研究清楚对应的“变换矩阵”。所以，“线性代数”的核心后面就变成了对矩阵特性的研究，但是，也不要忘记了初衷，否则很快就迷失了。

6.2 线性变换

我在大学期间对于线性变换、矩阵有什么作用，是完全没有概念的。所以对于他们的特性研究也没有掌握的很深，基本上是停留在能够把一些联系题做对这个层面。而现在，注意线性变换的广泛应用之后，尝试去理解去本质之后，就会寻根问底的去理解清楚什么是线性变换、什么是矩阵。这里再次说说我的理解。

在一个向量空间中，最为常见的是 $n $ 维欧氏空间，会有很多的向量，例如每个 Embedding 就可以理解是在一个线性空间中，“线性变换”表述了是空间中的一类映射，该映射满足上述“小结2.1”中的两个要求，即原点依旧到原点、映射保持所谓的“线性”（例如，向量和的映射等于映射的和等）。

在一个向量空间中，一个线性变换就是一个符合一定条件的映射。与向量空间的基的选取是没有关系的。自此，与矩阵也是没有关系的。所以，线性变换本身是更为底层、更为基础的概念。

6.3 欧氏空间的线性变换与矩阵

现在我们把问题限定在 $n $ 维欧氏空间中。那么，这时候，我们如何描述一个线性变换呢？是的，就是“基”与“矩阵”。

通常，$n $ 维欧氏空间，我们会先选取一组基，然后使用一个矩阵去描述这个线性变换。并且非常幸运的，一旦这组基选定了，这个矩阵是唯一的。

结论：在$n $ 维欧氏空间（这个条件似乎可以去掉）中，对于线性变换 $\sigma $，如果选定一组“基”，那么就存在唯一的“矩阵”描述该线性变换。

上述的结论，是比较明显的。我们考虑对于线性变换中的上述选定的基向量 $\alpha_i,\quad \text{where } i = 1,\ldots,n $，线性变换将其映射到 $\beta_i,\quad \text{where } i = 1,\ldots,n $，那么根据“基”的基本性质，对于这里的任何 $\beta_i $都可以表示成$\alpha_i $的线性组合，所有的这些系数构成的矩阵，就是上述描述的唯一的“矩阵”。具体的：

$$
\begin{aligned}
\beta_1 &= a_{11}\alpha_1 + a_{21}\alpha_2 + \cdots + a_{n1}\alpha_n \\[0.5em]
\beta_2 &= a_{12}\alpha_1 + a_{22}\alpha_2 + \cdots + a_{n2}\alpha_n \\[0.5em]
&\ \vdots \\[0.5em]
\beta_n &= a_{1n}\alpha_1 + a_{2n}\alpha_2 + \cdots + a_{nn}\alpha_n
\end{aligned}
$$

即：

$$
\begin{aligned}
\begin{bmatrix}
\beta_1 & \beta_2 & \cdots & \beta_n
\end{bmatrix}
=
\begin{bmatrix}
\alpha_1 & \alpha_2 & \cdots & \alpha_n
\end{bmatrix}
\begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{bmatrix}
\end{aligned}
$$

即在这个线性变换$\sigma $ 在选定基 $\alpha_i,\quad \text{where } i = 1,\ldots,n $ 对应的矩阵为：

$$
\begin{aligned}
A =
\begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{bmatrix}
\end{aligned}
$$

从这段简洁的“证明”（或“说明”）来看，我们很自然有如下结论，根据空间中的“基”的选取不同，我们会得到不同的矩阵。因为我们反复会提到，我们经常会通过研究矩阵的特性来研究线性变换。那么，同一个线性变换在不同的“基”下的不同“矩阵”，很自然的能够想到，这些“矩阵”是有某些共性的，是的，我们称这些矩阵为“相似矩阵”，相关特性，暂不展开。

7. 特征向量与特征值

7.1 为什么

为什么我们需要关注“特征值与特征向量”呢？为什么我们要去了解奇异值分解（SVD）呢？

原因是“线性变换”是一个映射，是非常抽象的。而特征值、特征向量、SVD分解可以把线性变换最为关键的特性，以非常“直观”的形式表达出来。当然，这里的“直观”并不是简单意义上能够一眼就看出什么来，事实上，“线性变换”本身就有很强的抽象性，这里的“直观”只是相对的，是否直观，完全依赖于各位看客自己的“悟性”了。

特征向量的基本定义：如果有 $ \sigma(\xi) = \lambda \xi $ ，那么这里的 $ \xi $ 就是特征向量，对应的 $\lambda $ 就是对应的特征值。

要想真正说清楚特征向量与特征值是需要非常多篇幅的，而且关于对特征向量的理解对于理解线性变化也是非常关键的，所以，建议花些时间较为系统的做一些理解。如果你已经建立的基础概念，这里的一篇文章可能是帮助你增强一些理解：特征向量与特征值。

7.2 关于对特征向量的理解

完整的讨论特征向量与特征值是复杂的，这里将其限定在一些较为简单的情况，作为一个入门。我们这里考虑最为简单的情况，即对于一个 $n \times n $的矩阵，其秩为 $n $，并且在计算特征值时，有 $n $ 是不重复的实数解，即没有任何根式重根。如果，恰好 $ n = 2 $这大概是最为简单的情况了，不过理解这种情况，再进一步拓展，则学习曲线会平滑很多。

我们来看一个实例，在二维空间中，在标准基下，我们有如下的线性变换矩阵：

$$
W = \begin{bmatrix}
2 & 1 \\
1 & 2
\end{bmatrix}
$$

根据上述特征向量特征值的定义进行求解，我们可以有如下的特征值与特征向量：

$ \lambda_1 = 3 $ 特征向量 $ (1,1) $

$ \lambda_2 = 1 $ 特性向量 $ (-1,1) $

从特征向量角度理解线性变换：那么上述的矩阵A对应的线性变换 $\sigma $ 有如下特性，在这个二维空间任何向量 $\beta $，都可以分解（投影）为上述两个特征向量方向的向量： $\beta_1 \,, \beta_2 $，且有：$\beta = \beta_1 + \beta_2 $。那么，则有：$\sigma(\beta) = \lambda_1 \beta_1 + \lambda_2 \beta_2 $。即，这个线性变换可以这样描述：先将任何向量沿着特征向量方向分解，然后再按照特征值的大小进行拉伸或压缩，然后再把向量合并起来。

上述的解释，可以对照着右图去理解。特征向量分别为 $(1,1) $ 和 $(-1,1) $ ，即图中浅绿色、浅蓝色方向。该矩阵作用在向量 $(0,1) $ 上，即图中的红色向量。先将红色向量沿着浅绿色、浅蓝色方向分解，然后按照特征值进行拉伸，即图中的绿色、蓝色向量，最后合并为图中的紫色最终向量。

上述的场景是线性变换中，最为简单的一类。而实际的线性变换，则更为复杂，可能还涉及到对于向量的旋转、镜像、剪切等变换。关于更多场景可以自己探索，或者阅读相关书籍，也可以看看这篇文章中的更多直观的例子：特征值与特征向量。

“特征向量”可以很好的帮助理解“方阵”变换，还有一类变换时非方阵的情况，通常这时候可以借助于奇异值分解的方式去理解，关于奇异值分解可以参考：奇异值分解–深度学习的数学基础。

8. 一些补充说明

初等的线性代数核心部分大概是这些内容，出于完整性的考虑，可以再进一步了解“Jordan 块”相关的内容，从而把相关理论补充完整，这里不再详述。

如果再回到最初的线性方程组解的问题，我们这里就可以回答最后一个问题：对于一个线性方程组，如果有解，那么所有的解空间是怎样的？

结论：如果方程组的系数矩阵的秩为$ r $，那么解空间的维度为$ n-r $。解空间的“基”则可以通过初等变换求得。这里不再详述。

9. 再看看前面的问题

$$
\begin{aligned}
\text{Attention Score}_i = XW_i^{QK} X^T \quad \text{where} \,,W_i^{QK} = W_i^Q (W_i^K)^T
\end{aligned}\tag{1}
$$

$$
\text{Attention Score}_i = Q_iK_i^T = XW_i^Q(XW_i^K)^T \tag{2}
$$

在上面的计算(1) 和计算(2)，那么在模型中训练 $W_i^{QK} $ 和在模型中训练单独训练 $W_i^Q \,,W_i^K $ 是否是等价的？

答案是否定的。

这里以 GTP2 模型为例，原因在于如果单独训练 $W_i^{QK} $ ，那么这个矩阵的秩，则很可能是 768 ；而单独训练 $W_i^Q \,,W_i^K $，这两个矩阵的秩则一定小于 64，这两个矩阵的乘积的秩也一定是 64 （严格来说是小于等于）。所以最终训练获得的效果一定是不同的。当然，哪个更好，这倒不一定，但他们并不是等价的。

一般意义来说，使用 $W_i^{QK} $ 可能有着更强的表达能力，只是意义没有那么明确，并且训练的参数要更多。
通史阅读：魏晋南北朝

2026-01-24
目录
1. 混乱、短暂的西晋
2. 北方诸族（五胡十六国）
2.1 后赵
2.2 群雄并立
2.3 拓跋氏统一北方
3. 摇摇欲坠的东晋
4. 东晋北伐的困局
4.1 闻鸡起舞的祖逖
4.2 北伐的困局
4.3 桓温
4.4 刘裕
5. 前秦与淝水之战
6. 北朝
7. 时代诗文
7.1 举目见日不见长安
7.2 北朝名歌敕勒歌
7.3 花木兰
7.4 桃花源记
7.5 乌衣巷

很长时间以来，历史都是我的盲区，而“魏晋南北朝”大概属于盲区中的盲区。由于各种原因，大概大家并不太愿意过多的去讲述这段历史，相关的影视作品、游戏等内容也比较少，在大众的认识中，存在感是相对更低的。

从哪里开始呢？就从那场改变曹氏与司马氏权力格局的政变开始吧。

自249年“高平陵之变”，司马家族从曹魏手中夺权，最终在265年，魏元帝曹奂“禅”位司马炎，建立“晋”，是为魏武帝。316年，晋愍帝出降前赵刘曜。318年，琅琊王司马睿在建康继帝位，是为晋元帝。最后，在420年，晋恭帝退位，刘裕登基建“宋”（多称为“刘宋”）。南朝分别历经宋、齐、梁、陈，陈最后为隋所灭。

而北方也非常混乱，各种政权势力繁多，包括刘渊、刘曜、石勒、石闵、慕容儁（音“骏”）、苻坚、拓跋珪，最终由拓跋珪建立的北魏逐步统一北方。约在398年，拓跋珪迁都平城，即皇帝位。北魏在传续百年后，分裂为宇文泰集团、高欢集团，分别继承部分北魏“遗产”，建立北周、北齐。北齐早期虽然更强，但北周历经七十年的“图治”，最终灭北齐（约577年）。但，并没有过太久，在581年，杨坚废周静帝自立（参考：隋文帝），改国号为隋，北周灭亡。

最后由北方的“隋”继续征战南北，统一全国。

1. 混乱、短暂的西晋

自司马炎称帝，到愍帝出降，西晋总计存续约五十年。西晋除了比较短暂外，另一个存在感很低的原因大概是：“混乱”，后世用“八王之乱”概括之。

八王之乱，是一场司马家族内部“混乱”的权力之争。晋武帝司马炎去世后，传位给愚弱的惠帝司马衷，而后皇后贾南风（西晋开国之臣贾充之女）当权。先后利用多方力量分别杀杨骏（惠帝母杨氏族），而后汝南王司马亮被杀、楚王司马玮亦被杀，最后，甚至杀了太子司马遹。这激怒了其他诸王，也给其他诸王以理由。之后，赵王司马伦联合齐王司马囧，尽灭贾后及其党羽。

接着赵王伦称帝，诸王自然不认可，于是开启了“八王之乱”的下半场。不久，赵王伦被齐王等所诛杀，惠帝虽“愚”，再次复位。之后，由于诸王专权的问题，齐王、成都王、河间王、长沙王、东海王均卷入这场“混乱”之中。

东海王司马越站到了最后，但他并没有“得意”多久。北方匈奴部逐渐强大，而内部怀帝（惠帝死后，他的弟弟豫章王即位是为怀帝）因惧其专权，永嘉五年（311年），“发布司马越的罪状，要各方镇讨伐”司马越。司马越率领着西晋最后的十万大军，自己在忧愤中死去，而其大军也被匈奴部的石勒所灭。自此，西晋便更加无力抵抗北方匈奴部。五年后，晋愍帝窘迫出降于刘曜。西晋灭亡。

2. 北方诸族（五胡十六国）

“五胡十六国” 通常可以以刘渊称帝（308年），建立“汉”为初始。刘渊为匈奴五部大单于，在八王之乱期间成都王司马颖，曾极力拉拢，在司马颖败落后，便联合匈奴各部，建立自己的政权。帝位传至其孙刘粲（音“灿”）后，粲被靳准所杀，靳准曾向西晋称臣；而后，靳准被石勒、刘曜所败，石勒、刘曜均是刘聪（刘渊子）的临终时的顾命大臣。“靳准之乱”后，刘曜、石勒也各自为政，分别建立了“前赵”、“后赵”。

2.1 后赵

这一时期的“国家”、“帝王”都很短暂与混乱。这里看看出生卑微的石勒建立后赵。

329年石勒灭前赵（刘曜），次年称帝；333年石勒卒，次年其从子石虎篡位；349年石虎卒，其子为争帝位互相残杀。次年（350年），石虎养孙冉闵自立为帝，改国号魏，史称冉魏。后来，石氏子孙投降东晋，也被杀及诛灭。

2.2 群雄并立

这段时间，在北方建立政权的先后还有：慕容氏建立的前燕、后燕、南燕、西燕、后凉、后秦、西秦、北魏，这些势力多数时候是并立存在。曾经一度“北方的八个势力，并立了九年之久”（傅 “中国通史”）。

2.3 拓跋氏统一北方

直到，北魏拓跋氏一统北方，北方大地才再次有了一段相对和平的时代。北魏开国皇帝拓跋珪，于398年称帝，建都平城（即大同）。

3. 摇摇欲坠的东晋

自318年，晋元帝司马睿在建康即帝位，到420年刘宋建立。虽由一百年时间，但是，期间司马氏从不曾真正较长时间掌握大权，一直都是在“门阀”、“权臣”的交替与平衡中生存。

先是“王与马共天下”，而后王敦起兵，晋元帝“忧愤而死”，翻译成今天的话，大概就是被气死了。那个说出“举目见日不见长安”的晋明帝虽平定了王敦之乱，但奈何命短，在位三年后去世。再到晋成帝则是苏峻之乱，一度破建康城，劫成帝。

而后，桓温崛起。桓温先是北伐，后谋求自立为帝未果。桓温死后，其家族依旧强大，其子桓玄袭其位，其弟、侄等任荆州刺史、扬州刺史、江州刺史等要职。

桓玄一度曾称帝，最终被刘裕平定，还帝位于晋室。哦，短暂的归还。

4. 东晋北伐的困局

很多人大概都听过“闻鸡起舞”这个成语，也还有不少人知道祖逖艰难北伐的故事。但似乎很少人谈论，为什么西晋北伐几乎是不可能成功的。祖逖、桓温、刘裕都是北伐名将，他们的经历大概某种程度给出了回答。

4.1 闻鸡起舞的祖逖

当祖逖在“进”表要北伐时（当时北方石勒、刘曜混战），晋室元帝司马睿当然口头上是非常支持的，但并给出不太大的实质上的支持：“以逖为奋威将军、豫州刺史，给千人禀，布三千匹，不给铠仗，使自招募”。

时帝方拓定江南，未遑北伐，逖进说曰：“晋室之乱，非上无道而下怨叛也。由籓王争权，自相诛灭，遂使戎狄乘隙，毒流中原。今遗黎既被残酷，人有奋击之志。大王诚能发威命将，使若逖等为之统主，则郡国豪杰必因风向赴，沈弱之士欣于来苏，庶几国耻可雪，愿大王图之。”帝乃以逖为奋威将军、豫州刺史，给千人禀，布三千匹，不给铠仗，使自招募。
晋书/卷062

而祖逖也算不负众望，一路北伐恢复了大量黄河以南的土地，并与北方的石勒隔“河”相持对峙。

而后，321年，晋元帝司马睿派遣戴渊（戴若思）为征西将军。祖逖有自己的战略考量，对戴若思并不太认可，同时也看到朝廷内政不稳，最终在“忧愤”与不得志中去世。关于这一段，各位看客可以读读唐朝房玄龄所著《晋书》中祖逖的列传内容：

石勒不敢窥兵河南，使成皋县修逖母墓，因与逖书，求通使交市，逖不报书，而听互市，收利十倍，于是公私丰赡，士马日滋。方当推锋越河，扫清冀朔，会朝廷将遣戴若思为都督，逖以若思是吴人，虽有才望，无弘致远识，且已翦荆棘，收河南地，而若思雍容，一旦来统之，意甚怏怏。且闻王敦与刘隗等构隙，虑有内难，大功不遂。感激发病，乃致妻孥汝南大木山下。时中原士庶咸谓逖当进据武牢，而反置家险厄，或谏之，不纳。逖虽内怀忧愤，而图进取不辍，营缮武牢城，城北临黄河，西接成皋，四望甚远。逖恐南无坚垒，必为贼所袭，乃使从子汝南太守济率汝阳太守张敞、新蔡内史周闳率众筑垒。未成，而逖病甚。先是，华谭、庾阐问术人戴洋，洋曰：“祖豫州九月当死。”初有妖星见于豫州之分，历阳陈训又谓人曰：“今年西北大将当死。”逖亦见星，曰：“为我矣！方平河北，而天欲杀我，此乃不祐国也。”俄卒于雍丘，时年五十六。豫州士女若丧考妣，谯梁百姓为之立祠。册赠车骑将军。王敦久怀逆乱，畏逖不敢发，至是始得肆意焉。寻以逖弟约代领其众。约别有传。逖兄纳。
晋书/卷062

为什么建议要读一下这一段内容呢？我们现在看到的“通俗”内容中关于祖逖的说明，大多都有一些差异，而这些内容多半是出自上述原始材料，读者不同，翻译不同，理解也可能有不同。所以，大可读读原始材料。

这段内容其实是可以有两种解读的。一方面祖逖北伐是比较成功的，收复和稳定了大量黄河以南的失地。此时，恰逢重新积蓄力量，修整军队的一段略微平静些的时间。石勒、祖逖也暂时的“默契休战”。石勒“修逖母墓”、“求通市”，祖逖虽未回复，但听任之，并且在互市过程中，获利颇丰（收利十倍），从而兵马日渐强壮（“士马日滋”）。这时，祖逖继续加强城池修缮，并且内心并不认可朝廷派遣来的“都督戴若思”。

也许祖逖的战略是百分百正确，但祖逖的行为在政治上是“危险”的。只是恰逢东晋皇室羸弱，“门阀掌权”、权臣王敦亦有异心，并且祖逖不久就死去。否则，局势虽不同，但也可能会面临类似于“岳飞”类似的境地。

4.2 北伐的困局

可以看到，东晋朝廷虽然表面支持祖逖北伐，但并未给予实质性支持，某种程度上甚至是略有掣肘，尤其是在祖逖北伐顺利的时候。在傅乐成中国通史中有如下描述，则道出了北伐真正的困境：

当时除少数苟安的士大夫外，晋人莫不希望早复中原，他们普遍抱有一种思想，认为谁能驱逐胡虏，谁便有称帝的资格，这种思想在东晋中末期尤为显著。因此若干野心家，都思北伐立功，以求名正言顺的称帝。正因如此，晋室中央及其执政者渐至视外战为畏途，不但不加支持，反处处掣肘。
傅乐成《中国通史》

结合着祖逖、桓温、刘裕的北伐和后面的历史，可以看到，上面这段话是揭露了北伐困局的真相的。对于将相北伐风险、挑战自然是非常高的，并且一定会受到朝廷猜忌与防范，所以，如果一个人只是想北伐、恢复晋室，那么他可能北伐能够成功，但他不可能成功。最后，就“催生”了桓温、刘裕的“模式”，北伐成功，军队强大，只能自己做自己的皇帝。

在中国古代，正如谚语所云“太平本是将军定，不许将军见太平”。

4.3 桓温

桓温家族在东晋虽“门地不高”，但也是“士族”阶层（参考）。桓温在多方势力“平衡”之中，镇守荆州，而在当时荆州是南方的一个重镇。而后，凭借勇武与敏锐的军事能力，“平灭成汉”，很大程度上扩大了东晋在南方的势力范围，桓温也因此“声名大盛”。而后，桓温多次北伐，其中第二次北伐曾成功收复洛阳。到桓温“晚年”，则主要谋求在朝廷的最高权利，但因为各种原因与阻碍，最终未能代晋称帝。

桓温的两次北伐，都因粮尽退兵，为敌所乘，而致大败，可知桓温是以孤军击敌，并无后援。晋室中央绝不与他合作，必使他失败而后快，因为假使桓温一旦成功，晋室也将不保。事实上桓温确有做皇帝的念头，他准备平燕归来后便篡位的。所以就晋室的立场来说，它之不协助桓温北伐，也自有其苦衷，但复兴大业，却因而断送。
傅乐成《中国通史》

4.4 刘裕

所以，东晋北伐为什么总难成功呢？究其根本原因，大概是，力量难以统一。东晋王室是有这个威望的，但此时的司马家族已经势弱，虽能够聚集起一些力量，但是无法掌控这些力量。

而其他力量，虽然能够在一段时间、或者某些地方称霸，甚至能够给北方诸族以致命打击，但是这些力量也因为孤立无援、甚至“黄雀在后”而无法完成“北伐”。

但最后刘裕做到了，或者某种程度做到了。他曾经击败篡位的桓玄（桓温嗣子）恢复晋室、北伐克复洛阳与长安（虽然很短暂）、平定多次叛乱、打败成都王等。北方最终由于，后方不稳定，而很快再次丢失。

最后，不出意外，意外就发生了。420年，刘裕迫使晋帝禅让，即位建立“宋”。

5. 前秦与淝水之战

在南北朝时期，“淝水之战”是关键的一战。北方原本强大的“前秦”（苻坚），则因为这一战而快速陨落。之前，苻坚所打败的一众力量则再次纷纷独立；南方晋室因为这一战的胜利，暂且保住了地盘。而由谢氏建立的北府兵也成长起来。在后来，北府兵的力量非常大程度的限制了桓氏（桓温家族）的力量。

但，最终，北府兵旧将刘裕结束了东晋王朝。建立“刘宋”。

6. 北朝

“北朝”大概分成了两个阶段，一个是“群雄”争霸的五胡十六国时期，另一个是北魏（包括北周和北齐）时期。

北魏由拓跋珪建立，最初定都“平城”（山西大同），而后拓跋焘统一北方。之后孝文帝迁都洛阳，并大力推行汉化，包括使用汉人姓氏、通婚、文字语言等都使用汉文。

而后，北魏延续约100年，后分裂为东、西魏，并很快由宇文泰、高欢分别建立北周、北齐，两国之间多有摩擦与交战。起初，北齐虽占上风，但最终更加锐意变革的北周最终打败北齐。

但，之后的北周并没有延续很久，最终，皇权由建立隋朝的杨坚所夺。

不过，北周、隋、唐之间都有非常近的亲戚关系。例如杨坚的一个女儿，就是北周宣帝的皇后；更不用说，李渊和杨广就是姨表亲。

7. 时代诗文

7.1 举目见日不见长安

高中时就读过《举目见日不见长安》这段内容，印象是非常深刻的，但是那种“莫名其妙”感记得也非常清楚。高中时，完全不了解东晋的情况，不知道晋元帝的困局，不知道东晋面临北方外族的南侵，不知道内部政局的混乱，自然难以理解这篇内容。

明皇帝讳绍，字道畿，元皇帝长子也。幼而聪哲，为元帝所宠异。年数岁，尝坐置膝前，属长安使来，因问帝曰：「汝谓日与长安孰远？」对曰：「长安近。不闻人从日边来，居然可知也。」元帝异之。明日，宴群僚，又问之。对曰：「日近。」元帝失色，曰：「何乃异间者之言乎？」对曰：「举目则见日，不见长安。」由是益奇之。
晋书明帝

再读这段文字，就有了不一样的体会。

元帝在次日的“聚会”上，故意再次提问，可以看到一个普通的父亲的“虚荣心”，想在群僚面前让自己的孩子表现一下，就像现在的家长让自己的孩子在大人面前背诵一首唐诗、唱一首歌曲、表演一小段舞蹈、弹奏一首曲子是一样的。

另外，晋元帝虽在南方逐步站稳，但是可以说是内外交困。外部北方政权（如石勒）一旦稳固则经常南侵；内部一方面内政士族强大，外部藩镇（王敦等）也不受指挥。此时，如果下一代如有明主，那么长远来看“东晋”政权则可能逐步强大。晋元帝对于下一代的期望自然相比于普通家长更加殷切。

7.2 北朝名歌敕勒歌

敕勒川，阴山下。
天似穹庐，笼盖四野。
天苍苍，野茫茫，风吹草低见牛羊。

这首诗歌的具体是作者和时间并没有特别明确的记载，有一种说法是该歌为“斛律金”所作，但更有可能是他曾经在关键时刻带领将士吟唱过。据记载，在高欢在玉璧之战大败后，斛律金为高欢部高唱此歌，最终稳住军心。

所以，这是应该是一首鲜卑语的歌曲，怀念鲜卑人所生活的“刺勒川”美景。

这首词经常被选入小学一二年级的课文。一方面，这首词语言精炼易懂，描述的景色开阔壮美、自然恬静；另一方面，这首歌为少数来自少数名族的词，也有表达中华民族是一个多民族融合的大家族。

7.3 花木兰

　　唧唧复唧唧，木兰当户织。不闻机杼声，唯闻女叹息。

　　问女何所思，问女何所忆。女亦无所思，女亦无所忆。昨夜见军帖，可汗大点兵，军书十二卷，卷卷有爷名。阿爷无大儿，木兰无长兄，愿为市鞍马，从此替爷征。

　　东市买骏马，西市买鞍鞯，南市买辔头，北市买长鞭。旦辞爷娘去，暮宿黄河边，不闻爷娘唤女声，但闻黄河流水鸣溅溅。旦辞黄河去，暮至黑山头，不闻爷娘唤女声，但闻燕山胡骑鸣啾啾。

　　万里赴戎机，关山度若飞。朔气传金柝，寒光照铁衣。将军百战死，壮士十年归。

　　归来见天子，天子坐明堂。策勋十二转，赏赐百千强。可汗问所欲，木兰不用尚书郎，愿驰千里足，送儿还故乡。

　　爷娘闻女来，出郭相扶将；阿姊闻妹来，当户理红妆；小弟闻姊来，磨刀霍霍向猪羊。开我东阁门，坐我西阁床。脱我战时袍，著我旧时裳。当窗理云鬓，对镜帖花黄。出门看火伴，火伴皆惊忙：同行十二年，不知木兰是女郎。

　　雄兔脚扑朔，雌兔眼迷离；双兔傍地走，安能辨我是雄雌？

“木兰辞”被认为是一首创作于南北朝时期，但经过后世多次修改后最终形成我们现在看到的样子。在北朝（北魏/东西魏/北周/北齐），多使用“世兵制”或“府兵制”，“军户”在战时总是需要承担兵役，即便出现“阿爷无大儿，木兰无长兄”的情况也不能豁免。于是就有了木兰，以女儿身代父从军的故事。

7.4 桃花源记

… 土地平旷，屋舍俨然。有良田、美池、桑竹之属。阡陌交通，鸡犬相闻 … 自云先世避秦时乱，率妻子邑人来此绝境，不复出焉，遂与外人间隔。问今是何世，乃不知有汉，无论魏晋…
陶渊明《桃花源记》

这首诗歌作于东晋、刘宋时期，在那前后的百年间，中国一直处于战乱之中。作者虚构此故事，表达了对和平安宁的向往。

另外，我们加两个娃的名字，即来自于这首诗的“阡陌交通，鸡犬相闻”。一方面，希望他两兄弟能够拥有诗词中的生活。再者，一阡一陌，各有自己的方向与人生，但也有相交之处，这个相交的地方大概就是我们这个家吧。

7.5 乌衣巷

朱雀桥边野草花，乌衣巷口夕阳斜
旧时王谢堂前燕，飞入寻常百姓家
刘禹锡《乌衣巷》

这也是一首非常有名的怀古诗，作者站在乌衣巷前，看着“寻常”景色，遥想当年权倾一世的“王”、“谢”，早已随着时间而消失于历史长河。

理解大语言模型推理的 KVCache

2026-01-17

1. 概述
2. Decoder 模型的自回归计算
3. 计算图示
4. KV Cache 的内存消耗
5. Multi-Query Attention/Group…
- 5.1 关于MQA与GQA
- 5.2 模型训练 Uptraining
参考

大语言模型的一个重要方向是“推理”优化，即如何在有限的硬件环境中提升推理的效率。对于所有的 MaaS 服务提供方，这都是至关重要的。一方面关乎用户的使用体验（诸如TTFT，time to first token）、另一方面关于服务提供的成本（有限的GPU如何提供更高的吞吐量）。

1. 概述

从 Transformer 架构的 Decoder 阶段原理来看，一个常见的、自然的优化就是使用“KV Cache”大大减少推理（自回归阶段）过程需要计算量，实现以显存换效率，从而加速推理过程。

2. Decoder 模型的自回归计算

在了解了“Attention”、“mask attention”、“autoregression”计算之后，比较自然可以注意到在 Q、K、V 矩阵在“autoregression”的过程中，有很多的部分是无需额外计算的。

这里依旧继续使用《理解大语言模型的核心：Attention》中的示例，这里考虑在文章中的提示词“It’s very hot in summer. Swimming is”，生成新的Token为 “ a”，那么我们看看这个自回归过程某个Head中的计算。完成的代码可以参考：autoregression-of-attention.ipynb。

相比与在 prefill 阶段，需要额外计算的，在后续使用黄色标识出来。

2. 1 Token Embedding 和 Positional Embedding

Token Embedding

Positional Embedding

----------------------------------------------------------------------------------------------------------------------------------
| Token   | Token ID | Token Embeddings(first 3 of 768 ) |  Positional Embeddings            |  Token Embedding +  Positional    |
----------------------------------------------------------------------------------------------------------------------------------
| It      | 1026     | [  0.0390, -0.0869,  0.0662, ...] | [ -0.0188, -0.1974,  0.0040, ...] | [  0.0202, -0.2844,  0.0702, ...] |
| âĢ      | 447      | [ -0.0750,  0.0948, -0.0034, ...] | [  0.0240, -0.0538, -0.0949, ...] | [ -0.0510,  0.0410, -0.0982, ...] |
| Ļ       | 247      | [ -0.0223,  0.0182,  0.2631, ...] | [  0.0042, -0.0848,  0.0545, ...] | [ -0.0181, -0.0666,  0.3176, ...] |
| s       | 82       | [ -0.0640, -0.0469,  0.2061, ...] | [ -0.0003, -0.0738,  0.1055, ...] | [ -0.0643, -0.1207,  0.3116, ...] |
| Ġvery   | 845      | [ -0.0553, -0.0348,  0.0606, ...] | [  0.0076, -0.0251,  0.1270, ...] | [ -0.0477, -0.0599,  0.1876, ...] |
| Ġhot    | 3024     | [  0.0399, -0.0053,  0.0742, ...] | [  0.0096, -0.0339,  0.1312, ...] | [  0.0495, -0.0392,  0.2054, ...] |
| Ġin     | 287      | [ -0.0337,  0.0108,  0.0293, ...] | [  0.0027, -0.0205,  0.1196, ...] | [ -0.0310, -0.0098,  0.1490, ...] |
| Ġsummer | 3931     | [  0.0422,  0.0138, -0.0213, ...] | [  0.0025, -0.0032,  0.1174, ...] | [  0.0448,  0.0106,  0.0961, ...] |
| .       | 13       | [  0.0466, -0.0113,  0.0283, ...] | [ -0.0012, -0.0018,  0.1110, ...] | [  0.0454, -0.0131,  0.1394, ...] |
| ĠSw     | 2451     | [  0.0617,  0.0373,  0.1018, ...] | [  0.0049,  0.0021,  0.1178, ...] | [  0.0666,  0.0395,  0.2196, ...] |
| imming  | 27428    | [ -0.1385, -0.1774, -0.0181, ...] | [  0.0016,  0.0062,  0.1004, ...] | [ -0.1369, -0.1711,  0.0823, ...] |
| Ġis     | 318      | [ -0.0097,  0.0101,  0.0556, ...] | [ -0.0036,  0.0175,  0.1068, ...] | [ -0.0133,  0.0275,  0.1623, ...] |
| Ġa      | 257      | [ -0.0506,  0.0056,  0.0471, ...] | [  0.0001,  0.0172,  0.0969, ...] | [ -0.0506,  0.0228,  0.1440, ...] |
----------------------------------------------------------------------------------------------------------------------------------

这里，只需要计算最新的Token（即这里的“ a”）的Embedding即可。事实上，上面矩阵白色部分再自回归阶段完全不再需要使用了。所以，上述内容计算完成后，内存即可释放，无需缓存。

2. 2 Normalize

即，将每一个token的embedding 进行正规化，将其均值变为0，方差变为1

------------------------------------------------------
| Token   | Token ID | Normalized(first 3 of 768  )  |
------------------------------------------------------
| It      | 1026     | [ 0.0129 , -0.1104 , -0.0317] |
| âĢ      | 447      | [-0.0530 ,  0.0588 , -0.1290] |
| Ļ       | 247      | [-0.0170 , -0.0242 ,  0.1639] |
| s       | 82       | [-0.0754 , -0.0842 ,  0.1842] |
| Ġvery   | 845      | [-0.0566 , -0.0280 ,  0.0953] |
| Ġhot    | 3024     | [ 0.0587 , -0.0086 ,  0.1073] |
| Ġin     | 287      | [-0.0391 ,  0.0209 ,  0.0731] |
| Ġsummer | 3931     | [ 0.0532 ,  0.0397 ,  0.0181] |
| .       | 13       | [ 0.0553 ,  0.0152 ,  0.0579] |
| ĠSw     | 2451     | [ 0.0807 ,  0.0691 ,  0.1216] |
| imming  | 27428    | [-0.1528 , -0.1249 , -0.0017] |
| Ġis     | 318      | [-0.0175 ,  0.0605 ,  0.0880] |
| Ġa      | 257      | [-0.0688 ,  0.0540 ,  0.0697] |
------------------------------------------------------

与前面类似，这里计算完成并推进到下一步后，内存即可释放，无需缓存。

2. 3 Attention 层的参数矩阵

$W^Q\,,W^K\,,W^V $

   W^Q [:3]  shape (768 x 64)               W^K [:3]  shape (768 x 64)                                  W^V [:3]  shape (768 x 64)
-------------------------------------    --------------------------------                            --------------------------------
[-0.4738, -0.2614, -0.0978, ...]   |     [ 0.3660,  0.0771,  0.2226, ...]                            [ 0.1421,  0.0329, -0.0667, ...]
[ 0.0874,  0.1473,  0.2387, ...]   |     [-0.4380, -0.1446, -0.4717, ...]                            [ 0.0162, -0.0633, -0.0636, ...]
[ 0.0039,  0.0695,  0.3668, ...]   |     [ 0.1237,  0.0174,  0.1181, ...]                            [ 0.0229, -0.0828,  0.0437, ...]
[ 0.2215, -0.1884, -0.0141, ...]  64     [-0.2247,  0.0148, -0.1859, ...]                            [-0.0106,  0.0070,  0.0565, ...]
[-0.0947,  0.1678, -0.0143, ...]  rows   [-0.2001, -0.1052, -0.1743, ...]                            [ 0.0416,  0.0938, -0.1792, ...]
   ...                             |        ...                                                          ...
[-0.4100, -0.1924, -0.2400, ...]   |     [,0.1567,  0.2664,  0.1851, ...]                            [-0.0341,  0.0034,  0.0203, ...]
-------------------------------------    --------------------------------                            --------------------------------
|<------- columns: 768 ------->|         |<------- columns: 768 ------->|                            |<------- columns: 768 ------->|

这是三个权重矩阵，总是需要常驻内存的，并且可以被多个“推理”共享使用。

2. 4 矩阵 Q K V的计算

$Q = XW^Q $

$K = XW^K $

$V = XW^V $

    Q [:3]  shape (12 x 64)                  K [:3]  shape (12 x 64)                                      V [:3]  shape (12 x 64)
-------------------------------------    ---------------------------------                           --------------------------------
[ 0.4207, -0.9178,  0.1760, ...]  |      [ -1.4202,  1.6791,  0.9837, ...]                           [ 0.0452,  0.0628,  0.1463, ...]
[ 0.7757,  0.2485,  0.7349, ...]  |      [ -2.5320,  2.2932,  1.5592, ...]                           [-0.1361,  0.1379,  0.0150, ...]
[ 0.4481,  0.0206, -0.0825, ...]  |      [ -2.2571,  2.7764,  1.8401, ...]                           [ 0.0039, -0.1295, -0.0311, ...]
[ 0.9500,  0.1481,  0.3469, ...] 12      [ -2.4322,  3.1454,  2.0600, ...]                           [-0.0391,  0.0581,  0.0511, ...]
[ 0.4989, -0.4376,  0.1678, ...] rows    [ -3.5428,  2.1485,  2.0414, ...]                           [ 0.0963,  0.3563, -0.1477, ...]
  ...                             |        ...                                                         ...
[ 0.4429, -1.1997,  0.5611, ...]  |      [ -2.2559,  2.0384,  2.2542, ...]                           [ 0.2759, -0.2783,  0.3240, ...]
[ 0.4989, -0.4376,  0.1678, ...]  |      [ -2.6703,  2.3629,  1.7493, ...]                           [ -0.0633, 0.0431, -0.0422, ...]
-------------------------------------    ---------------------------------                           --------------------------------
|<------- columns: 64 ------->|          |<------- columns: 64 ------->|                             |<------- columns: 64 ------->|

计算 Q、K、V 矩阵，这里只有最后一行（即对应最后一个Token “ a”）。这里的矩阵 K 、V 需要进行缓存，在后续每一次自回归的过程都需要完整的使用 K V 矩阵中所有值，下一步会说明原因。Q 矩阵在完成后矩阵计算，就可以释放。

2. 5 计算 Attention Score

$\text{Attention Score} $

$= \frac{QK^T}{\sqrt{d}} $

|-----------------------------------------------------------------------------------------------------|
|       |           Attention Score Matrix shape (13 x 13)                                            |
| Token |---------------------------------------------------------------------------------------------|
|       |   It     âĢ     Ļ      s     Ġvery  Ġhot    Ġin  Ġsummer  .     ĠSw    imming  Ġis    Ġa    |
|-------|---------------------------------------------------------------------------------------------|----
|It     | [ 0.14, -1.53, -1.45, -1.71, -1.69, -1.74, -2.36, -2.27, -2.37, -1.33, -0.58, -2.40,   /   ]|  |
|âĢ     | [ 0.70, -0.93, -1.72, -1.02, -1.52, -2.24, -1.90, -2.19, -1.63, -2.13, -1.66, -2.14,   /   ]|  |
|Ļ      | [-0.60, -1.81, -1.99, -1.96, -2.57, -1.84, -1.62, -2.04, -0.98, -1.18, -2.23, -2.25,   /   ]|  |
|s      | [-0.46, -1.33, -1.60, -2.65, -2.24, -1.99, -2.89, -1.44, -2.05, -2.77, -2.09, -2.74,   /   ]|  |
|Ġvery  | [ 0.29, -1.42, -1.77, -1.15, -0.94, -1.14, -1.81, -1.04, -1.77, -2.13, -0.60, -0.82,   /   ]|  |
|Ġhot   | [ 0.03, -0.68, -0.59, -0.95, -1.78, -0.10, -0.95, -0.14, -1.32, -0.57,  0.06, -1.07,   /   ]|  13
|Ġin    | [-0.71, -1.72, -1.53, -2.18, -1.67, -1.93, -3.41, -1.69, -2.74, -1.89, -1.17, -2.02,   /   ]|  rows
|Ġsummer| [-0.34, -1.49, -1.35, -1.31, -1.12, -0.89, -1.49, -1.11, -1.51, -1.15, -1.45, -1.20,   /   ]|  |
|.      | [-0.89, -1.73, -2.67, -2.80, -2.45, -2.37, -4.39, -2.33, -4.42, -2.73, -1.82, -3.21,   /   ]|  |
|ĠSw    | [-0.05, -1.15, -1.76, -1.15, -1.68, -0.74, -1.15, -1.35, -1.36, -1.29, -0.43, -1.51,   /   ]|  |
|imming | [-0.02, -1.65, -0.87, -0.35, -1.18, -0.65, -0.33, -1.25, -0.38, -1.68, -2.15, -1.08,   /   ]|  |
|Ġis    | [-0.97, -2.03, -2.56, -2.94, -1.96, -2.71, -4.07, -2.46, -3.51, -2.68, -1.88, -2.99,   /   ]|  |
|Ġa     | [-1.10, -1.95, -2.12, -3.12, -2.72, -2.17, -3.88, -2.06, -3.57, -2.49, -1.86, -2.83, -3.40 ]|  |
|-------|---------------------------------------------------------------------------------------------|----
        |<------------------------------------ columns: 13 ------------------------------------------>|

特别需要注意的，这一步中，“Attention Score Matrix”最后一行的计算，需要前面的Q的最后一行，此外还需要整个 K 矩阵。这就是为什么 K 矩阵是需要缓存的。

2. 6 计算 Masked Attention Score

$\text{Masked Attention Score} $

$= \frac{QK^T}{\sqrt{d}} + \text{mask} $

|-----------------------------------------------------------------------------------------------------|
|       |           Attention Score Matrix shape (13 x 13)                                            |
| Token |---------------------------------------------------------------------------------------------|
|       |   It     âĢ     Ļ      s     Ġvery  Ġhot    Ġin  Ġsummer  .     ĠSw    imming  Ġis    Ġa    |
|-------|---------------------------------------------------------------------------------------------|----
|It     | [ 0.14,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf ]|  |
|âĢ     | [ 0.70, -0.93,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf ]|  |
|Ļ      | [-0.60, -1.81, -1.99,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf ]|  |
|s      | [-0.46, -1.33, -1.60, -2.65,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf ]|  |
|Ġvery  | [ 0.29, -1.42, -1.77, -1.15, -0.94,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf ]|  |
|Ġhot   | [ 0.03, -0.68, -0.59, -0.95, -1.78, -0.10,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf ]|  13
|Ġin    | [-0.71, -1.72, -1.53, -2.18, -1.67, -1.93, -3.41,  -inf,  -inf,  -inf,  -inf,  -inf,  -inf ]|  rows
|Ġsummer| [-0.34, -1.49, -1.35, -1.31, -1.12, -0.89, -1.49, -1.11,  -inf,  -inf,  -inf,  -inf,  -inf ]|  |
|.      | [-0.89, -1.73, -2.67, -2.80, -2.45, -2.37, -4.39, -2.33, -4.42,  -inf,  -inf,  -inf,  -inf ]|  |
|ĠSw    | [-0.05, -1.15, -1.76, -1.15, -1.68, -0.74, -1.15, -1.35, -1.36, -1.29,  -inf,  -inf,  -inf ]|  |
|imming | [-0.02, -1.65, -0.87, -0.35, -1.18, -0.65, -0.33, -1.25, -0.38, -1.68, -2.15,  -inf,  -inf ]|  |
|Ġis    | [-0.97, -2.03, -2.56, -2.94, -1.96, -2.71, -4.07, -2.46, -3.51, -2.68, -1.88, -2.99,  -inf ]|  |
|Ġa     | [-1.10, -1.95, -2.12, -3.12, -2.72, -2.17, -3.88, -2.06, -3.57, -2.49, -1.86, -2.83, -3.40 ]|  |
|-------|---------------------------------------------------------------------------------------------|----
        |<------------------------------------ columns: 13 ------------------------------------------>|

2.7 计算 Softmax Masked Attention Score

$\text{Softmax Masked Attention Score} $

$= \text{softmax}(\frac{QK^T}{\sqrt{d}} + \text{mask}) $

|---------------------------------------------------------------------------------------|
|       |  Softmax Masked  Attention Score Matrix shape (13 x 13)                       |
| Token |-------------------------------------------------------------------------------|
|       |  It    âĢ    Ļ     s     Ġvery  Ġhot  Ġin  Ġsummer  .   ĠSw   imming  Ġis     |
|-------|-------------------------------------------------------------------------------|----
|It     | [1.00  0.00  0.00  0.00   0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.00 0.00]|  |
|âĢ     | [0.84  0.16  0.00  0.00   0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.00 0.00]|  |                  V [:3]  shape (12 x 64)
|Ļ      | [0.65  0.19  0.16  0.00   0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.00 0.00]|  |              --------------------------------
|s      | [0.54  0.23  0.17  0.06   0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.00 0.00]|  |              [ 0.0452,  0.0628,  0.1463, ...]
|Ġvery  | [0.54  0.10  0.07  0.13   0.16  0.00  0.00  0.00  0.00  0.00  0.00  0.00 0.00]|  |              [-0.1361,  0.1379,  0.0150, ...]
|Ġhot   | [0.29  0.14  0.16  0.11   0.05  0.25  0.00  0.00  0.00  0.00  0.00  0.00 0.00]|  13             [ 0.0039, -0.1295, -0.0311, ...]
|Ġin    | [0.36  0.13  0.16  0.08   0.14  0.11  0.02  0.00  0.00  0.00  0.00  0.00 0.00]|  rows           [-0.0391,  0.0581,  0.0511, ...]
|Ġsummer| [0.26  0.08  0.09  0.10   0.12  0.15  0.08  0.12  0.00  0.00  0.00  0.00 0.00]|  |              [ 0.0963,  0.3563, -0.1477, ...]
|.      | [0.40  0.17  0.07  0.06   0.08  0.09  0.01  0.10  0.01  0.00  0.00  0.00 0.00]|  |                ...
|ĠSw    | [0.27  0.09  0.05  0.09   0.05  0.14  0.09  0.07  0.07  0.08  0.00  0.00 0.00]|  |              [ 0.2759, -0.2783,  0.3240, ...]
|imming | [0.19  0.04  0.08  0.14   0.06  0.10  0.14  0.06  0.13  0.04  0.02  0.00 0.00]|  |              [-0.0633,  0.0431, -0.0422, ...]
|Ġis    | [0.30  0.10  0.06  0.04   0.11  0.05  0.01  0.07  0.02  0.05  0.12  0.04 0.00]|  |              --------------------------------
|Ġa     | [0.25  0.11  0.09  0.03   0.05  0.09  0.02  0.10  0.02  0.06  0.12  0.04 0.03]|  |              |<------- columns: 64 ------->|
|-------|-------------------------------------------------------------------------------|----
        |<---------------------------------- columns: 13 ------------------------------>|

2. 8 计算 Contextual Embeddings

$\text{Contextual Embeddings} $

$= \text{softmax}(\frac{QK^T}{\sqrt{d}} + \text{mask})V $

Token      | Contextual Embedding (12 x 768)
--------------------------------------------
It         | [ 0.0452,  0.0628,  0.1463,...]
âĢ         | [ 0.0153,  0.0752,  0.1247,...]
Ļ          | [ 0.0034,  0.0464,  0.0923,...]
s          | [-0.0082,  0.0464,  0.0801,...]
Ġvery      | [ 0.0218,  0.1029,  0.0621,...]
Ġhot       | [ 0.0327,  0.0892,  0.0409,...]
Ġin        | [ 0.0249,  0.0964,  0.0329,...]
Ġsummer    | [ 0.0583,  0.1195,  0.0068,...]
.          | [ 0.0334,  0.1100,  0.0366,...]
ĠSw        | [ 0.0086,  0.0846,  0.0074,...]
imming     | [-0.0049,  0.0841, -0.0339,...]
Ġis        | [ 0.0410,  0.0706,  0.0077,...]
Ġa         | [ 0.0427 , 0.0503 , 0.0080,...]

所以，这一步中，“Contextual Embeddings”最后一行的计算，需要前面 Softmax Masked Attention Score Matrix 的最后一行，此外还需要整个 V 矩阵。这就是为什么 V 矩阵是需要缓存的。

此外可以看到，在这个自回归的计算中，Q 矩阵前面的所有行（即上一轮计算的Q矩阵）都用不上，这也是为什么 Q 矩阵不需要缓存，即我们需要的“KV Cache”，而不是“QKV Cache”的原因。

3. 计算图示

这里依据使用了图示的方式展示了在“自回归”过程中的数学计算。在下图中，第一个生成的 Token 为“ a”，该 Token 在进入 Decoder 模型再次进行计算时（即“自回归”），下图中：

粉红色背景部分为新的、需要计算的部分；
灰色背景部分为虽然不需要计算，但在计算新的内容时，需要使用的部分。

灰色部分即为“KV Cache”需要缓存的部分。即，每一个 Token 对应的 “K”、“V” 矩阵都需要在后续的计算中使用。亦即，每一个 Token 的 Key 向量都需要保存，用于与新的 Token 的 Query 向量进行点击计算“关注度”值；每一个 Token 的 V 向量也需要保持

在上述的计算中，注意到，在一次的新的“自回归”中，最终需要额外计算的就是新Token（这里是“ a”）对应的 Centextual Embedding，该内容计算，需要使用前述所有 Token 对应的 K、V 值，即这里的 K 和 V 矩阵。

所以，在一次自回归推理中，最好上一次计算的所有 Token 的 K、V 向量都缓存起来，避免重复计算。本次自回归中计算新Token的对应的 K、V 向量也需要缓存，以供后续使用。

4. KV Cache 的内存消耗

在推理优化中，一个重要硬限制便是GPU卡的显存（memory）大小。当前，主流的企业级显卡H100显存为80GB，高端显卡 H200 显存为141 GB。现在的 LLM 参数量通常巨大，参数加载就需要耗费巨大的显存，以最新的 llama 4 17B为例，考虑 FP16 （半精度）考虑，则需要消耗约 30+ GB 。卡片上剩余的内存，才是用于实际的推理使用。而每次推理，例如提示词是1000个Token，输出也是1000个Token，那么，在生成最后一个Token的时候，需要的内存（按5%的经验值计算）约为1.5GB。这时候，单个H100的显卡也只能支持约33个并发，实际的情况则要考虑系统内存等，会比这个预估多很多。

在这篇文章：Mastering LLM Techniques: Inference Optimization@developer.nvidia.com 中也类似的估算：

7B 的模型（如Llama 2 7B），参数是16位（FP16 or BF16）则参数需要消耗约 14 GB 显存
Token 数为4096的推理（decoder），则需要约 2 GB KV Cache

从上述粗略的预估可以看得出来，高效使用显存资源对于 LLM 推理来说至关重要。所以，各推理框架则会通过各种方法尝试去优化“KV Cache”以降低显存使用。这些方法包括“量化”（Quantization）、MQA/MGA 等。

5. Multi-Query Attention/Group-Query Attention

可以看到，无论是在模型参数加载的时候，还是推理 KV Cache 阶段，都需要大量的显存。关于 MQA 和 GQA 的经典论文是：GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints。

5.1 关于MQA与GQA

Multi-Query Attention 则尝试通过减少 $W^K \, W^V $ 参数的数量来减少上述显存，从而增加推理速度与并发能力。参考下图，可以看到在每一个 Layer 中，所有的 Head 共享一组 $W^K \, W^V $ 参数，那么这两个相关参数就减少到了原来的 $\frac{1}{h} $。

更进一步的，为了减少上述方法（MQA）对于模型效果的影响，另一个优化是 Group-Query Attention。即如下图，一组 Heads 共享一组 $W^K \, W^V $ 。可以依照分组的大小，以平衡模型效果与资源使用。如果一个 Head 一组 $W^K \, W^V $ 则退化到普通的 Multi-Head Attention；如果所有 Heads 分到一组，则退化到普通的 Multi-Query Attention。

5.2 模型训练 Uptraining

此外，比较关键的，论文提出了一些关于 GQA 架构的训练优化。

例如，从一个 MHA 架构开始训练，然后从某个 checkpoint 开始，将MHA模型改成GQA模型，在初始化分组参数时，则使用原 MHA 模型中参数去求一个均值的方式初始化GQA中对应的 $W^K \, W^V $ 。然后继续使用语料库对于该新模型训练。

论文指出，这时候只需要使用非常少的计算资源就可以训练处效果还不错的GQA新模型。新的GQA模型，则可以使用更少的显存资源，有更好的并发吞吐能力，同时也达到还比较好的效果。

参考

Mastering LLM Techniques: Inference Optimization@2023-11

了解 CLIP 模型

1. 实验设计

2. 实验数据与结果分析

2.1 可视化结果

3. 其他

线性代数回顾(二)

1. 向量空间

1.1 基

1.2 线性相关与线性无关

1.3 一些重要的结论

2. 线性变换与矩阵

2.1 概述

2.2 线性变换

2.3 欧氏空间的线性变换与矩阵

3. 特征向量与特征值

3.1 为什么

3.2 关于对特征向量的理解

4. 最后

2025 云数据库年度总结

1. 数据库与 AI

2. 云数据库或厂商的重要发布

3. 其他

4. 重要的收购与融资

5. 开源与商业

6. 相关阅读

参考链接

线性代数回顾

1. 为什么要重温线性代数

2. 线性代数讨论的主要问题

3. \(n \) 元一次方程组的解

4. 矩阵基础与部分结论

5. 向量空间

5.1 基

5.2 线性相关与线性无关

5.3 一些重要的结论

6. 线性变换与矩阵

6.1 概述

6.2 线性变换

6.3 欧氏空间的线性变换与矩阵

7. 特征向量与特征值

7.1 为什么

7.2 关于对特征向量的理解

8. 一些补充说明

9. 再看看前面的问题

通史阅读：魏晋南北朝

1. 混乱、短暂的西晋

2. 北方诸族（五胡十六国）

2.1 后赵

2.2 群雄并立

2.3 拓跋氏统一北方

3. 摇摇欲坠的东晋

4. 东晋北伐的困局

4.1 闻鸡起舞的祖逖

4.2 北伐的困局

4.3 桓温

4.4 刘裕

5. 前秦与淝水之战

6. 北朝

7. 时代诗文

7.1 举目见日 不见长安

7.2 北朝名歌 敕勒歌

7.3 花木兰

7.4 桃花源记

7.5 乌衣巷