奇异值分解–深度学习的数学基础

在 Attention 机制(或 Multi-Head Attention )中我们会看到各种对向量空间的变换操作,那么如何理解这些线性变换呢?线性变换的本质是什么?