奇异值分解–深度学习的数学基础

在 Attention 机制（或 Multi-Head Attention ）中我们会看到各种对向量空间的变换操作，那么如何理解这些线性变换呢？线性变换的本质是什么？