代码细节

some code staff

二元函数的偏导数、方向导数、梯度

2024-10-07

·

admin
梯度下降法（或者其改进算法）是机器学习的基础算法之一。在了解梯度下降算法的过程中，会经常看到一句话：“梯度是函数在某一点变化率最大的方向”。本文从较为严格数学证明的角度说明为什么是这样。理解这个证明过程，可以很好的理解梯度下降算法，及其优化算法或者优化方向。

本文主要考虑二元函数场景，即 $z=f(x,y) $。原因是一元函数场景过于简单，不具有代表性，另外，二元场景向多元场景推广也还比较好理解。

目录
1. 基本概念
1.1 偏导数
1.2 梯度向量
1.3 方向导数
2. 直观理解方向导数
3. 方向导数的计算与证明
4. 关于上述证明
5. 向量形式化表达
6. 多维场景扩展
7. 说明：直觉
8. 所以，最后

1. 基本概念

1.1 偏导数

偏导数的定义比较好理解，即固定一个变量（当做常数），对另一个变量求导，记作：

$$ \frac{\partial z}{\partial x} \; , \; \frac{\partial z}{\partial y} $$

1.2 梯度向量

由各个偏导数组成的向量，就叫梯度向量，通常记作：$ \nabla $，有：

$$ \nabla f = (\frac{\partial z}{\partial x} , \frac{\partial z}{\partial y} ) $$

多元/多维场景，则常记作：

$$ \nabla f = (\frac{\partial f}{\partial x_1} , \frac{\partial f}{\partial x_2} … , \frac{\partial f}{\partial x_n} ) $$

1.3 方向导数

多元函数没有简单的“导数”的概念。但为了研究多元函数在某点的变化率，我们可以考虑“方向导数”。

具体的，考虑函数 $ z = f(x,y) $，该函数定义域为$ \mathbb{R}^2 $，其方向向量是 $$ \{ u,v | u^2 +v^2 = 1 \} $$，取其中的一个方向 $ l = (u_0,v_0) $，并假设该方向与$ x $轴正方向夹角为$ \theta $。

那么，函数$ z = f(x,y) $在点$ (x_0,y_0) $处，在方向 $ l = (u_0,v_0) $的导数记作

$$ \frac{\partial z}{\partial l} |_{(x_0,y_0)} $$

2. 直观理解方向导数

图1是一个非常清晰的关于方向导数的图例。绿色曲面即为 $ z = f(x,y) $，在点$ A^\prime $上考虑方向为$ \vec{h}$的方向导数。过点$ A^\prime $与方向$ \vec{h}$，与$ z $轴平行，存在一个平面，即图1中的半透明的平面，该平面与 $ z = f(x,y) $相交与一条曲线，即图1中的黄色曲线。

那么，该方向导数，即为在该黄色曲线上，$ A^\prime $位置的导数。这就是关于方向导数的直观理解。

所以，偏导数$ \frac{\partial z}{\partial x} \; , \; \frac{\partial z}{\partial y} $可以理解为在$ (1,0) $和$ (0,1) $这两个方向上的方向导数。

图1：来自Wikipedia: Directional derivative

与一般的导数定义类似的，可以定义方向导数：

$$ \frac{\partial z}{\partial l} |_{(x_0,y_0)} = \lim\limits_{P \to P_0} = \frac{f(P) – f(P_0)}{||P-P_0||} = \lim\limits_{\rho \to 0} \frac{\Delta z}{ \rho } $$

图2：$ P $ 点在$ (u,v) $方向逼近$ P_0 $

可以到如下结论（详细证明参考后续小节“方向导数的计算与证明”），如果方向$ l = (u_0,v_0) $与 $ x $轴的夹角是$ \theta $，那么$ z = f(x,y) $在点$ (x_0,y_0) $处，在方向 $ l = (u_0,v_0) $的导数取值如下：

$$ \frac{\partial z}{\partial l} |_{(x_0,y_0)} = \frac{\partial z}{\partial x} |_{(x_0,y_0)} cos(\theta) + \frac{\partial z}{\partial y} |_{(x_0,y_0)} sin(\theta) \tag{1} $$

根据柯西不等式，我们有如下结论：

$$ \frac{\partial z}{\partial l} |_{(x_0,y_0)} = \frac{\partial z}{\partial x} |_{(x_0,y_0)} cos(\theta) + \frac{\partial z}{\partial y} |_{(x_0,y_0)} sin(\theta)
\\
\le \sqrt{ ((\frac{\partial z}{\partial x} |_{(x_0,y_0)})^2 + (\frac{\partial z}{\partial y} |_{(x_0,y_0)})^2)(sin^2(\theta)+cos^2(\theta)) }
\\
= \sqrt{ (\frac{\partial z}{\partial x} |_{(x_0,y_0)})^2 + (\frac{\partial z}{\partial y} |_{(x_0,y_0)})^2 }
$$

上面表示的极值 $ \sqrt{ (\frac{\partial z}{\partial x} |_{(x_0,y_0)})^2 + (\frac{\partial z}{\partial y} |_{(x_0,y_0)})^2 } $ 正是偏导数向量的“范数”（长度），根据柯西不等式取最大值的条件也有：

$$
\frac{cos(\theta)}{\frac{\partial z}{\partial x}} = \frac{sin(\theta)}{\frac{\partial z}{\partial y}}
\\
tan(\theta) = \frac{\frac{\partial z}{\partial y} } { \frac{\partial z}{\partial x} } = \frac{\Delta y}{\Delta x}
$$

所以，即，即当方向恰好为偏导数向量时，方向导数取最大值。也就是，我们经常会说的，会看到的，“偏导数向量是所有方向中最为陡峭的方向”或者说“梯度是函数在某一点变化率最大的方向”。

3. 方向导数的计算与证明

在前面，我们是直接给出了如下的结论的：

$$ \frac{\partial z}{\partial l} |_{(x_0,y_0)} = \frac{\partial z}{\partial x} |_{(x_0,y_0)} sin(\theta) + \frac{\partial z}{\partial y} |_{(x_0,y_0)} cos(\theta)$$

这个结论的获得，是需要有一些比较复杂的计算或者说证明的。这里，其主要证明步骤/方法之一，如下：

$ \frac{\partial z}{\partial l} |_{(x_0,y_0)} = \lim\limits_{P->P_0}\frac{f(P)-f(P_0)}{|P-P_0|} = \lim\limits_{P->P_0}\frac{f(x_0+\Delta{x},y_0+\Delta{y})-f(x_0,y_0)}{\sqrt{\Delta{x}^2+\Delta{y}^2}}
$

由拉格朗日中值定理：存在$ \alpha \; \beta $，使得下式成立，且 $ 0 \le \alpha \le 1 \; and \; 0 \le \beta \le 1 $：

$
f(x_0+\Delta{x},y_0+\Delta{y})-f(x_0,y_0)
\\
= [f(x_0+\Delta{x},y_0+\Delta{y}) – f(x_0,y_0+\Delta{y})] + [f(x_0,y_0+\Delta{y}) -f(x_0,y_0)]
\\
= f_x'(x_0 + \alpha\Delta{x} ,y_0+\Delta{y})\Delta{x} + f_y'(x_0, y_0 + \beta\Delta{y} )\Delta{y}
$

容易有，这几个条件是等价的： $ P \to P_0 $、$ \Delta{x} \to 0 \, and \, \Delta{y} \to 0 $ 、$ \sqrt{\Delta{x}^2+\Delta{y}^2} \to 0 $

考虑$ \frac{\partial z}{\partial x} $在$ (x_0,y_0)$处连续（这是一个条件），则有： $$ \lim\limits_{\Delta{x} \to 0 \\ \Delta {y} \to 0 }f_x'(x_0 + \alpha\Delta{x} ,y_0+\Delta{y}) = f_x'(x_0,y_0) $$

故：

$$
\begin{align}
\frac{\partial z}{\partial l} |_{(x_0,y_0)} & = \lim\limits_{P->P_0}\frac{f(P)-f(P_0)}{|P-P_0|}
\\
& = \lim\limits_{P->P_0}\frac{f(x_0+\Delta{x},y_0+\Delta{y})-f(x_0,y_0)}{\sqrt{\Delta{x}^2+\Delta{y}^2}}
\\
& =\lim\limits_{P->P_0}\frac{f_x'(x_0+\alpha\Delta{x},y_0+\Delta{y})\Delta{x} + f_y'(x_0,y_0+\Delta{y})\Delta{y}}{\sqrt{\Delta{x}^2+\Delta{y}^2}}
\\
& =\lim\limits_{P->P_0}\frac{f_x'(x_0+\alpha\Delta{x},y_0+\Delta{y})\Delta{x}}{\sqrt{\Delta{x}^2+\Delta{y}^2}} + \frac{f_y'(x_0,y_0+\Delta{y})\Delta{y}}{\sqrt{\Delta{x}^2+\Delta{y}^2}}
\end{align}
$$

根据上面的图2，容易有：

$$
\frac{\Delta{x}}{\sqrt{\Delta{x}^2+\Delta{y}^2}} = cos(\theta) \quad \frac{\Delta{y}}{\sqrt{\Delta{x}^2+\Delta{y}^2}} = sin(\theta)
$$

所以：

$ =\lim\limits_{P->P_0}\frac{f_x'(x_0+\alpha\Delta{x},y_0+\Delta{y})\Delta{x}}{\sqrt{\Delta{x}^2+\Delta{y}^2}} + \frac{f_y'(x_0,y_0+\Delta{y})\Delta{y}}{\sqrt{\Delta{x}^2+\Delta{y}^2}}
\\
=f_x'(x_0,y_0)cos(\theta) + f_y'(x_0,y_0)sin(\theta)
\\
$

好了，这就证明完成了。

4. 关于上述证明

上述证明，在一般的《数学分析》教程的“多元函数微分”相关章节都会有，或者会有类似的问题证明。过程还是比较巧妙的，先是“无中生有”新增了一个项（$ f(x_0,y_0+\Delta{y}) $），分别构造了关于 $ x $和$ y $的偏导数，然后使用了“中值定理”，将差值变成，导数和微分变量的积（准确的说，还要加上一个关于$ \rho $的高阶无穷小）。

5. 向量形式化表达

使用向量形式化表达，看起来会简洁很多。对于方向向量（这也是一个单位向量） $ \mathbf{l} = (u,v)$，函数$ f $的偏导数向量记为$ \nabla f = (\frac{\partial z}{\partial x} , \frac{\partial z}{\partial y} ) $ ，那么方向导数为 $ D_{\mathbf{l}}f(P_0) = \nabla f \cdot \mathbf{l} $ ，这与上面表达式的意义是相同的。

根据点击的性质，我们有：

$ D_{\mathbf{l}}f(P_0) = \nabla f \cdot \mathbf{l} = ||\nabla f|| ||\mathbf{l} || cos\theta = ||\nabla f|| cos\theta $

从这里，更容易看出，方向向量与梯度向量相同时，方向导数取最大值，最大值即为梯度向量的模。

6. 多维场景扩展

在很多的材料中，在前面的表达式中，经常会看到的是 $ cos(\alpha) \; cos(\beta) $，而不是本文中的 $ sin(\theta) \; cos(\theta) $。这里的 $ \alpha $是方向向量与x轴正方向的夹角， $ \beta $是方向向量与y轴正方向的夹角；在定义域 $ \mathbb{R}^2 $上有：$ \alpha + \beta = 90^{\circ} $，即有 $ cos^2\alpha + cos^2\beta = 1 $。

这种写法有着更好的扩展性，当在更多元的情况下，例如三元场景下，即 $ z = f(x_1,x_2,x_3) $，方向向量与 x，y，z轴的夹角分别是：$ \alpha \; \beta \; \gamma $，则有： $ cos^2\alpha + cos^2\beta + cos^2 \gamma = 1 $。

任意维度，也有类似的结论，并且应用柯西不等式时，上述结论也是类似的。

7. 说明：直觉

本文内容需要或者可以建立如下的“直觉”：

在一维空间（即$ \mathbb{R}$上的函数，在某一点上的一阶导数的符号（正/负），可以代表在该方向上，函数的趋势是增长还是下降，“正号”，则是增长；“负号”，则是下降。

在一维空间（即$ \mathbb{R}$上的函数，在某一点上的一阶导数的绝对值大小，即为其“陡峭程度”（更多的时候理解为，变化率大小）

上述两个结论，基本上认为是显然的。下面扩展到多维场景，也几乎是显然的：

在高维空间/多维变量（即$ \mathbb{R}^n$时，在某一点的任意方向上，都有导数，称为方向导数，该方向导数的符号（正/负），可以代表在该方向上，函数的趋势是增长还是下降，“正号”，则是增长；“负号”，则是下降。

在高维空间/多维变量（即$ \mathbb{R}^n$时，在某一点的任意方向上，都有导数，该导数的绝对值大小，即为其“陡峭程度”（更多的时候理解为，变化率大小）

更进一步的，也就是本文中的一个结论：高维空间/多维变量（即$ \mathbb{R}^n$时，函数的所有的方向导数，在偏导数向量方向上，取值最大，即是最为“陡峭”的方向。

8. 所以，最后

所以，这就是为什么梯度下降算法中，总是倾向于选择偏导数向量方向进行下一次迭代。

在本科毕业后，最后留了几本书：《数学分析》（上下册）、概率论，一直到研究生毕业、再到工作都一直带着，还从北京邮寄到了杭州。本想只是做个纪念的，没想到竟然还能用上…
十年磨一剑，阿里巴巴企业级数据管理平台：iDB

2017-09-04

·

admin

本文前段时间写的介绍云端企业数据管理产品DMS的“软”文，文章首发在阿里巴巴数据技术公众号，扫描下面的二维码关注：

摘要：在安全稳定的前提下，为了解决DBA的服务效率问题，十年前我们开始iDB的研发，完成手工变更的在线化，成为了DBA能力产品化的载体。在最新的4.0版本中，iDB面向云时代，是业界首创的数据库devops解决方案，形成了云时代企业数据管理的最佳实践。

一、为了效率与安全而生

在阿里巴巴，数据库团队是数据的守护者，保障着数据库的安全、稳定、高效的运行。在早期，DBA除了负责数据库的基础运维，对于研发流程中的数据库变更也都由DBA负责，包括线上库表设计、结构变更发布、数据变更、SQL审核、性能优化、容量评估等等。这种精细的业务支持方式，企业早期发展中，可以有效的保障数据库的稳定与安全，支撑业务的快速发展。

业务持续增长，很快我们遇到了两个问题：(1) DBA繁重的工作量可能会成为业务研发瓶颈；(2) 大量的重复工作会限制DBA的成长。企业快速发展中，会不断的有新业务上线，成熟的业务也会快速迭代创新，伴随会有大量的数据库相关的变更和服务，如果所有这些都由DBA来处理，那么业务繁多DBA可能成为瓶颈，另外，DBA也会陷入各种“做不完”的日常工作，很难进一步成长。

既要有DBA的安全把控能力，又希望高效支撑大量业务的发展，阿里数据库团队研发了自己的企业数据库管理平台：iDB。企业内部的研发、测试等人员，可以使用iDB完成大部分数据库相关的操作，包括数据查询、数据变更、结构变更、实例申请等等。另外，iDB产品中还继承了大量DBA的经验，比如判断哪些DDL会锁表、InnoDB表结构设计是需要主要哪些问题等等。 (more…)
index merge的补充说明

2013-03-13

·

orczhou
在除了前面介绍的常见index merge的案例(Index Merge Union Access Algorithm)之外，还有一类很少见也比较特殊的index merge，多个索引扫描后进行交集，即 Index Merge Intersection。这类执行计划比较少见(因为MySQL需要ROR的原因)，但是，在合适的场景使用，效率仍然会有很大的提示，本文将看看MySQL优化器如何评估和选择此类执行计划。MySQL手册对此只是三言两语简单介绍了一下，这里做个较为详细的说明。

这类执行计划完整名称应该是：The Index Merge Intersection Access Algorithm，下文简称Intersection。

1. 为什么需要考虑Intersection

考虑如下查询:

SELECT COUNT(*) FROM t1 WHERE key1=1 AND key2=1;

优化器可以考虑使用索引key1或者key2进行REF/Range访问，如果使用key1，那么key2=1则作为过滤条件。另外，优化器还会考虑使用Intersection，即同时使用索引key1和key2。这样做可能的好处是：

(a) 如果两次索引扫描后做交集，如果最后ROWID很少，则回表次数大大减少

(b) 如果扫描这两个索引能是覆盖扫描的话，则无需回表 (more…)
MySQL优化器：index merge介绍

2013-01-29

·

orczhou

在MySQL官方手册上，关于index merge的介绍非常非常少。甚至还有不少误导的地方，这次把5.1版本关于此类优化处理的代码细看了一遍，以案例的方式介绍了各种实用index merge访问类型的SQL。后续的还会继续介绍index merge实现的主要数据结构，以及成本评估。

1. 什么是index merge

MySQL优化器如果发现可以使用多个索引查找后的交集/并集定位数据，那么MySQL优化器就会尝试index merge这类访问方式。index merge主要分为两大类，多个索引交集访问(intersections)，多个索引并集访问，当然这两类还可以组合出更为复杂的方式，例如多个交集后做并集。

1.1 index merge的限制：range优先

MySQL在5.6.7之前，使用index merge有一个重要的前提条件：没有range可以使用。这个限制降低了MySQL index merge可以使用的场景。理想状态是同时评估成本后然后做出选择。因为这个限制，就有了下面这个已知的bad case(参考)：

SELECT * FROM t1 WHERE (goodkey1 < 10 OR goodkey2 < 20) AND badkey < 30;

优化器可以选择使用goodkey1和goodkey2做index merge，也可以使用badkey做range。因为上面的原则，无论goodkey1和goodkey2的选择度如何，MySQL都只会考虑range，而不会使用index merge的访问方式。这是一个悲剧…（5.6.7版本针对此有修复) (more…)
MySQL源码：索引相关的数据结构(后篇)

2012-11-23

·

orczhou

前篇介绍了MySQL存储索引信息的基本数据结构。本篇将延续下去，介绍MySQL如何找到可以使用的索引，以及期间需要使用的主要数据结构。

谁适合阅读: 本文不打算从High Level来介绍MySQL索引及其使用，相反是从MySQL源码对应的数据结构开始介绍。如果你了解MySQL索引的基本原理，还打算继续从源码的角度解决一些索引使用的问题，那么你适合参考本文，否则，打住，真的很枯燥:(。在可见的未来，作者还将介绍Range优化相关的数据结构等。

0. 概述

本文介绍MySQL如何发现WHERE条件中的等值表达式，并通过分析这些等值表达式，找到可以使用的索引。在这个过程中，MySQL将递归的访问所有WHERE条件”谓词”，并将等值表达式都存储到KEY_FIELD对象的数组中。

然后遍历该KEY_FIELD数组，并同时对比所有索引列，找到哪些字段是在索引列中出现，这些字段则可能可以使用索引，MySQL将所有这些字段都存储在对象KEYUSE数组中。

最后，对KEYUSE进行处理，包括排序、删除无法使用的索引列。这时KEYUSE数组就是所有可以使用REF的索引列了。 (more…)
MySQL源码：索引相关的数据结构(前篇)

2012-11-20

·

orczhou
很枯燥的，配首背景音乐吧：

本文将尝试介绍MySQL索引存储相关的数据结构。程序=数据结构+算法，了解数据结构，然后就可以进一步了解MySQL源码中如何使用索引，如何选择自己的执行计划。

1. MySQL如何描述某个数据表的索引

MySQL使用TABLE对象来描述一个数据表，那么数据表的索引是如何描述，索引的统计信息又是如何存储的呢? 例如我们有如下数据表：

CREATE TABLE `users` ( `id` int(11) NOT NULL, `nick` varchar(32) DEFAULT NULL, `reg_date` datetime DEFAULT NULL, PRIMARY KEY (`id`), KEY `IND_NICK` (`nick`), KEY `IND_REGDATE` (`reg_date`) )

该表有索引，PRIMARY KEY、IND_NICK、IND_REGDATE，我们来看看MySQL内部是如何存储这三个索引，以及如何使用这些索引的统计信息的。下图，描述了存储一个数据表索引的主要结构：

(more…)