MySQL – orczhou.com

使用MySQL自身复制来恢复binlog

orczhou — Mon, 25 Nov 2013 14:47:36 +0000

如果需要恢复的二进制日志较多，较复杂，强烈建议使用MySQL自身复制来恢复binlog，而不要使用mysqlbinlog。

在MySQL手册中一直是推荐使用mysqlbinlog工具来实现指定时间点的数据恢复，事实上，这是一个经常”让人郁闷”的办法。更好的办法是，使用MySQL内部复制线程中的SQL Thread来做恢复。

这个idea来自Lazydba同学；在Google稍作搜索，在Xaprb上Baron Schwartz也很早提到了使用类似的方法来恢复binlog，在那篇讨论中，还可以看到Jeremy Cole也提到：使用MySQL手册中推荐的方法是困难重重的，而且mysqlbinlog这个办法从逻辑上来说也是一个错误–因为这样MySQL不得不在两个不同的地方实现一套相同的逻辑，最终难免会出错。使用mysqlbinlog来恢复，你可能会需要以下“让人郁闷”的问题：

(*) Max_allowed_packet问题
(*) 恼人的Blob/Binary/text字段问题
(*) 特殊字符的转义问题
(*) 没有"断点恢复"：执行出错后，没有足够的报错，也很难从失败的地方继续恢复

1. 如何操作

本文不打算写一个step by step的文档，只介绍主要的思路和粗略的操作步骤。

1.1 将binlog作为relay log来执行

优点：实施简单；缺点：需要关闭一次数据库(不确定不关闭数据库行不行)；

思路：直接将要恢复的binlog拷贝到relay log目录，并修改slave-info相关的文件，让MySQL把binlog当做relay log来执行

简单的操作步骤：

* 关闭当前实例
* 将binlog拷贝到对应的relay log目录(datadir或者relay-log参数指定的目录)
* 打开relay-log-info-file参数指定的relay-log.info文件(默认是datadir目录下的relay-log.info文件)，修改文件前面两行。
这两行的意义分别是：当前执行的relay log文件；当前执行到relay log文件的位置(position)
* 打开relay-log-index文件(由参数--relay-log-index，默认是数据目录下的host_name-relay-bin.index)将需要恢复的binlog文件全路径列表存在该文件中
* 启动数据库，并start slave io_thread

1.2 从专门构建的binlog server上拉binlog

这个方法，无需启动数据库，但是需要重新启动一个全新的实例，将binlog拷贝到该实例中，这里称这个实例为binlog server。然后把需要恢复的实例复制指向这个binlog server。这里需要做的是，将日志拷贝到binlog server对应目录下，并修改对应的master-info文件，使得备库能够dump到这些binlog文件。

2. 其他需要注意的事项

* 配置文件中建议加上skip-slave-start，以免在不需要时候slave线程自己开始执行了

* start slave的时候，可以通过start slave until的方式，控制slave执行到的位点

* slave执行的其实位点，则通过relay-log.info或者change master to来指定

Good Luck.

如何从MySQL/InnoDB数据文件中的恢复数据

orczhou — Mon, 08 Jul 2013 13:09:07 +0000

在上上周给下厨房做过一次数据恢复(故障回顾：故障发生的技术总结致歉信)，恢复使用了开源工具Percona Data Recovery Tool for InnoDB(后面简称PDRTI)，这里分享一下期间的注意事项，和遇到MySQL数据丢失的一些应对。

本文主要介绍在使用Percona Data Recovery Tool for InnoDB时候的一些注意事项，并不包括具体的step by step的使用步骤，使用文档可以参考：Reference Manual and Documentation。

1. 简述恢复原理

因为文档中较为详细的描述，这里只简单说明。所有InnoDB的数据都是索引的方式组织的，而且所有的数据都是存储在16KB的数据块中。恢复的过程分几步，分解所有数据文件为单个16KB大小的页面，根据每个页面的标记的数据起点开始尝试匹配，如果与给定表定义的size合适，认为匹配成功，则输出记录。

2. 并行的恢复

数据恢复通常是争分夺秒的，PDRTI工具本身是一个基础工具，如果使用该工具做做串行恢复，时间会非常长，通过简单的shell脚本可以让constraints_parser脚本并行工作，这样可以大大缩短数据的恢复时间。根据实际经验，机器稍微好点，实际恢复时间可以缩短到串行的二十分之一。也就是说，原来需要40小时，通过并行可能2个小时就可以了。

以下是两个并行恢复的脚本，供参考：

#!/bin/bash
ws=/u01/recovery
pagedir=/u01/recovery/pages-1372436970/FIL_PAGE_INDEX
logdir=/u01/recovery/log
rectool=/u01/recovery/percona-data-recovery-tool-for-innodb-0.5/constraints_parser
cd `dirname $rectool`
count=0
page_count=353894
page_done=0
startdate=`date +%s`
for d1 in `ls $pagedir`
do
  count=$(($count+1))
  echo "in page $d2 at dir $d1" > $logdir/$count.log
  thedate=`date +%s`
  echo "$page_done / $page_count at $thedate from $startdate"
  total=`ls -l $pagedir/$d1/|wc -l`
  page_done=$(($page_done+$total))
  threads=`ps axu|grep parser_jobs|grep -v grep|wc -l`
  echo $threads
  while [ $threads -gt 48 ];
  do
    sleep 1
    threads=`ps axu|grep parser_jobs|grep -v grep|wc -l`
  done
  $ws/parser_jobs.sh $pagedir/$d1 > $ws/job.log 2>&1 &
done

#!/bin/bash
pagedir=/u01/recovery/pages-1372436970/FIL_PAGE_INDEX
logdir=/u01/recovery/log
rectool=/u01/recovery/percona-data-recovery-tool-for-innodb-0.5/constraints_parser
logfile="$logdir/`basename $1`.log"
echo "$1" > $logfile
if [ -d $1 ];then
  for d2 in `ls $1`
  do
    $rectool -5 -f $1/$d2 >> $logfile 2>/dev/null
  done
fi

3. 从索引中恢复

如果知道数据表的索引结构，如果数据部分损坏，但是索引部分完整，可以通过这个办法提取出来更多的字段信息。

4. 紧急情况下的问题处理

这次下厨房的技术总结中提到，”第一时间停止MySQL防止硬盘继续写入这个应急措施是错误的”，正常如果进程没有被关闭，进程所打开的文件是不会被覆盖的，可以通过从/proc文件系统拷贝的方式恢复出当前仍然打开的文件(参考：Recovering files from /Proc)。如果数据文件和日志文件都能够cp出来，那么有希望让MySQL自己启动，并根据事务日志恢复出当前一致的数据。

5. 最后，没有最后了

如果你需要数据恢复，可以联系我，提供免费的咨询，和收费的恢复服务。另外，如果需要专业服务可以联系沃趣科技，他们提供专业的、完整的数据库服务。

案例：MySQL优化器如何选择索引和JOIN顺序

orczhou — Mon, 08 Apr 2013 11:07:01 +0000

本文通过一个案例来看看MySQL优化器如何选择索引和JOIN顺序。表结构和数据准备参考本文最后部分”测试环境”。这里主要介绍MySQL优化器的主要执行流程，而不是介绍一个优化器的各个组件(这是另一个话题)。

我们知道，MySQL优化器只有两个自由度：顺序选择；单表访问方式；这里将详细剖析下面的SQL，看看MySQL优化器如何做出每一步的选择。

explain 
select * 
from 
  employee as A,department as B 
where 
      A.LastName = 'zhou' 
  and B.DepartmentID = A.DepartmentID 
  and B.DepartmentName = 'TBX';

1. 可能的选择

这里看到JOIN的顺序可以是A|B或者B|A，单表访问方式也有多种，对于A表可以选择：全表扫描和索引`IND_L_D`(A.LastName = ‘zhou’)或者`IND_DID`(B.DepartmentID = A.DepartmentID)。对于B也有三个选择：全表扫描、索引IND_D、IND_DN。

2. MySQL优化器如何做

2.1 概述

MySQL优化器主要工作包括以下几部分：Query Rewrite(包括Outer Join转换等)、const table detection、range analysis、JOIN optimization(顺序和访问方式选择)、plan refinement。这个案例从range analysis开始。

2.2 range analysis

这部分包括所有Range和index merge成本评估(参考1 参考2)。这里，等值表达式也是一个range，所以这里会评估其成本，计算出found records(表示对应的等值表达式，大概会选择出多少条记录)。

本案例中，range analysis会针对A表的条件A.LastName = ‘zhou’和B表的B.DepartmentName = ‘TBX’分别做分析。其中：

表A A.LastName = 'zhou' found records: 51
表B B.DepartmentName = 'TBX' found records: 1

这两个条件都不是range，但是这里计算的值仍然会存储，在后面的ref访问方式评估的时候使用。这里的值是根据records_in_range接口返回，而对于InnoDB每次调用这个函数都会进行一次索引页的采样，这是一个很消耗性能的操作，对于很多其他的关系数据库是使用”直方图”的统计数据来避免这次操作(相信MariaDB后续版本也将实现直方图统计信息)。

2.3 顺序和访问方式的选择：穷举

MySQL通过枚举所有的left-deep树(也可以说所有的left-deep树就是整个MySQL优化器的搜索空间)，来找到最优的执行顺序和访问方式。

2.3.1 排序

优化器先根据found records对所有表进行一个排序，记录少的放前面。所以，这里顺序是B、A。

2.3.2 greedy search

当表的数量较少(少于search_depth，默认是63)的时候，这里直接蜕化为一个穷举搜索，优化器将穷举所有的left-deep树找到最优的执行计划。另外，优化器为了减少因为搜索空间庞大带来巨大的穷举消耗，所以使用了一个”偷懒”的参数prune_level(默认打开)，具体如何”偷懒”，可以参考JOIN顺序选择的复杂度。不过至少需要有三个表以上的关联才会有”偷懒”，所以本案例不适用。

2.3.3 穷举

JOIN的第一个表可以是：A或者B；如果第一个表选择了A，第二个表可以选择B；如果第一个表选择了B，第二个表可以选择A；

因为前面的排序，B表的found records更少，所以JOIN顺序穷举时的第一个表先选择B(这个是有讲究的)。

(*) 选择第一个JOIN的表为B
  (**) 确定B表的访问方式
    因为B表为第一个表，所以无法使用索引IND_D(B.DepartmentID = A.DepartmentID)，而只能使用IND_DN(B.DepartmentName = 'TBX')
      使用IND_DN索引的成本计算：1.2；其中IO成本为1。
      是否使用全表扫描：这里会比较使用索引的IO成本和全表扫描的IO成本，前者为1，后者为2；所以忽略全表扫描
    所以，B表的访问方式ref，使用索引IND_D

  (**) 从剩余的表中穷举选出第二个JOIN的表，这里剩余的表为：A
  (**) 将A表加入JOIN，并确定其访问方式
    可以使用的索引为：`IND_L_D`(A.LastName = 'zhou')或者`IND_DID`(B.DepartmentID = A.DepartmentID)
    依次计算使用索引IND_L_D、IND_DID的成本：
    (***) IND_L_D A.LastName = 'zhou'
          在range analysis阶段给出了A.LastName = 'zhou'对应的记录约为：51。
          所以，计算IO成本为：51；ref做IO成本计算时会做一次修正，将其修正为worst_seek(参考)
          修正后IO成本为：15，总成本为：25.2
    (***) IND_DID B.DepartmentID = A.DepartmentID
          这是一个需要知道前面表的结果，才能计算的成本。所以range analysis是无法分析的
          这里，我们看到前面表为B，found_record是1，所以A.DepartmentID只需要对应一条记录就可以了
          因为具体取值不知道，也没有直方图，所以只能简单依据索引统计信息来计算：
            索引IND_DID的列A.DepartmentID的Cardinality为1349，全表记录数为1349
            所以，每一个值对应一条记录，而前面表B只有一条记录，所以这里的found_record计算为1*1 = 1
            所以IO成本为：1，总成本为1.2
    (***) IND_L_D成本为25.2；IND_DID成本为1.2，所以选择后者为当前表的访问方式
  (**) 确定A使用索引IND_DID，访问方式为ref
  (**) JOIN顺序B|A，总成本为：1.2+1.2 = 2.4

(*) 选择第一个JOIN的表为A
  (**) 确定A表的访问方式
       因为A表是第一个表，所以无法使用索引`IND_DID`(B.DepartmentID = A.DepartmentID)
       那么只能使用索引`IND_L_D`(A.LastName = 'zhou')
         使用IND_L_D索引的成本计算，总成本为25.2；参考前面计算；
  (**) 这里访问A表的成本已经是25.2，比之前的最优成本2.4要大，忽略该顺序
       所以，这次穷举搜索到此结束

把上面的过程简化如下：

(*) 选择第一个JOIN的表为B
  (**) 确定B表的访问方式
  (**) 从剩余的表中穷举选出第二个JOIN的表，这里剩余的表为：A
  (**) 将A表加入JOIN，并确定其访问方式
    (***) IND_L_D A.LastName = 'zhou'
    (***) IND_DID B.DepartmentID = A.DepartmentID
    (***) IND_L_D成本为25.2；IND_DID成本为1.2，所以选择后者为当前表的访问方式
  (**) 确定A使用索引IND_DID，访问方式为ref
  (**) JOIN顺序B|A，总成本为：1.2+1.2 = 2.4

(*) 选择第一个JOIN的表为A
  (**) 确定A表的访问方式
  (**) 这里访问A表的成本已经是25.2，比之前的最优成本2.4要大，忽略该顺序

至此，MySQL优化器就确定了所有表的最佳JOIN顺序和访问方式。

3. 测试环境

MySQL: 5.1.48-debug-log innodb plugin 1.0.9

CREATE TABLE `department` (
  `DepartmentID` int(11) DEFAULT NULL,
  `DepartmentName` varchar(20) DEFAULT NULL,
  KEY `IND_D` (`DepartmentID`),
  KEY `IND_DN` (`DepartmentName`)
) ENGINE=InnoDB DEFAULT CHARSET=gbk;

CREATE TABLE `employee` (
  `LastName` varchar(20) DEFAULT NULL,
  `DepartmentID` int(11) DEFAULT NULL,
  KEY `IND_L_D` (`LastName`),
  KEY `IND_DID` (`DepartmentID`)
) ENGINE=InnoDB DEFAULT CHARSET=gbk;

for i in `seq 1 1000` ; do mysql -vvv -uroot test -e 'insert into department values (600000*rand(),repeat(char(65+rand()*58),rand()*20))'; done
for i in `seq 1 1000` ; do mysql -vvv -uroot test -e 'insert into employee values (repeat(char(65+rand()*58),rand()*20),600000*rand())'; done



for i in `seq 1 50` ; do mysql -vvv -uroot test -e 'insert into employee values ("zhou",27760)'; done
for i in `seq 1 200` ; do mysql -vvv -uroot test -e 'insert into employee values (repeat(char(65+rand()*58),rand()*20),27760)'; done
for i in `seq 1 1` ; do mysql -vvv -uroot test -e 'insert into department values (27760,"TBX")'; done

show index from employee;
+----------+------------+----------+--------------+--------------+-----------+-------------+----------+--------+------+------------+---------+
| Table    | Non_unique | Key_name | Seq_in_index | Column_name  | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment |
+----------+------------+----------+--------------+--------------+-----------+-------------+----------+--------+------+------------+---------+
| employee |          1 | IND_L_D  |            1 | LastName     | A         |        1349 |     NULL | NULL   | YES  | BTREE      |         |
| employee |          1 | IND_DID  |            1 | DepartmentID | A         |        1349 |     NULL | NULL   | YES  | BTREE      |         |
+----------+------------+----------+--------------+--------------+-----------+-------------+----------+--------+------+------------+---------+

show index from department;
+------------+------------+----------+--------------+----------------+-----------+-------------+----------+--------+------+------------+---------+
| Table      | Non_unique | Key_name | Seq_in_index | Column_name    | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment |
+------------+------------+----------+--------------+----------------+-----------+-------------+----------+--------+------+------------+---------+
| department |          1 | IND_D    |            1 | DepartmentID   | A         |        1001 |     NULL | NULL   | YES  | BTREE      |         |
| department |          1 | IND_DN   |            1 | DepartmentName | A         |        1001 |     NULL | NULL   | YES  | BTREE      |         |
+------------+------------+----------+--------------+----------------+-----------+-------------+----------+--------+------+------------+---------+

4. 构造一个Bad case

因为关联条件中MySQL使用索引统计信息做成本预估，所以数据分布不均匀的时候，就容易做出错误的判断。简单的我们构造下面的案例：

表和索引结构不变，按照下面的方式构造数据：


for i in `seq 1 10000` ; do mysql -uroot test -e 'insert into department values (600000*rand(),repeat(char(65+rand()*58),rand()*20))'; done
for i in `seq 1 10000` ; do mysql -uroot test -e 'insert into employee values (repeat(char(65+rand()*58),rand()*20),600000*rand())'; done

for i in `seq 1 1` ; do mysql -uroot test -e 'insert into employee values ("zhou",27760)'; done
for i in `seq 1 10` ; do mysql -uroot test -e 'insert into department values (27760,"TBX")'; done
for i in `seq 1 1000` ; do mysql -uroot test -e 'insert into department values (27760,repeat(char(65+rand()*58),rand()*20))';
done

explain 
select * 
from 
  employee as A,department as B 
where 
      A.LastName = 'zhou' 
  and B.DepartmentID = A.DepartmentID 
  and B.DepartmentName = 'TBX';
+----+-------------+-------+------+-----------------+---------+---------+---------------------+------+-------------+
| id | select_type | table | type | possible_keys   | key     | key_len | ref                 | rows | Extra       |
+----+-------------+-------+------+-----------------+---------+---------+---------------------+------+-------------+
|  1 | SIMPLE      | A     | ref  | IND_L_D,IND_DID | IND_L_D | 43      | const               |    1 | Using where |
|  1 | SIMPLE      | B     | ref  | IND_D,IND_DN    | IND_D   | 5       | test.A.DepartmentID |    1 | Using where |
+----+-------------+-------+------+-----------------+---------+---------+---------------------+------+-------------+

可以看到这里，MySQL执行计划对表department使用了索引IND_D，那么A表命中一条记录为(zhou,27760)；根据B.DepartmentID=27760将返回1010条记录，然后根据条件DepartmentName = ‘TBX’进行过滤。

这里可以看到如果B表选择索引IND_DN，效果要更好，因为DepartmentName = ‘TBX’仅仅返回10条记录，再根据条件A.DepartmentID=B.DepartmentID过滤之。

这个案例中因为数据量很小，性能还相差不大，但如果生产环境中数据是千万或者亿级别的时候性能就会差非常非常非常大。通过简单的Hint可以解决这个问题。

index merge的补充说明

orczhou — Wed, 13 Mar 2013 06:05:02 +0000

在除了前面介绍的常见index merge的案例(Index Merge Union Access Algorithm)之外，还有一类很少见也比较特殊的index merge，多个索引扫描后进行交集，即 Index Merge Intersection。这类执行计划比较少见(因为MySQL需要ROR的原因)，但是，在合适的场景使用，效率仍然会有很大的提示，本文将看看MySQL优化器如何评估和选择此类执行计划。MySQL手册对此只是三言两语简单介绍了一下，这里做个较为详细的说明。

这类执行计划完整名称应该是：The Index Merge Intersection Access Algorithm，下文简称Intersection。

1. 为什么需要考虑Intersection

考虑如下查询:

SELECT COUNT(*) FROM t1 WHERE key1=1 AND key2=1;

优化器可以考虑使用索引key1或者key2进行REF/Range访问，如果使用key1，那么key2=1则作为过滤条件。另外，优化器还会考虑使用Intersection，即同时使用索引key1和key2。这样做可能的好处是：

(a) 如果两次索引扫描后做交集，如果最后ROWID很少，则回表次数大大减少

(b) 如果扫描这两个索引能是覆盖扫描的话，则无需回表

对比ref/range访问方式，index merge需要额外多访问一个索引，ROWID需要做交集，所以需要额外的比较操作。优化器将各自计算ref/range和index merge的成本，然后选择成本较低作为最终的执行计划。

2. MySQL优化器的Intersection

前面描述了Intersection的两个好处，MySQL优化器先使用了一个较为复杂的算法来预估合并后ROWID数量；另外，如果发现有覆盖扫描，则无需回表，则成本会大大减少。

另外，因为index merge通常需要访问两个以上索引，成本通常不抵，MySQL选择Intersection的时候，加上了一个额外的要求：

(a) 只有ROR类型的索引使用才能作为Intersection执行计划的一部分(什么是ROR)

3. 优化器如何筛选Intersection使用的索引

3.1 算法说明

这里分了两个部分，先使用贪婪算法在所有的ROR索引中，组合出一组成本最小的做Intersection。如果这个“最小组合”不是覆盖索引，而且又存在覆盖索引，那么再做一次贪婪算法找到一个成本最小的覆盖查询，如果成本更小则选择之。

3.1.1 找到成本最小的ROR组合

这是一个贪婪算法，找到未必是全局最优的结果。这里简单描述一下算法(可以参考get_best_ror_intersect的注释和实现)：

初始：R是所有可用的ROR索引查询；S是空集；
R中的记录是按照需要扫描索引的大小排序(E(#records_matched) * key_record_length)
  S= first(R); R= R-first(S);
  min_cost= cost(S); min_scan= make_scan(S);
  while (R is not empty)
  {
    firstR= R - first(R);
    if (!selectivity(S + firstR < selectivity(S)))
      continue;
    S= S + first(R);
    if (cost(S) < min_cost)
    {min_cost= cost(S);min_scan= make_scan(S);}
  }
  return min_scan;

算法说明：每次从所有ROR中取出扫描成本最低的索引，判断加入该索引后成本是否会下降。如果成本下降，则将本ROR加入结果集；如果成本不会下降，那么忽略；

除此，MySQL还做了一个判断，如果新增ROR索引之后，会计算其选择度(selectivity)，只有当新增ROR索引会降低整体区分度的时候，这个索引才会被加入其中。这部分计算的目的，一方面是保证新增索引后一定会降低选择度，这通常都是满足的，只要新增的索引条件不是S集合的子集，一般都是满足的；另一方面，会顺便计算出新增索引后的选择度，这样就可以计算，多个索引合并后返回的记录数大约是多少。下面会单独介绍MySQL如何预估，两个条件交集命中的记录数。

3.1.2 计算两个索引交集命中的记录数

这个问题的抽象如下：有如下条件key1_p1=c1 and key1_p1=c2 and key2_p1=c3 and key2_p2=c4，现在已知key1_p1=c1 and key1_p1=c2的选择度是X，key2_p1=c3 and key2_p2=c4的选择度是Y，问，总体选择度是多少？

如果key1和key2是完全独立的，没有任何字段重复，那么按照均匀计算，交集后，总体选择度为X*Y，这部分是较为容易理解的。

如果key1和key2不是独立的，问题就较为复杂了，例如，key1_p1 = c1 和 key2_p1=c3 是两个一样的重复的条件，即索引key1和key2的某个字段相同。那么，如果按照上面的公式计算就非常不准确了。MySQL计算的办法，是逐个添加：

假设有集合A={key1_p1 = c1, key1_p1=c2}，对应的选择度记为P(A)，如果有索引条件：key2_p1=c3 and key2_p2=c4，MySQL先将key2_p1=c3加入集合A，并计算选择度；然后把key2_p2=c4加入集合A，并计算选择度。进一步抽象，有集合A，已知选择度为P(A)，现有索引条件key2对应的两个AND条件为\(b_1\)和\(b_2\)，现在演示如何逐个将\(b_1\)和\(b_2\)加入集合A并计算其选择度。

已知集合A，其选择度为P(A)；索引条件\(b_1\) and \(b_2\)；并记 \(B_1 = \{b_1\}，B_2 = \{b_2\}；\)；

记R为该表总记录数，\(R(b_1)\)表示条件\(b_1\)对应的记录数，可以通过函数records_in_range计算；

\(P(X|Y)\)表示Y条件发生时的条件概率，这里假设都是均匀分布，选择度就是概率。且有P(X|Y) = P(X)*P(Y|X)；

那么，将集合\(B_1\)合并到集合A之后，选择度计算为：

\[P(A\cap B_1) = P(A)*P(B_1|A) \]

(1) 如果A，\(B_1\)不独立，即对应条件\(b_1\)属于集合A，那么，\(P(B_1|A) = 1\)。那么选择度不变，仍然是\(P(A)\);

(2) 如果A，\(B_1\)独立，对应条件\(b_1\)不属于集合A，那么有

\[P(A\cap B_1) = P(A)*P(B_1) \]

\[P(B_1) = \frac{R(b_1)}{R}\]

\[P(A\cap B_1) = P(A)*\frac{R(b_1)}{R} \]

这时就可以把条件\(b_1\)并入集合A，对应的选择度如上式。继续，考虑把条件\(b_2\)加入合计A。

\[P((A \cap B_1) \cap B_2) = P(A)*\frac{R(b_1)}{R}*P(B_2|A \cap B_1) \]

同样的，如果\(B_2\)和\(A \cap B_1\)不独立，即\(B_2\)是\(\{x|x \in A 或者 x \in B_1 \}\)的子集，那么

\[P(B_2|A \cap B_1) = 1\]

\[P((A \cap B_1) \cap B_2) = P(A)*\frac{R(b_1)}{R} \]

如果两者独立，继续计算：

\[P(B_2|A \cap B_1) = P(B_2) = \frac{R(b_1 and b_2)}{R(b_1)} \]

\[P((A \cap B_1) \cap B_2) = P(A)*\frac{R(b_1)}{R} * \frac{R(b_1 and b_2)}{R(b_1)} = P(A)*\frac{R(b_1 and b_2)}{R} \]

MySQL将使用上面的方法计算多个条件合并的时候的选择度。 MySQL通过records_in_range来计算\(R(b_1 and b_2)\)。

MySQL在实现的时候，略有不同的地方是，为了尽可能少的避免records_in_range的调用次数，如果连续的多个条件都是同时独立或者同时都不独立，那么则会将这多个条件作为一个整理来计算。

3.1.3 找到成本最小覆盖索引组合

如果前面找到ROR组合不是覆盖查询，而且又存多个索引组合的覆盖索引的话，MySQL还会再做一次贪婪查找，尝试找到最优的覆盖索引组合，如果成本比之前的”最小成本”更小，则选择这组索引。

这部分实现参考函数get_best_covering_ror_intersect，没有特别需要说明的。

4. 成本的计算

如果上面计算好了选择度，Intersection的成本计算就很简单了。每次新增一个索引到index merge中的时候，先计算各个索引读取的成本(参考)，如果不是覆盖扫描则需要额外加上，根据ROWID取出记录的成本(参考)。

5. Intersection的案例

CREATE TABLE `tmp_index_merge` (
  `id` int(11) NOT NULL,
  `key1_part1` int(11) NOT NULL,
  `key1_part2` int(11) NOT NULL,
  `key2_part1` int(11) NOT NULL,
  `key2_part2` int(11) NOT NULL,
  `key2_part3` int(11) NOT NULL,
  `key3_part1` int(11) NOT NULL DEFAULT '4',
  PRIMARY KEY (`id`),
  KEY `ind2` (`key2_part1`,`key2_part2`,`key2_part3`),
  KEY `ind1` (`key1_part1`,`key1_part2`,`id`),
  KEY `ind3` (`key3_part1`,`id`)
) ENGINE=InnoDB

for i in `seq 1 5000` ; do mysql -vvv -uroot test \
-e 'insert into tmp_index_merge values (60000*rand(),5000*rand(),\
5000*rand(),5000*rand(),5000*rand(),5000*rand(),2877)'; done

for i in `seq 1 5000` ; do mysql -vvv -uroot test \
-e 'insert into tmp_index_merge values (600000*rand(),4333,1657,\
5000*rand(),5000*rand(),5000*rand(),5000*rand())'; done

explain select count(*) from tmp_index_merge where 
(key1_part1 = 4333 and key1_part2 = 1657) and (key3_part1 = 2877)\G
*************************** 1. row ***************************
           id: 1
  select_type: SIMPLE
        table: tmp_index_merge
         type: index_merge
possible_keys: ind1,ind3
          key: ind3,ind1
      key_len: 4,8
          ref: NULL
         rows: 3622
        Extra: Using intersect(ind3,ind1); Using where; Using index

如果不满足ROR的条件，例如将上面案例的ind3索引的ID字段去掉，则不会再考虑使用Intersection。

alter table tmp_index_merge drop index ind3,add KEY `ind3` (`key3_part1`);
Query OK, 14137 rows affected (1.15 sec)
Records: 14137  Duplicates: 0  Warnings: 0

root@test 04:32:58>explain select * from tmp_index_merge where 
(key1_part1 = 4333 and key1_part2 = 1657) and (key3_part1 = 2877)\G
*************************** 1. row ***************************
           id: 1
  select_type: SIMPLE
        table: tmp_index_merge
         type: ref
possible_keys: ind1,ind3
          key: ind1
      key_len: 8
          ref: const,const
         rows: 3408
        Extra: Using where

6. 最后

Intersection这类执行计划，因为需要满足ROR条件，所以较为少见。理想情况是，覆盖但非ROR成本也可能会很低，但是MySQL不考虑这点。另外，较新版本开始支持Index Condition Pushdown，这会大大降低选择ref/range的执行成本，Intersection的优势会大大下降。

到此，MySQL index merge调研就告一段落了。

index merge的数据结构和成本评估

orczhou — Fri, 08 Mar 2013 06:39:34 +0000

前面以案例的形式介绍了什么是index merge，以及它的使用场景。本文将介绍index merge实现的主要数据结构以及MySQL如何评估index merge的成本。在开始本文之前，需要先理解Range访问相关的数据结构介绍：SEL_ARG结构，SEL_TREE结构。

1. 概述:index merge的数据结构

index merge的主要数据结构仍然是存放在SEL_TREE中：

class SEL_TREE :public Sql_alloc
{
...
  List merges;
...
};

在merges这个list中存放了所有可能的index merge。本文将从几个案例，来看看SEL_TREE/SEL_IMERGE如何代表一个index merge访问方式。本文将不再重复介绍SEL_ARG/SEL_TREE的Range相关结构。

SEL_IMERGE的主要成员是一个SEL_TREE的链表，每一个SEL_TREE代表了一个独立的索引条件，这个链表中多个条件共同构成这个index merge。我们通过两个案例看看一个SEL_TREE如何表示一个index merge。(这里需要注意，SEL_TREE既可以代表一个RANGE条件，也可以代表一个index merge；代表Range时，其merges成员为空)。

2. 案例1:简单的index merge

SELECT * FROM tmp_sel_tree where 
  ( key1_part1 = 1 or (key1_part2 = 2 and key2_part1 = 3) ) or
  ( key3_part1 = 5 )

这是一个多个索引的index merge，且没有任何的range可以使用。or条件的三个分支，分表可以使用一个独立的索引，其构成的SEL_TREE结构如下：

SEL_TREE
  |
  |-->List merges;
     |
     |              / SEL_TREE-> SEL_ARG(key1_part1 = 1)
     \ SEL_IMERGE1  | SEL_TREE-> SEL_ARG(key2_part1 = 3)
                    \ SEL_TREE-> SEL_ARG(key3_part1 = 5)

3. 案例2:单个查询多个index merge

SELECT * FROM tmp_sel_tree where 
  ( key1_part1 = 1 or (key1_part2 = 2 and key2_part1 = 3) ) and
  ( key3_part1 = 5 or  key2_part1 = 5)

这个案例中，And条件两边都可以各自使用index merge，MySQL可以选择其中任何一个执行。对应的SEL_TREE中，将会有多个SEL_IMERGE对象，每个SEL_IMERGE对象里面存储了多个独立的可以使用索引的条件(有独立的SEL_TREE表示)：

SEL_TREE
  |
  \-->List merges;
     |
     |              / SEL_TREE-> SEL_ARG(key1_part1 = 1)
     | SEL_IMERGE1  | SEL_TREE-> SEL_ARG(key2_part1 = 3)
     |              \ SEL_TREE-> SEL_ARG(key3_part1 = 5)
     |
     |              / SEL_TREE-> SEL_ARG(key2_part1 = 5)
     \ SEL_IMERGE2  | 
                    \ SEL_TREE-> SEL_ARG(key3_part1 = 5)

MySQL会在选择执行计划时，逐一评估每个SEL_IMERGE的成本，然后选择最优的执行计划。

4. 成本计算

MySQL在计算index merge的成本时，分开考虑了ROR和non-ROR的场景。所以这里先单独介绍一下什么是ROR，后面再介绍MySQL如何区别对待ROR的成本计算。

4.1 什么是Rowid-Ordered Retrieval

Rowid-Ordered Retrieval简称ROR。看下面的说明。有基于索引的查询：

“key_1=c_1 AND … AND key_n=c_n”

该索引定义为：(key_1, …, key_N [,a_1, …, a_m])，且主键列为(a_1, …, a_m, b1, …, b_k)，并且n >= N。

那么这个查询就是一个ROR查询。简单说明：对于该索引左前缀(key_1,…key_n)都是定值，对应该值的子树顺序是按照剩余索引列来排序的，而剩余的索引列又都是主键最左前缀，所以子树的顺序恰好同主键顺序相同。

(这一段可以参考函数is_key_scan_ror的注释和实现部分)

示例：

CREATE TABLE `tmp_index_merge` (
  `id` int(11) NOT NULL,
  `key1_part1` int(11) NOT NULL,
  `key1_part2` int(11) NOT NULL,
  `key2_part1` int(11) NOT NULL,
  `key2_part2` int(11) NOT NULL,
  `key2_part3` int(11) NOT NULL,
  `key3_part1` int(11) NOT NULL DEFAULT '4',
  PRIMARY KEY (`id`),
  KEY `ind2` (`key2_part1`,`key2_part2`,`key2_part3`),
  KEY `ind1` (`key1_part1`,`key1_part2`,`id`),
  KEY `ind3` (`key3_part1`,`id`)
) ENGINE=InnoDB;

explain select * from tmp_index_merge where (key1_part1 = 4333 and key1_part2 = 1657) or (key3_part1 = 2877);
j+----+-------------+-----------------+-------------+---------------+-----------+---------+------+------+-------------------------------------+
| id | select_type | table           | type        | possible_keys | key       | key_len | ref  | rows | Extra                               |
+----+-------------+-----------------+-------------+---------------+-----------+---------+------+------+-------------------------------------+
|  1 | SIMPLE      | tmp_index_merge | index_merge | ind1,ind3     | ind1,ind3 | 8,4     | NULL |    2 | Using union(ind1,ind3); Using where |
+----+-------------+-----------------+-------------+---------------+-----------+---------+------+------+-------------------------------------+

这就是一个ROR的index查询。ROR在Explain的执行计划中并没有任何体现，通过在代码中设置断点可以观察到。在函数get_best_disjunct_quick中，代码会跳到标签skip_to_ror_scan处执行。

在对index merge的成本评估时，只有所有的SEL_TREE子树都是ROR的，对应的SEL_IMERGE才是ROR的。后面我们将看看ROR和non-ROR在成本评估上的不同。

4.2 成本概述

一个index merge是由多个SEL_TREE子树组成，每个SEL_TREE对应一个range操作(参考)，所以每个SEL_TREE成本仍然会按照range操作类似各自计算成本，并累加。

各个SEL_TREE子树各自获取ROWIDs后，MySQL需要对这些ROWID进行去重，最后根据ROWID获取所有数据。去重操作其实是一个对多组ROWID归并排序的问题。对于ROR和non-ROR场景归并排序复杂度略有不同。对于non-ROR的场景，需要先进行分组排序，然后合并。而对于ROR，因为ROWID是顺序的，所以前面的分组排序就省略了，直接做合并操作，这让non-ROR和ROR在成本计算上有较大的不同。

在完成去重之后，最后是根据ROWID取出主键的成本(对应的二级索引里面取出的ROWID)。

一个细节：如果某个SEL_TREE对应的索引恰好是主键索引时，那么MySQL会在其他SEL_TREE子树扫描时，直接判断扫描出来的ROWID是否在主键对应的SEL_TREE的range内，如果这个ROWID已经存在，则不在记录。这样可以尽可能的减少归并排序的元素个数。我们称这部分成本味”二级ROWID过滤成本“。

4.3 SEL_TREE子树的成本

这部分成本计算与range成本计算相同(参考)，这里会将多个子树成本单独计算并累加。

for (every SEL_TREE IN SEL_IMERGE){
  cur_child= get_key_scans_params(param, *ptree, TRUE, FALSE, read_time);
  imerge_cost += (*cur_child)->read_cost;
  ......
}

4.4 non-ROR场景的成本计算

这里通过排序进行去重，是典型的归并排序，如果超过MySQL排序内存的限制，则是典型的外排序。先分组做红黑树排序，然后进行合并。成本分为几部分：创建红黑树、外排时磁盘读写、最后顺序读取排序结果。

4.4.1 去重复成本计算概述

这部分的成本可以完整的参考函数Unique::get_use_cost，这里做一个较为详细的补充说明。

对这个问题做一个简单的抽象：有两部分数据，第一部分有cpk_scan_records条，已排序。第二部分有non_cpk_scan_records未排序，现在需要返回去重后所有数据。单条数据大小为key_size，可用内存为max_in_memory_size。因为前面对第二部数据做了”二级ROWID过滤”，所以这部分ROWID跟第一部分没有重复。因此，仅这里的第二部分数据需要进行去重。去重通过一个排序实现。

简单的说，需要对non_cpk_scan_records条记录进行外排序，最大可用内存是max_in_memory_size，单条记录大小是key_size。排序分成两部分，对部分数据做排序，然后合并。

4.4.2 二级ROWID过滤成本

如果有子树SEL_TREE是对应主键聚簇索引，另一部分子树SEL_TREE对应二级索引，那么在遍历二级索引时将取出对应的ROWID，看看是否再聚簇索引的SEL_TREE子树中，如果是，那么可以忽略这个ROWID，以免重复计算(减少后面Unique操作)。这部分的成本计算为：

imerge_cost += non_cpk_scan_records / TIME_FOR_COMPARE_ROWID;

另外，这里记cpk_scan_records为主键聚簇索引对应的SEL_TREE返回的ROWID数量，non_cpk_scan_records为二级索引对应的所有SEL_TREE返回的ROWID数量。

4.4.3 排序比较成本

需要进行N=non_cpk_scan_records*key_size/max_in_memory_size次排序。在每次排序过程中，如果已经排序好的记录树m个，那么新增一条记录平均需要做log2(m+1)次比较操作，m取值是从1,2…N。比较操作的成本为log2((m+1)!)，MySQL使用了如下公式计算log2((m+1)!)：

\[n! \approx \sqrt{2{\pi}n}(\frac{n}{e})^n\]

\[\log{n!} \approx \log{\sqrt{2{\pi}n}} + n*\log{\frac{n}{e}} \]

这里log是2为底数，再使用\[log_{n}{m} = \frac{\lg{n}}{\lg{m}}\] 通过此公式底数都可以转换为10进行运算(这一部并不是必须的，不过MySQL是这样计算的)。

阶乘转换参考：斯特靈公式(口味略重，慎入)。

对应的代码段：

result+= n_full_trees * log2_n_fact(max_elements_in_tree + 1.0);
result /= TIME_FOR_COMPARE_ROWID;

4.4.4 外排序时候的磁盘IO成本

在外排的时候，需要对所有的数据进行一次IO操作，成本计算如下：

293 result += DISK_SEEK_BASE_COST * n_full_trees * max_elements_in_tree / IO_SIZE;
295 result += DISK_SEEK_BASE_COST * key_size * last_tree_elems / IO_SIZE;

第一行是完整树的IO成本，第二部分是最后一个可能不完整树的IO成本。

4.4.5 合并成本

最后是合并成本，这是一个典型的归并排序，是对K个有序列表进行归并，时间复杂度为：

\[O(N*\lg{K})\]

归并过程中有一次读写操作，IO和比较成本加起来就是合并的成本：

\[\frac{total\_buf\_elems*\log(n\_buffers)}{TIME\_FOR\_COMPARE\_ROWID*\log2} + 2*\frac{total\_buf\_elems*elem\_size}{IO\_SIZE} \]

total_buf_elems是总元素个数；n_buffers子树数量；elem_size为单个元素大小。

未尽的细节：MySQL一次最多对15(MERGEBUFF2)颗子树做归并。

4.4.6 最后的读取

这时，完成了所有的排序操作，最后是读取结果到内存的成本：

result += ceil((double)key_size*nkeys/IO_SIZE);

4.4.7 根据ROWID取出记录的成本

所有非聚簇索引扫描获得ROWID后，最后仍然需要根据这些ROWID获取记录。

对于索引组织表(聚簇索引，InnoDB)，这部分的成本计算较为简单，假设聚簇索引的总page为total_pages，这里二级索引取出的rowid数量为rows，该表的总记录树为total_rows，那么成本为：

(rows / total_rows) *total_pages

代码参考：

imerge_cost += get_sweep_read_cost(param, non_cpk_scan_records);

4.5 ROR场景的成本计算

ROR的时候，去重时则少了对子队列的排序，直接是对多个已经排列好的队列做合并排序。所以这里的成本计算相对简单：索引读取，合并排序，最后是根据ROWID取出所有记录的成本。

4.5.1 索引读取成本

这部分计算与索引覆盖扫描计算相同。假设单个索引块大小为BS，索引字段长度味KL，ROWID长度为RL，总是假设索引块有50%为空，如果需要扫描的记录数为RS，那么这部分成本计算为：

\[\frac{RS}{\frac{1}{2}\frac{BS}{(KL+RL)}}\]

参考函数get_index_only_read_time的实现。

4.5.2 合并排序

这次合并排序，是对多个有序列表的合并。若有K个有序列表，总记录数味N，那么其成本为：

\[O(N*\lg{K})\]

这里N为各个SEL_TREE子树对应found_records之和(MySQL这里的计算略微不同)。

4.5.3 根据ROWID取出记录的成本

这部分成本于NON-ROR场景相同，对于索引组织表(聚簇索引，InnoDB)，这部分的成本计算较为简单，假设聚簇索引的总page为total_pages，这里二级索引取出的rowid数量为rows，该表的总记录树为total_rows，那么成本为：

(rows / total_rows) *total_pages

在MySQL中，对于上面表达式的rows计算做了一些不一样的处理。这里说一下主要思想，MySQL假设每个SEL_TREE完全独立，总记录数味R，如果有三个SEL_TREE子树，记对应的记录数为R(1),R(2),R(3)。如果数据都均匀分布，那么去重后总记录数为：

(R(1)+R(2)+R(3)) – R(a)*(R(1)*R(2)+R(2)+R(3)+R(1)*R(3))/R(a)^2 + R(a)*((R(1)*R(2)*R3)/R(a)^3)

MySQL这里做了一个近似：

(R(1)+R(2)+R(3)) – R(a)*((R(1)*R(2)*R3)/R(a)^3)

MySQL利用这个近似值作为上面公式的rows。到这里ROR部分成本就完成了。

5 最后

最后，如果index merge的成本比其他执行计划的成本要更小的话，那么MySQL就会选择改执行计划。案例可以参考index merge介绍。

MySQL源码:JOIN顺序选择的复杂度

orczhou — Tue, 11 Dec 2012 08:00:00 +0000

在看MySQL优化器代码过程中，这应该是相对较简单/代码较清晰的部分了。MySQL优化器有两个自由度：单表访问方式，多表顺序选择。前文已经介绍过MySQL单表访问的一些考量(ref/range等)，本文将介绍JOIN在顺序选择上的复杂度分析。

当有多个表需要JOIN的时候，MySQL首先会处理两类特殊情况，一个是常数表，一个是由于外连接导致顺序依赖关系。前者总是放在关联的最前面，后者会在遍历的时候考虑。本文将忽略上面两点，从较宏观角度看JOIN顺序选择时候的复杂度。

在设置了参数prune_level(默认设置)后，MySQL会使用”较为启发式”的方式忽略一些执行计划。如果未设置，则使用了穷举获取”最优”的执行计划。

1. 有限穷举

在MySQL打开参数prune_level(默认打开)时，会通过一个”偷懒”技巧来跳过某些看似消耗较大执行计划，可以参考偷懒的MySQL。

虽然会”偷懒”的跳过某些执行计划，但是MySQL仍然会按照穷举的方式探索，说”有限”是指，当关联表的数量超过63时(search_depth的默认值)，达到最大深度， MySQL将分多个阶段穷举。当关联表的数量较少的时候(小于search_depth)，MySQL会穷举所有可能，然后计算每个JOIN顺序的成本，选择成本最低的作为其执行计划。关于这部分的算法复杂度，在代码注释中有较为详细的描述，建议阅读函数greedy_search的注释先。下面是注释部分的两段伪代码，很好的描述了整个过程：

1.1 greedy_search

 4997     procedure greedy_search                                                                         
 4998     input: remaining_tables                                                                         
 4999     output: pplan;                                                                                  
 5000     {                                                                                               
 5001       pplan = <>;                                                                                   
 5002       do {                                                                                          
 5003         (t, a) = best_extension(pplan, remaining_tables);                                           
 5004         pplan = concat(pplan, (t, a));                                                              
 5005         remaining_tables = remaining_tables - t;                                                    
 5006       } while (remaining_tables != {})                                                              
 5007       return pplan;                                                                                 
 5008     }

这里的(t , a)表示，每次best_extension返回下一个需要JOIN的表t，并且确定的访问方式是a。上面的代码中，执行计划的扩展由函数best_extension，初始pplan为空，do循环结束输出最终的执行计划。

1.2 best_extension

best_extension中调用函数best_extension_by_limited_search完成递归遍历，其输入是部分执行计划(pplan)和它的成本，函数目的是找到下一个关联的表。思路很简单，遍历所有剩余表，对每一个表，计算对应的”局部”最优执行计划，当然计算这个“局部”最优仍然是调用这个函数，所以这是一个深度优先的遍历。

伪代码(是不是又有人说我总贴代码了)：

 5171     @code
 5172     procedure best_extension_by_limited_search(
 5173       pplan in,             // in, partial plan of tables-joined-so-far
 5174       pplan_cost,           // in, cost of pplan
 5175       remaining_tables,     // in, set of tables not referenced in pplan
 5176       best_plan_so_far,     // in/out, best plan found so far
 5177       best_plan_so_far_cost,// in/out, cost of best_plan_so_far
 5178       search_depth)         // in, maximum size of the plans being considered
 5179     {
 5180       for each table T from remaining_tables
 5181       {
 5182         // Calculate the cost of using table T as above
 5183         cost = complex-series-of-calculations;
 5184 
 5185         // Add the cost to the cost so far.
 5186         pplan_cost+= cost;
 5187 
 5188         if (pplan_cost >= best_plan_so_far_cost)
 5189           // pplan_cost already too great, stop search
 5190           continue;
 5191 
 5192         pplan= expand pplan by best_access_method;
 5193         remaining_tables= remaining_tables - table T;
 5194         if (remaining_tables is not an empty set
 5195             and
 5196             search_depth > 1)
 5197         {
 5198           best_extension_by_limited_search(pplan, pplan_cost,
 5199                                            remaining_tables,
 5200                                            best_plan_so_far,
 5201                                            best_plan_so_far_cost,
 5202                                            search_depth - 1);
 5203         }
 5204         else
 5205         {
 5206           best_plan_so_far_cost= pplan_cost;
 5207           best_plan_so_far= pplan;
 5208         }
 5209       }
 5210     }
 5211     @endcode

一个说明：在每次遍历的时候，一旦发现成本大于当前的最优成本，则放弃，不再继续深入。

1.3 简单的小结

函数的输入：
	部分执行计划 partial plan
	N个剩余表
函数输出：
	当 N <= search_depth，返回剩余表的最优执行计划，并和前面的部分执行计划合并
	当 N >  search_depth，返回search_depth个表的最优执行计划，并合并到部分执行计划
		递归调用该函数，输入为：当前部分执行计划   剩余表N-depth

1.4 复杂度分析

假设需要关联的表一共有N个，搜索深度最大为depth，那么穷举的复杂度为(这是一个粗略的计算)：

当 N < depth 时，为：

\[O(N!)\]

当 N >= depth时，为(近似)：\[O(\frac{N*N^{depth}}{depth})\]

第一种情况，是简单，就是一个完全的穷举。

第二种情况说明：每次优化深度是\(depth\)，所以，需要进行\(\frac{N}{depth}次优化\)；每次的复杂度为：\((N-1)*(N-2)…(N-depth)\)；总的复杂度为：\[O(\frac{N}{depth}*N^{depth}) = O(\frac{N*N^{depth}}{depth})\]

所以，复杂度可能是\(O(\frac{N}{depth}*N^{depth}) = O(\frac{N*N^{depth}}{depth})\)。如果search_depth > N 那么算法的复杂度就是O(N!)。通常MySQL优化器分析的复杂度都是O(N!)。

1.5 边界情形

有两个比较极端的情况：

— 当需要JOIN的表的数量小于search_depth时，这里就退化为一个深度优先的穷举确定最优执行计划

— 当search_depth = 1的时候，函数退化为”极其”贪婪的算法，每次从当前的剩余的表中取一个成本最小的，来扩展当前的执行计划

剩余的情况就是介于上面两者之间。

2. 偷懒的MySQL

在打开了参数prune_level(默认开启)后，MySQL不再使用穷举的方式扩展执行计划，而是通过一些规则跳过一些看似消耗更大的执行计划，~~而是在剩余表中直接选取访问最少纪录数的表~~通过这种”启发式”的方式忽略一些执行计划，借此可以大大减少需要穷举的执行计划。按照MySQL手册上的描述是：根据经验来看，这种”educated guess”基本不会漏掉最优的执行计划，但是却可以大大(dramatically )缩小搜索空间。要是你怀疑漏掉了某个最优的执行计划，你可以考虑关闭参数试试，当然这会导致搜索空间增大，优化器执行时间偏长。

这个参数在深度优先搜索中起作用，在进行深度探索时，根据current_record_count和current_read_time，来确定，来判断是否需要忽略当前的执行计划穷举。(原本是需要递归调用计算成本确定)。

下面是一个简单的伪代码描述：

场景：
pplan 			当前部分执行计划(初始为空) short for partial plan 
N remaining table 	当前剩余表(初始化时，为除了常数表之外的所有表)
	这N表记为T[0] T[1] ... T[N-1]

计算代码：
Function best_extension(pplan,N)
Foreach T in T[0...N-1]
    let P(pplan,T) := add T to pplan
    let current_record_count := #row of P(pplan,T)
    let current_read_time := #read time of P(pplan,T)
    if [
         T is Not The First Table in T[0...N-1] AND
         current_record_count >= best_record_count AND
         current_read_time >= best_read_time 
       ]
        "P(pplan,T) is a bad plan! SKIP it!!!!!!!"
    END
    let best_record_count := min(best_record_count, current_record_count )
    let best_read_time := min(best_read_time,current_read_time)
    best_extension(P(pplan,T),N-1);
END

说明：

(1) 伪代码中未考虑依赖关系。第一个表的COST总是会计算出来。

(2) 面对pplan和T[0…N-1]时，只计算pplan与T[0],T[1]…T[N-1]的关联后各自的current_record_count/current_read_time，会依此值忽略一些执行计划，只有优于”当前最优”best_record_count/best_read_time的时候，才会递推下去，否则直接忽略当前的执行计划。案例说明：

(**) 当前剩余三个表A、B、C，MySQL先将三个表按照found_records进行排序，假设排序后为B、A、C；

(**) MySQL先尝试把B加入当前执行计划(pplan+B)，先计算访问B的最优方式，同时计算出current_record_count/current_read_time，并将其记录为best_record_count/best_read_time(以后再尝试把A、C加入时，如果更优，则更新该值；即该值总是为”当前最优”)；

(**) pplan+B继续向后扩展；

(**) MySQL再尝试把A加入当前执行计划(pplan+A)，先计算访问A的最优方式，如果其current_record_count/current_read_time小于当前最优，则忽略当前执行计划(如果prune_level=1)，否则，pplan+A继续向后扩展

(**) MySQL再尝试把C加入当前执行计划(pplan+C)…

(**) 穷举完成

(3) 这看起来这是一个”较为激进”的优化方式。

3. 开始前的排序

 4753   my_qsort(join->best_ref + join->const_tables,
 4754            join->tables - join->const_tables, sizeof(JOIN_TAB*),
 4755            straight_join ? join_tab_cmp_straight : join_tab_cmp);

MySQL在开始确定JOIN顺序之前会根据每个表可能访问的纪录数，进行一次排序。这一步看似多余，但是当穷举搜索时，可以大大的减少执行计划需要探测的深度。

当评估某个执行计划的时候，如果某一步发现当前的cost已经大于最优的执行计划时，则立即退出评估。这意味着，如果最先找到最优的执行计划，那么需要做的评估将会少很多。如果某个表需要扫描的行数越少，那么可以初步认为越先使用越好。当然，因为这里的排序评估是没有使用JOIN条件的，所以，看起来需要扫描很多的，也可能加上JOIN以后只需要扫描很少的记录。

4. 函数调用栈

#0            best_access_path 
#1          best_extension_by_limited_search 
#2        greedy_search
#3      choose_plan 
#4    make_join_statistics
#5  JOIN::optimize

MySQL源码:Range和Ref优化的成本评估

orczhou — Mon, 10 Dec 2012 06:49:20 +0000

在开始介绍index merge/ROR优化之前，打算先介绍MySQL是如何对range/ref做成本评估的。MySQL是基于成本(cost)模型选择执行计划，在多个range，全表扫描，ref之间会选择成本最小的作为最终的执行计划。仍然强烈建议先阅读登博的slide：《查询优化浅析》，文中较为详细的介绍MySQL在range优化时成本的计算。

本文将继续介绍range/ref执行计划选择的一些不容忽略的细节。希望看客能够通过此文能够了解更多细节。

0. 成本计算的总原则

MySQL的一个执行计划，有两部分成本，CPU成本(CPU COST)和IO成本(IO COST)。CPU COST是指查询出纪录后，需要做过滤等处理的时候的CPU消耗，IO COST是指，从存储引擎读取数据时需要做的IO消耗。

总成本＝ CPU COST + IO COST

补充说明：(1) IO成本计算不考虑缓存的影响。因为在优化器本身是无法预知需要的数据到底在内存中还是磁盘上。

1. range成本的计算与分析

MySQL使用一颗SEL_ARG的树形结构描述了WHERE条件中的range，如果有多个range，则使用递归的方式遍历SEL_ARG结构，在前面详细的介绍range的红黑树结构，以及MySQL如何遍历之。

接上文，这里将看看，遍历到最后，MySQL如何计算一个简单range的成本。

1.1 range返回的记录数

MySQL首先计算range需要返回都少纪录，通过函数check_quick_select返回对某个索引做range查询大约命中多少条纪录。

found_records= check_quick_select(param, idx, *key, update_tbl_stats);

1.2 CPU COST

#define TIME_FOR_COMPARE 5 // 5 compares == one read
double cpu_cost= (double) found_records / TIME_FOR_COMPARE;

1.3 IO COST

对于InnoDB的二级索引，且不是覆盖扫描：

found_read_time := number of ranges + found_records

这里，found_records是主要部分，number of ranges表示一共有多少个range，这是一个修正值，表示IO COST不小于range的个数。

1.4 全表扫描的成本

具体的，对于InnoDB表，我们来看：

read_time= number of total page + （records / TIME_FOR_COMPARE + 1） + 1.1;

对于InnoDB取值为：主键索引(数据)所使用的page数量(stat_clustered_index_size)

对于MyISAM取值为：stats.data_file_length/IO_SIZE + file->tables

1.5 关于range执行计划的分析

这里来看看，range的选择度(selectivty)大概为多少的时候，会放弃range优化，而选择全表扫描。下面时一个定量的分析：

(1) 假设总记录数为R；range需要返回的纪录数为r

(2) 假设该表的总页面数(IO COST)为P；单个页面纪录数为c

\[r+1\frac{r}{5} > P + \frac{R}{5} + 1 + 1.1 \]

\[ \frac{r}{R} > \frac{1}{6} + \frac{5}{6} * \frac{P}{R} + \frac{5.5}{6*R} \]

\[ \frac{r}{R} > \frac{1}{6} + \frac{5}{6} * \frac{1}{c} \frac{5.5}{6*R} \]

在我的测试案例中，P=4，R=1016 ，有

\[ \frac{r}{R} > 0.171 \]

也就是说这个案例中，如果选择度(selectivity)高于17.1%就会放弃range优化，而走全表扫描。这里纪录数超过1016*0.171＝173时将放弃range优化。

1.6 验证

MySQL通过函数check_quick_select返回range可能扫描的记录数，所以，这里通过对该函数设置断点，并手动设置返回值，通过此来验证上面对selectivity的计算，详细地：

(gdb) p head->file->stats.records
$1 = 1016
(gdb) p head->file->scan_time()
$3 = 4
(gdb) p 1016*(1.0/6+(5.0/6)*(4.0/1016)+5.5/(6*1016))
$43 = 173.58333333333329

(gdb) b check_quick_select
Breakpoint 5 at 0x679377: file opt_range.cc, line 7436.
(gdb) c
Continuing.

遇到断点：
(gdb) return 173
看到：
root@test 05:07:52>explain select * from users where reg_date >= '2012-09-20 12:00:00';
+----+-------------+-------+-------+---------------+-------------+---------+------+------+-------------+
| id | select_type | table | type  | possible_keys | key         | key_len | ref  | rows | Extra       |
+----+-------------+-------+-------+---------------+-------------+---------+------+------+-------------+
|  1 | SIMPLE      | users | range | ind_regdate   | ind_regdate | 9       | NULL |  173 | Using where |
+----+-------------+-------+-------+---------------+-------------+---------+------+------+-------------+

(gdb) return 174
看到
root@test 05:08:05>explain select * from users where reg_date >= '2012-09-20 12:00:00';
+----+-------------+-------+------+---------------+------+---------+------+------+-------------+
| id | select_type | table | type | possible_keys | key  | key_len | ref  | rows | Extra       |
+----+-------------+-------+------+---------------+------+---------+------+------+-------------+
|  1 | SIMPLE      | users | ALL  | ind_regdate   | NULL | NULL    | NULL | 1016 | Using where |
+----+-------------+-------+------+---------------+------+---------+------+------+-------------+

上面可以看到，如果range命中的记录数超过173的时候，就会放弃range，选择全表扫描。

1.7 一些限制

(1) 无论时InnoDB还是MyISAM的scan_time，range返回的记录数都不是精确值，而且对于InnoDB，总记录数也不是精确值，所以上面只是一个High level的预估。

(2) 上面案例中，条纪录很短，所以看到总page很少，实际情况，单条纪录更大，也就是上面的单个页面纪录数为c更小，所以通常选择度更高的时候，才会选择全表扫描。

2. ref成本的计算与分析

2.1 ref返回的记录数

ref优化的时候，计算返回的记录数从代码上来看要复杂很多，但是思想很简单。

思路：在range优化阶段，任何等值都会当作范围条件（参考1，参考2）。

对于kp1 = const and kp2 = const这类ref，MySQL将直接使用range优化时返回的结果，这个结果是通过存储引擎接口records_in_range返回。

还有一类较为特殊的ref，kp1 = const and kp2 > const，对于此类ref，range优化的时候，会使用两个索引列，但是ref只能用一个索引列。这时，ref首先根据索引统计信息(show index from users中Cardinality的值)预估。因为这里有range优化的值，还会做一次修正，因为range使用了更多的索引字段。修正逻辑为：如果发现索引统计信息太过保守(例如数据分布不均匀时，遇到一个热点)，这时会用range优化的值修正。

所以，返回的纪录数，使用如下代码获取：

records= keyinfo->rec_per_key[max_key_part-1]
if(records < (double)table->quick_rows[key]…)
records= (double)table->quick_rows[key];

2.2 CPU COST

CPU COST := records/(double) TIME_FOR_COMPARE;

2.3 IO COST

ref在做IO成本评估的时候，基本同range相同，ref命中多少纪录则需要多少个IO COST。但是跟range优化打不同的是，这里做了一个修正(range优化并没有做)，也是IO COST最坏不会超过全表扫描IO消耗的3倍(或者总记录数除以10)，有下面的代码：

s->worst_seeks= min((double) s->found_records / 10,
(double) s->read_time*3);
IO COST := record_count*min(tmp,s->worst_seeks);

这里record_count是前一次关联后的记录数。tmp是当前ref命中的记录数。这个修正的逻辑是很好理解的：即使加上索引扫描其io cost仍然是有限度的。因为range的评估并没有加上这个修正，所以就导致了一些奇怪的事情发生了，后面我们再详细分析这一点。

2.4 全表扫描的成本

简单版本(不考虑多表关联)：

scan_time() + s->records/TIME_FOR_COMPARE

scan_time()为存储引擎返回的全表扫描IO次数；s->records为存储引擎维护的单表总纪录数。

复杂版本(有多表关联)：

假设前面关联后的纪录数为record_count，当前表的where条件将过滤后剩余3/4的纪录（不满足where条件的为1/4），并将这个值记为rnd_records。

(s->records - rnd_records)/TIME_FOR_COMPARE +  
record_count * (rnd_records/TIME_FOR_COMPARE)

这里假设将过滤1/4数据，实际代码中还将做一次修正，如果有range计算，假设其命中q条纪录，那么就认为将过滤s->records-q条纪录。

2.5 关于ref执行计划的分析

上面的分析，可以看到，ref成本有一部分是取min函数的，为了分析ref和全表扫描的临界条件，为了简化做下面的假设：

(1) scan_time()*3 < s->records / 10
(2) scan_time()*3 < r

第一个条件表示约30条纪录一个page；第二个条件是ref命中的记录数为总页面的3倍。

那么放弃ref全表扫描的条件是：

scan_time()*3 + r/5 > scan_time() + R/5
即：
scan_time()*2 > (R-r)/5
scan_time() > (R-r)/10
具体的：

(1) 假设总记录数为R；ref需要返回的纪录数为r

(2) 假设该表的总页面数(IO COST)为P；单个页面纪录数为c

那么range的代价超过全表扫描代价，则有：

\[3*P + \frac{r}{5} > P + \frac{R}{5} \]

\[\frac{r}{R} > 1 – \frac{10*P}{R}\]

\[\frac{r}{R} > 1 – \frac{10}{c}\]

在我的测试案例中，P=6.4，R=900 ，有

\[ \frac{r}{R} > 0.929 \]

对于具体的案例，由于取整的问题，会和上面有小小的偏差：

3*((int)6.39) + r/5 > 6.39453125 + 900/5
r > 841.97

2.6 验证

这里再通过gdb修改r的值来验证，因为ref命中纪录的预估是取range的计算值，所以：

gdb) set s->table->quick_rows[1]=841
(gdb) c

root@test 04:37:16>explain select * from users where reg_date = ‘2012-09-21 12:00:00’;
+—-+————-+——-+——+—————+————-+———+——-+——+————-+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+—-+————-+——-+——+—————+————-+———+——-+——+————-+
| 1 | SIMPLE | users | ref | IND_REGDATE | IND_REGDATE | 9 | const | 841 | Using where |
+—-+————-+——-+——+—————+————-+———+——-+——+————-+
1 row in set (47.61 sec)

(gdb) set s->table->quick_rows[1]=842
(gdb) c

root@test 04:38:46>explain select * from users where reg_date = ‘2012-09-21 12:00:00’;
+—-+————-+——-+——+—————+——+———+——+——+————-+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+—-+————-+——-+——+—————+——+———+——+——+————-+
| 1 | SIMPLE | users | ALL | IND_REGDATE | NULL | NULL | NULL | 900 | Using where |
+—-+————-+——-+——+—————+——+———+——+——+————-+

另一个结论是，如果当条记录很小，单个页面的记录数很多的话，只有选择度(selectivity)非常高的时候，MySQL才会放弃ref，走全表扫描，这也是，Vadim在2006年吐槽MySQL的一点。

3. 上面计算的局限性

上面的推倒尝试介绍一些通用的情况，但是实际上优化器中计算ref/range的成本时，会有一些不同：

(1) 无论时InnoDB还是MyISAM的scan_time，range返回的记录数都不是精确值，而且对于InnoDB，总记录数也不是精确值，所以上面只是一个High level的预估

(3) 上面的计算，都不是覆盖扫描的情况，覆盖扫描的时候，成本计算与上面略有不同

(4) 上面都是使用gdb修改某些值的方式来验证。如果想通过创建一个表，够造某个索引的区分度/选制度，因为scan_time和返回的记录数都是预估的，这样的方式是不行的

(5) (update) range的cost计算，最终的公式是：#rows + (#rows/5)*2 + 1 解释如下，

** #rows 为IO成本，因为读取的记录都需要回表查找完整记录，而这些都是离散IO，所以多少条记录，多少个IO

** (#rows/5)*2 是CPU成本，分两部分，第一部分是扫描索引时，确定在查找范围内；第二部分是找到记录后判断是否满足WHERE条件；(这部分成本，在range analysis的时候没有计算)

** 1是一个修正值，防止0成本出现

4. 案例中使用的数据和表

CREATE TABLE `users` (
  `id` int(11) NOT NULL,
  `nick` varchar(32) DEFAULT NULL,
  `reg_date` datetime DEFAULT NULL,
  KEY `IND_NICK` (`nick`),
  KEY `IND_REGDATE` (`reg_date`),
  KEY `IND_ID` (`id`)
) ENGINE=MyISAM
for id in `seq 1 886`; \
do mysql -uroot test -e \
"insert into users values($id,char(round(ord('A') + rand()*(ord('z')-ord('A')))),\
'2012-09-21 12:00:00')"  ;done

for id in `seq 887 900`; \
do mysql -uroot test -e \
"insert into users values($id,char(round(ord('A') + rand()*(ord('z')-ord('A')))),\
'2012-09-20 12:00:00')"  ;done

MySQL源码：Range优化相关的数据结构

orczhou — Sat, 24 Nov 2012 14:37:02 +0000

登博开了一个头，希望能够往前走一点。泛读了整个MySQL Range优化的相关代码，这里将总结Range优化相关的数据结构。本文不是从宏观(High Level)角度介绍Range优化相关内容，如果看客对此感兴趣，建议绕过本文，直接阅读参考文献，相信会有收获。

已经连续写了几篇关于优化器相关的数据结构的博客了，只是希望需要的人是在需要的时候能够看到。

1. 背景知识

在开始介绍Range的主要数据结构之前，我们先看Range优化的一些概念和背景。依旧建议先阅读参考文件的[1-8]，Sergey Petrunya写的PPT和文档质量都很高，很多图示，非常直观的展示了原理。

(1) 什么是Range条件? 参考Range Optimization@MySQL Manual 单列Range和多列Range

(2) 给定一个KEY(key1)对应的WHERE条件，如何将其转化成一个Range，下面是”简述”，详细参考单列Range：

SELECT * FROM t1 WHERE
  (key1 < 'abc' AND (key1 LIKE 'abcde%' OR key1 LIKE '%b')) OR
  (key1 < 'bar' AND nonkey = 4) OR
  (key1 < 'uux' AND key1 > 'z');

1.1 替换所有非RANGE查询为TRUE

先将所有非RANGE查询为TRUE，这样就不会漏掉任何数据,这里有key1 LIKE ‘%b’ nonkey = 4，所以有：

    (key1 < 'abc' AND (key1 LIKE 'abcde%' OR TRUE)) OR
    (key1 < 'bar' AND TRUE) OR
    (key1 < 'uux' AND key1 > 'z')

1.2 移除恒真，或者恒假的表达式

    (key1 < 'abc' AND (key1 LIKE 'abcde%' OR TRUE)) OR
    (key1 < 'bar' AND TRUE) OR
    (key1 < 'uux' AND key1 > 'z')

这其中，有：

    (key1 LIKE 'abcde%' OR TRUE) 恒真 
    (key1 < 'uux' AND key1 > 'z') 恒假

继续替换：

    (key1 < 'abc' AND TRUE) OR (key1 < 'bar' AND TRUE) OR (FALSE)

移除不必要的分支，移除原则：

    OR分支中如果恒假，则可以移除；
    OR分支中如果恒真，则整个OR恒真
    AND分支中如果恒假，则整个AND恒假
    AND分支中如果恒真，则可以移除

这是一个递归的过程

1.3 递归结束

    (key1 < 'abc') OR (key1 < 'bar')

1.4 合并有覆盖的区间

这里第一个RANGE是第二个RANGE的子集，这里又是OR，所以合并

    (key1 < 'bar')

2 Range的数据结构

对任何的WHERE条件，MySQL在尝试Range优化时，会构造可以个SEL_TREE对象存储所有的Range。每一个索引，对应一个Range，所以有：

range_cond = (cond_key_1 AND cond_key_2 AND ... AND cond_key_N)

说明：针对某个索引key_i，MySQL会构造对应的RANGE，记为cond_key_1(如何根据索引简化WHERE条件?参考本文第一节)。MySQL会评估所有这些索引对应的RANGE，选择代价最小的作为执行计划的一部分。

2.1 “简单区间”

对某个索引，MySQL使用SEL_ARG对象来代表一个”简单区间”，进一步SEL_ARG构成整个cond_key_1对象。先来看看什么是一个简单区间:

 min_value <=?  table.keypartX  <=? max_value
("?" 表示”=”可有可无)

这可以是一个非空的任何类型的区间：

(-INF,9) (-INF,9] (9,INF) [9,INF) (8,9) (8,9] [8,9)

任何一个复杂的Range表达式，都是由多个”简单区间”构成。

2.2 SEL_ARG：描述”简单区间”的对象

例如有如下查询：

select * from tmp_sel_arg where kp1 <= 1 and kp1 > 0;

那么对应SEL_ARG对象表示了区间(-INF,1],具体的：

(gdb) p tree->keys[0]
$93 = (SEL_ARG *) 0x7f6518008bb8
(gdb) p *tree->keys[0]
$94 = {
  min_flag = 4 '\004', 
  max_flag = 0 '\000', 
  maybe_null = 1 '\001', 
  field = 0x7f651400d2f0, 
  min_value = 0x7f6518008e60 "", 
  max_value = 0x7f6518008bb0 "", 
  left = 0xcecac0, 
  ......
  color = SEL_ARG::BLACK, 
  type = SEL_ARG::KEY_RANGE
}

min_flag = 4 NEAR_MIN 即下界为开区间

max_flag = 0 表示上界为闭区间

516 #define NO_MIN_RANGE    1                         
517 #define NO_MAX_RANGE    2
518 #define NEAR_MIN        4
519 #define NEAR_MAX        8
520 #define UNIQUE_RANGE    16
...

maybe_null = 1 表示这个key part可以为空，存储值，第一个字节预留

min_value = 0x7f6518008e60 “” 表示取值下届，这里存储的值为0

max_value = 0x7f6518008bb0 “” 表示取值上界，这里存储的值为1，所以，这个SEL_ARG表示的区间为：

(0,1]

left/right/parent/prev/next_key_part/color等指针本文后续介绍

2.3 SEL_ARG链表：复杂的区间

（阅读本段，可以先阅读MySQL源码中关于SEL_ARG的注释部分：A construction block of the SEL_ARG-graph。opt_range.cc）

这次我先来看一个复杂的WHERE条件，及其对应的SER_ARG结构，然后通过几个从简单到复杂的案例，来分析之。假设有如下的WHERE条件，对应的索引为(kp1,kp2,kp3)：

select * from tmp_sel_arg where 
    (kp1 < 1 AND kp2=5 AND (kp3=10 OR kp3=12)) OR 
    (kp1=2 AND (kp3=11 OR kp3=14)) OR 
    (kp1=3 AND (kp3=11 OR kp3=14));

每一个”简单区间”都由一个SEL_ARG表示，对相同的key part，如果是多个OR条件则用指针prev/next链接，如果是相关的多个key part则用next_key_part指针链接。于是又如下关系图：

                   $                            $ 
                   $                            $ 
    SEL_ARG(-∞, 1) $ ===>  SEL_ARG  [5,5] ===>  $ SEL_ARG [10,10] 
           |^      $                            $        |^
       next||      $                            $    next||
           ||prev  $                            $        ||prev
           ||      $                            $        v
           ||      $                            $ SEL_ARG [12,12]
           ||      $                            $ 
           v|      $                            $ 
    SEL_ARG [2, 2] $=== next_key_part =====|    $ 
           |^      $                       |    $
       next||      $                       |===>$
           ||prev  $                       |===>$ SEL_ARG[11,11]    
           v|      $                       |    $         |^        
    SEL_ARG [3, 3] $=== next_key_part =====|    $     next||   
                   $                            $         ||prev
                   $                            $         v|     
                                                  SEL_ARG[14,14]

上图中，水平方向使用指针next_key_part串联，表示多个key part之间的and关系。垂直部分，是多个OR条件关联相同key part，通过指针next/prev关联。

除了上面的指针next/prev以及next_key_part，SEL_ARG对象还有三个指针left/right/parent指针，同一个key part的不同SEL_ARG对象组成的一颗红黑树就是靠这三个指针链接。在上图中SEL_ARG(-INF,1) SEL_ARG [2, 2] SEL_ARG [3, 3]通过这三个指针构成一颗红黑树。

上面这个案例比较复杂，但是完整的展示了SEL_ARG表示一个复杂的RANGE条件。下面我来看几个简单案例，来逐步认识SEL_ARG如何描述一个完整的RANGE条件。最后，再回头来看看上面这个结构。

2.3.1 简单条件 WHERE id > 10

这是一个最简单的区间。SEL_ARG(10,∞)，有标志位NEAR_MIN和NO_MAX_RANGE，仅单个SEL_ARG对象，所有指针都无效。

2.3.2 WHERE id > 2 and id < 10

id>2和id<10是两个可以合并的SEL_ARG，合并后为SEL_ARG(2,10)，两边开区间，故有标志位NEAR_MIN NEAR_MAX。

2.3.3 WHERE id > 10 or id <= 2

这个WHERE条件中有两个SEL_ARG，分别为SEL_ARG(10,∞)和SEL_ARG (-∞,2]。这是这两个条件是索引的同一个key part，用OR关联，所以这两个SEL_ARG一方面用next/prev指针关联，另一方面指针left/right/parent也让他们构成一颗简单的红黑树：

                     $   
链表结构              $  简单红黑树        
    SEL_ARG (-∞,2]   $         SEL_ARG (10,∞) 
       |^            $             /(black)
   next||            $            /   
       ||prev        $           /   
       v|            $   SEL_ARG (-∞,2] 
    SEL_ARG (10,∞)   $   (red)
                     $   
                     $

2.3.4 WHERE id > 10 or id <= 2 or ( id >= 3 and id < 5 )

看下面的图，如果你真是从上面一直看下来的，应该不需要我解释什么了吧：

                $
SEL_ARG (-∞,2]  $               SEL_ARG [3,5)
       |^       $                   /\ Black
   next||       $                  /  \
       ||prev   $                 /    \
       v|       $    SEL_ARG (-∞,2]   SEL_ARG (10,∞)
SEL_ARG [3,5)   $            Red           Red
       |^       $          
   next||       $
       ||prev   $                
       v|       $       
SEL_ARG (10,∞)  $
                $

2.3.5 WHERE id = 7 or id > 10 or id <= 2 or ( id >= 3 and id < 5 )

看下面的图，如果你真是从上面一直看下来的，应该不需要我解释什么了吧：

                  $
SEL_ARG [7,7]     $
       |^         $   RB-Tree                   
   next||         $                        
       ||prev     $                  SEL_ARG [7,7]
       v|         $                      /\ Black   
SEL_ARG (10,∞)    $                     /  \           
       |^         $                    /    \     
   next||         $       SEL_ARG (-∞,2]    SEL_ARG (10,∞)
       ||prev     $             /\Black              Red
       v|         $            /  \        
SEL_ARG (-∞,2]    $           /    \
       |^         $               SEL_ARG [3,5)         
   next||         $                      RED
       ||prev     $
       v|         $
SEL_ARG [3,5)     $
                  $

到这里，就可以再回头看看2.3节给出的复杂案例了。

2.4 SEL_ARG链表结构的构造

本文不打算详述SEL_ARG链表构造详细过程（如果后续还有耐心的话，会写出来），这里仅给出一个简单的调用栈：

#0  get_mm_leaf                   # 根据简单谓词，构建SEL_ARG对象
#1  get_mm_parts                  # 根据简单谓词，将上一步的SEL_ARG构建，添加到SEL_TREE(使用函数sel_add)
#2  get_func_mm_tree>             # 根据谓词Item_func::NE_FUNC/BETWEEN/IN_FUNC，分别构建SEL_TREE
#3  get_full_func_mm_tree>        # 处理”特殊的等号” 这是啥，还没有太明白
#4  get_mm_tree                   # <递归根据简单谓词，构建SEL_TREE对象>
#5  get_mm_tree(递归)              # 根据WHERE条件，构建SEL_TREE对象
#6  SQL_SELECT::test_quick_select # 根据WHERE条件，构建SEL_TREE，并评估每个RANGE找到多少条记录
#7  get_quick_record_count        # 构建RANGE优化的SQL_SELECT对象
#8  make_join_statistics          # ...
#9  JOIN::optimize

2.5 合

所以对于一个复杂的WHERE条件，MySQL会针对每一个可能使用Range的索引(possable key初始化在另一篇文章中介绍过)，生成一个对应的SEL_ARG链表结构，可以用cond_key_i表示，那么整个RANGE条件就可以看作下面的结构：

range_cond = (cond_key_1 AND cond_key_2 AND ... AND cond_key_N)

在MySQL中cond_key_i其实就是一个SEL_ARG指针，该指向第一个key part的红黑树的根节点。所有的cond_key_i数组存放SEL_TREE的成员keys中。SEL_TREE对象在get_mm_tree函数中构造。

3. RANGE代价的评估

如果你是泛读方式读到这里，那么建议你再回头看看SEL_ARG的数据结构，想想如果要遍历这棵树。如果是以精度的态度看到了这里，那么，谢谢，很荣幸能够分享一点点东西，相信稍加思考，便能够体会到，应该如何遍历这颗树了。如果理解了上面的SEL_ARG的结构，再来看Range代价评估就很简单了。主线剧情就是递归整个红黑树，然后每次尽可能的深度优先地沿着next_key_part走。

写得有点累了，这部分下次再写吧。算了，还是一口气写完吧。

这里，我通过一个案例来解释Range代价评估的过程。我们来看看下面这个SQL，看看他的SEL_ARG结构，然后看看Range代价评估的递归过程：

select 
  * 
from 
  tmp_sel_arg 
where 
  (kp1 = 5 and kp2 > 10) or 
  (kp1 = 10 and kp3 >20) or
  (kp1 =8 and kp2 = 19 and (kp3 <=10 or kp3 >15) ) or 
  (kp1 > 12 and kp2 =5);

3.1 构建对应的SEL_ARG树

               $                      $  
SEL_ARG[5,5]   $ ===>  SEL_ARG(10,+∞) $ 
       |^      $                      $
   next||      $                      $   
       ||prev  $                      $  
       v|      $                      $ 
SEL_ARG[8,8]   $ ===>  SEL_ARG[19,19] $  ===>  SEL_ARG(-∞,10] 
       |^      $                      $               |^  
   next||      $                      $           next|| 
       ||prev  $                      $               ||prev  
       ||      $                      $               v|    
       ||      $                      $        SEL_ARG(15,+∞)
       ||      $                      $        
       v|      $                      $               
SEL_ARG[10,10] $ =====================$=====>  SEL_ARG(20,+∞)
       |^      $                      $        
   next||      $                      $        
       ||prev  $                      $        
       ||      $                      $          
       v|      $                      $         
SEL_ARG(12,∞)  $ ===>  SEL_ARG[5,5]   $        
               $                      $

3.2 “深度优先”遍历SEL_ARG树

首先，对于每一个KEY PART是一颗红黑树，例如，我们看这里的第一个key part部分，即kp1对应的SEL_ARG，他们构成的红黑树如下：

         SEL_ARG[8,8] 
             /\ Black
            /  \    
           /    \  
SEL_ARG[5,5]  SEL_ARG[10,10]     
       Black       /\ Black     
                  /  \         
                 /    \       
                    SEL_ARG(12,∞)
                        Red

那么，遍历的顺序是先从kp1的范围SEL_ARG[8,8]入手，先左子树，再自身节点，然后右子树。为什么这里说是”深度优先”，例如当遍历到根节点SEL[8,8]时，如果这个对象的next_key_part指针不为空，那么将next_key_part部分加入；如果next_key_part的left/right/parent指针不为空（实时上parent总是为空，因为next_key_part总是指向红黑树的根节点），那么先遍历left节点，以此递归。

那么这里的遍历的顺序是：

SEL_ARG[5,5] SEL_ARG(10,+∞)
SEL_ARG[8,8] SEL_ARG[19,19] SEL_ARG(-∞,10]
SEL_ARG[8,8] SEL_ARG[19,19] SEL_ARG(15,+∞)
SEL_ARG[10,10]......(no kp2)......SEL_ARG(20,+∞)
SEL_ARG(12,∞) SEL_ARG[5,5]

3.3 筛选MySQL无法处理的Range

在MySQL中，如果是一个多列区间，那么除最后一列之外，其他列必须存在且是单点区间，才能使用Range优化。（单点区间是指[5,5]这样的等值区间）

所以，上面的例子中下面两个Range无法使用Range优化，MySQL直接跳过：

SEL_ARG[10,10]......(no kp2)......SEL_ARG(20,+∞)
SEL_ARG(12,∞) SEL_ARG[5,5]

代码逻辑：

if(
  key_tree->next_key_part &&  # 是否有next_key_part
  key_tree->next_key_part->part == key_tree->part+1     # 且next_key_part跟当前key part连续
)
{
  if(min_key_length == max_key_length){  # 这是最后一个key part
    #递归调用
    goto end
  }
}
...
table->file->records_in_range(...)
end:

3.4 调用存储引擎接口

最后，MySQL将陷入存储引擎接口records_in_range预估在这个范围大约有多少条记录。预估的办法，各个存储引擎各有不同，InnoDB通过在Range的上限和下限处各做一次统计，然后预估整个区间的记录数。

最后，最后，最后，MySQL评估所有的Range、全表扫描的代价，最后选出代价最小Range作为执行计划。（是不是最想看这部分，却一笔带过了！会有的:)）

参考

1. MySQL查询优化浅析 by 何登成

2. Internal Details of MySQL Optimizations @ MySQL Manual

3. Multi-Range Read Optimization @ MySQL Manual

4. Multi Range Read optimization @ Knowledge Base of MariaDB

5. Block-Based Join Algorithms @ Knowledge Base of MariaD

6. Understanding and control of MySQL Query Optimizer by Sergey Petrunya@2009

7. Multi Range Read interface By Sergey Petrunia

8. The range Join Type @MySQL Internal

9. Interaction Between Optimizer and Storage Engine

10. MySQL Source Code

MySQL源码：索引相关的数据结构(后篇)

orczhou — Fri, 23 Nov 2012 14:37:04 +0000

前篇介绍了MySQL存储索引信息的基本数据结构。本篇将延续下去，介绍MySQL如何找到可以使用的索引，以及期间需要使用的主要数据结构。

谁适合阅读: 本文不打算从High Level来介绍MySQL索引及其使用，相反是从MySQL源码对应的数据结构开始介绍。如果你了解MySQL索引的基本原理，还打算继续从源码的角度解决一些索引使用的问题，那么你适合参考本文，否则，打住，真的很枯燥:(。在可见的未来，作者还将介绍Range优化相关的数据结构等。

0. 概述

本文介绍MySQL如何发现WHERE条件中的等值表达式，并通过分析这些等值表达式，找到可以使用的索引。在这个过程中，MySQL将递归的访问所有WHERE条件”谓词”，并将等值表达式都存储到KEY_FIELD对象的数组中。

然后遍历该KEY_FIELD数组，并同时对比所有索引列，找到哪些字段是在索引列中出现，这些字段则可能可以使用索引，MySQL将所有这些字段都存储在对象KEYUSE数组中。

最后，对KEYUSE进行处理，包括排序、删除无法使用的索引列。这时KEYUSE数组就是所有可以使用REF的索引列了。

1. KEY_FIELD

1.1 概述

在函数JOIN::optimize/make_join_statistics/update_ref_and_keys中,对所有WHERE条件中的等值表达式，都认为可能会走上索引，所以都暂时存放到KEY_FIELD数组中。例如有表达式：”seller_id = 631389273″,那么KEY_FIELD数组中就有对应的对象。结构如下：

(gdb) b add_key_part
Breakpoint 2 at 0x6009e1: file sql_select.cc, line 3668.
(gdb) c
Continuing.

(gdb) p key_field[0]
$44 = {
  field = 0x7f6514011728,      # 对应seller_id字段
  val = 0x7f6514005ae0,        # 指向值为631389273的Item
  level = 0, 
  optimize = 0, 
  eq_func = true, 
  null_rejecting = false, 
  cond_guard = 0x0
}

MySQL在后面的处理中，会遍历所有的KEY_FIELD，如果发现恰好有对应的索引在这个字段上，就会将该索引标记为可以使用。选择执行计划的时候，就会考虑使用这个索引。

1.2 定义

 3065 typedef struct key_field_t {
 3066   Field         *field;
 3067   Item          *val;                   ///< May be empty if diff constant
 ......
 3077 } KEY_FIELD;

KEY_FIELD的Field和Item字段分表存储了字段和对应的值。

1.3 KEY_FIELD数组

假设有更复杂一点的WHERE条件：

WHERE 
  seller_id =631389273 AND 
  gmt_modified = '2012-02-12 09' and 
  PARENT_ID=119985497951753 and 
  AUCTION_ID= 8932244966

上面每个条件都会生成一个对应的KEY_FIELD对象来存储，对应的KEY_FIELD数组结构图如下：

2. MySQL如何生成KEY_FIELD数组(概述)

在函数update_ref_and_keys中，先根据WHERE条件生成KEY_FIELD数组，再进一步处理，最后找到所有REF可以使用的索引。

2.1 update_ref_and_keys函数的主流程


(1) 函数通过add_key_fields将所有的可能用到的索引字段，全部都放到key_fields数组中
    (1.1) 遍历WHERE树，递归调用add_key_fields。对每一个Item_func,调用一次add_key_fields
    (1.2) 对每一个Item_func(有两个Item)，调用add_key_equal_fields
          (1.2.1) 一般来说Item_func(如col > 10)，有两个Item
    (1.3) add_key_equal_fields函数
          (1.3.1)将调用add_key_field
                 该函数将等值比较放到KEY_FIELD数组中
                 不等值，如果可能用上索引，则存放到key_map对象join_tab->const_keys中。
                 详细的：
                 {
                 输入：WHERE中的一个子表达式，例如col > 10
                 处理：
                     (1) field->key_start 全都加入possible keys；
                         即所有以col开头的索引，都是可能的索引
                     (2) 如果Field op constant则将，直接放到possible keys?
                 结果：
                     (1) key1 > 10 会直接存放到possible keys然存放存放到join_tab->const_keys
                     (2) key1 = 10 and key2 > 10，会放到possible keys，
                         再存放到join_tab->const_keys。key1会存放到key_field数组中
                 }
(2) 调用add_key_part将所有的KEY_FIELD存放到数组KEYUSE
(3) 移除KEYUSE数组中无法使用part，例如之使用了索引的第二个字段; 对KEYUSE排序，
    相同的KEY的字段放一起
    (3.1) 先使用my_sort进行排序：根据table/index/keypart对所有的KEYUSE对象进行排序
          3986     my_qsort(keyuse->buffer,keyuse->elements,sizeof(KEYUSE),
          3987           (qsort_cmp) sort_keyuse);

(这里的(2),(3)步骤，在本篇文章后部分将详细解释)

这个函数会对所有=比较表达式相关的谓词都放入key_fields当中，然后，MySQL会根据各个索引字段信息生成对应的KEYUSE数组。

WHERE seller_id =631389273 AND gmt_modified > ‘2012-02-12 09’\G
这样的WHERE条件之后，我们看到，key_field里面只存储了一个对象，里面存储的是field是SELLER_ID。

2.2 函数的调用栈

#0 add_key_field
#1 add_key_fields
#2 update_ref_and_keys
#3  make_join_statistics 
#4  JOIN::optimize

3. KEY_FIELD数组转化成KEYUSE对象

3.1 KEYUSE对象

KEY_FIELD数组中包含了所有等值表达式对应字段，但并不是所有这些字段都有对应的索引。KEYUSE对象就是用来存储所有,有索引的KEY_FIELD，并将更多索引信息存储到KEYUSE中，以便后续使用。这个过程分两步：筛选；排序；再筛选。

3.1.0 定义

(gdb) p s->keyuse[4]
$90 = {
 table = 0x7f5bb800e980,
 val = 0x7f5bb8001570, 		# 存储对应的值,这里是'2012-02-12 09'
 used_tables = 0,
 key = 6,					# 使用第6个索引
 keypart = 1, 				# 从零开始,keypart=1表示使用的第二个column
 optimize = 0,
 keypart_map = 2, 			# 二进制11,使用前面两个column
 ref_table_rows = 18446744073709551615,
 null_rejecting = false,
 cond_guard = 0x0
}

3.1.1 筛选

for ( ; field != end ; field++) #遍历key_field数组@update_ref_and_keys
{
  for (uint key=0 ; key < table->keys ; key++){  #遍历所有索引@add_key_part
    for (uint part=0 ; part <  key_parts ; part++)  #遍历索引所有字段@add_key_part
    {
       if field->eq(table->key_info[key].key_part[part].field){ 
         #如果索引字段跟key_field中的字段相同
         <初始化keyuse对象>
         insert_dynamic(keyuse_array,(uchar*) &keyuse)；
       }
    }
  }
}

3.1.2 排序

这一步较简单，MySQL会根据table/index/key part对所有的KEYUSE对象进行排序：

 3986     my_qsort(keyuse->buffer,keyuse->elements,sizeof(KEYUSE),
 3987           (qsort_cmp) sort_keyuse);

这里，my_qsort是一个通用快排函数，排序顺序安装函数sort_keyuse给出：tablenr越大，值越大；索引编号越大，值越大；索引列越靠前，值越大。

3.1.3 再筛选

前面筛选，会将所有在索引中的字段都放到KEYUSE数组中，这里将继续移除以下的KEYUSE对象：

(1) 某个列虽然是索引列，但是KEYUSE中没有前导列。例如有key(a,b,c)但条件只有b < 5，则移除。 (2) 如果有等值和等值引用，则移除后面的等值引用，如有key(a,b)和条件a=3 and b=7 and b=t2.d，那么就会移除条件b=t2.d。条件(1)很好理解，B-Tree索引不能简单的使用这样的字段做索引。这里解释一下条件(2)。看如下场景：

CREATE TABLE `employee` (
  `LastName` varchar(20) DEFAULT NULL,
  `DepartmentID` int(11) DEFAULT NULL,
  KEY `从` (`LastName`,`DepartmentID`)
);
CREATE TABLE `department` (
  `DepartmentID` int(11) DEFAULT NULL,
  `DepartmentName` varchar(20) DEFAULT NULL,
  KEY `IND_D` (`DepartmentID`)
)
做如下查询：
SELECT 
  * 
FROM 
  employee right outer JOIN department 
ON 
  employee.DepartmentID = department.DepartmentID and 
  employee.DepartmentID=33 and 
  employee.lastname = ‘Zhou’

因为right join，所以department顺序总是在前。MySQL在考察employee表可以走哪些索引的时候，先收集到三个KEY_FIELD等值表达式，因为索引IND_L_D包含了这两个字段，所以这三个等值表达式都会存储到KEYUSE数组中。而三个KEYUSE在数组的中的顺序如下：

KEYUSE(lastname,’Zhou’),KEYUSE(DepartmentID,33),KEYUSE(DepartmentID,department.DepartmentID)

这里的第三个等式，是一个引用，但是employee是连接的外部表，所以在扫描employee时，将忽略第三个条件，对应的KEYUSE将删除这个条件。

更多解释和疑问：(1) KEYUSE排序会将常数放在前面 (2) 一个疑问，ON条件中的employee.lastname = ‘Zhou’，放在ON里面和放在WHERE里面有什么区别?

3.2 完整的KEYUSE数组

                                        
                                    |-> p s->keyuse[1]
          |-->keyuse[0]  [KEYUSE]   |->   { table = 0x7f5bb800e980, 
INDEX[1]->|-->keyuse[1] ----------> |->     ...
          |-->keyuse[2]             |->     key = 1,           #使用第一个索引
                                    |->     keypart = 1,       #从零开始,1表示使用的第二个column
          |-->keyuse[3]             |->     keypart_map = 2,   #二进制11,使用前面两个column
INDEX[3]->|                         |->     ...
          |-->keyuse[4]             |->   }

本篇就介绍到此，后面将根据这些结构，看看MySQL如何如何根据这些结构选择执行计划。

MySQL源码：索引相关的数据结构(前篇)

orczhou — Tue, 20 Nov 2012 15:50:43 +0000

很枯燥的，配首背景音乐吧：

本文将尝试介绍MySQL索引存储相关的数据结构。程序=数据结构+算法，了解数据结构，然后就可以进一步了解MySQL源码中如何使用索引，如何选择自己的执行计划。

1. MySQL如何描述某个数据表的索引

MySQL使用TABLE对象来描述一个数据表，那么数据表的索引是如何描述，索引的统计信息又是如何存储的呢? 例如我们有如下数据表：

CREATE TABLE `users` (
  `id` int(11) NOT NULL,
  `nick` varchar(32) DEFAULT NULL,
  `reg_date` datetime DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `IND_NICK` (`nick`),
  KEY `IND_REGDATE` (`reg_date`)
)

该表有索引，PRIMARY KEY、IND_NICK、IND_REGDATE，我们来看看MySQL内部是如何存储这三个索引，以及如何使用这些索引的统计信息的。下图，描述了存储一个数据表索引的主要结构：

MySQL使用TABLE对象描述一个数据表，他的成员key_info（类型为KEY）描述这个表的全部索引

key_info是一个数组，每一个元素是一个KEY(vim -t KEY查看)对象，代表了一个索引，顺序的，整个数组代表了这个表的全部索引

key_info（KEY对象）的成员key_part，是指向KEY_PART_INFO数组的指针，该数组描述了某个索引所有的索引列信息，数组的每个元素代表了一个索引列

最后，key_part的成员field指向该索引列对应的数据表字段

2. GDB打印观察索引信息

2.1 打印索引基本信息

某个索引（例如IND_NICK）的基本信息是存储在KEY结构(table->key_info数组)中，这里，我们来打印索引IND_NICK的基本信息来观察KEY结构：

(gdb) p s->table->key_info[1]
$26 = {
  key_length = 67, 
  flags = 104, 
  key_parts = 1, 
  extra_length = 3, 
  usable_key_parts = 1, 
  block_size = 1024, 
  algorithm = HA_KEY_ALG_UNDEF, 
  {
    parser = 0x0, 
    parser_name = 0x0
  }, 
  key_part = 0x7f6514020860, 
  name = 0x7f651401fc11 "IND_NICK", 
  rec_per_key = 0x7f651401fa68, 
  handler = {
    bdb_return_if_eq = 0
  }, 
  table = 0x7f6514023d30
}

key_length = 67：表示这个索引入口长为67(不包括rowid),32*2 + 1(NULL) + VARCHAR变成信息

flags = 104 这是一个索引信息的标志位，存储了这个索引的一些重要属性，例如是不是唯一索引，索引中有没有变长字段，是不是一个全文索引等，104表示为二进制，即是1101000，也等于8+32+64，也就是HA_VAR_LENGTH_KEY|HA_BINARY_PACK_KEY|HA_NULL_PART_KEY

更多flags类型：

#define HA_NOSAME                1      /* Set if not dupplicated records */
#define HA_PACK_KEY              2      /* Pack string key to previous key */
#define HA_SPACE_PACK_USED       4      /* Test for if SPACE_PACK used */
#define HA_VAR_LENGTH_KEY        8
#define HA_AUTO_KEY              16
#define HA_BINARY_PACK_KEY       32     /* Packing of all keys to prev key */
#define HA_NULL_PART_KEY         64
#define HA_FULLTEXT             128     /* For full-text search */
#define HA_UNIQUE_CHECK         256     /* Check the key for uniqueness */
#define HA_SPATIAL              1024    /* For spatial search */
#define HA_NULL_ARE_EQUAL       2048    /* NULL in key are cmp as equal */
#define HA_GENERATED_KEY        8192    /* Automaticly generated key */

key_part = 0x7f6514020860 这个指针指向一个KEY_PART_INFO数组，存储了索引各个列的信息。

2.2 打印索引某一列的基本信息

(gdb) p s->table->key_info[1]->key_part[0]
$29 = {
  field = 0x7f6514020588, 
  offset = 5, 
  null_offset = 0, 
  length = 64, 
  store_length = 67, 
  key_type = 32768, 
  fieldnr = 2, 
  key_part_flag = 24, 
  type = 15 '\017', 
  null_bit = 1 '\001'
}

field = 0x7f6514020588 指向这个索引列使用数据表的那一列

offset = 5 改索引列从索引串的第一个偏移开始

null_offset = 0 null信息存储偏移

length = 64, 索引串长度

store_length = 67, 整个索引入口长度

…

2.3 打印索引某列详情

(gdb) p *s->table->key_info[1]->key_part[0]->field
$36 = {
  ...
  table = 0x7f6514023d30, 
  ...
  field_name = 0x7f651401fcf4 "nick", 
  ...
  key_start = {
    map = 2
  }, 
  part_of_key = {
    map = 2
  }, 
  part_of_key_not_clustered = {
    map = 2
  }, 
  part_of_sortkey = {
    map = 2
  }, 
  ...
}

table = 0x7f6514023d30 指向该列所在的数据表

field_name = 0x7f651401fcf4 “nick” 列名

key_start = 2 包含这个字段且为索引第一个字段的索引编号，2的二进制是10，也就是第二索引以该字段为起始

3. MySQL源码中如何使用索引信息

下面摘抄函数store_create_info(显示SHOW CREATE TABLE命令)显示索引信息部分的代码如下：

1351   for (uint i=0 ; i < share->keys ; i++,key_info++)
1352   {
1353     KEY_PART_INFO *key_part= key_info->key_part;
...
1357     if (i == primary_key && !strcmp(key_info->name, primary_key_name))
1358     {
1359       found_primary=1;
1364       packet->append(STRING_WITH_LEN("PRIMARY KEY"));
1365     }
1366     else if (key_info->flags & HA_NOSAME)
1367       packet->append(STRING_WITH_LEN("UNIQUE KEY "));
...
1372     else
1373       packet->append(STRING_WITH_LEN("KEY "));
...
1380     for (uint j=0 ; j < key_info->key_parts ; j++,key_part++)
1381     {
...
1401     }
1402     packet->append(')');
1403     store_key_options(thd, packet, table, key_info);
1404     if (key_info->parser)
1405     {
...
1410     }
1411   }

小结：

(1) 可以看到MySQL如何遍历一个表的所有索引

key_info= table->key_info;
for (uint i=0 ; i < share->keys ; i++,key_info++)
{
  ...
}

(2) 可以看到MySQL如何根据key_info->flags字段如何区分唯一索引，全文索引等

(3) 可以看到MySQL如何遍历一个索引的所有字段：

KEY_PART_INFO *key_part= key_info->key_part;
for (uint j=0 ; j < key_info->key_parts ; j++,key_part++)
{
  ...
}

(4) 查看完整的这个函数还可以看到MySQL如何读取数据表的各个column

[全文完]