索引概要

索引是帮助mysql获取数据的数据结构。最常见的索引是

Btree索引
Hash索引

不同的引擎对于索引有不同的支持：

Innodb和MyISAM默认的索引是Btree索引；
Mermory默认的索引是Hash索引。

Hash索引

Mermory默认的索引是Hash索引。

所谓Hash索引，当我们要给某张表某列增加索引时，将这张表的这一列进行哈希算法计算，得到哈希值，

排序在哈希数组上。所以Hash索引可以一次定位，其效率很高，而Btree索引需要经过多次的磁盘IO，
但是innodb和myisam之所以没有采用它，是因为它存在着好多缺点.

Hash索引的缺点

Hash 索引仅仅能满足”=”,”IN”和”<=>”查询，不能使用范围查询。
由于 Hash 索引比较的是进行 Hash 运算之后的 Hash 值，所以它只能用于等值的过滤，不能用于基于范围的过滤，因为经过相应的 Hash 算法处理之后的 Hash 值的大小关系，并不能保证和Hash运算前完全一样。
Hash 索引无法被用来避免数据的排序操作。
由于 Hash 索引中存放的是经过 Hash 计算之后的 Hash 值，而且Hash值的大小关系并不一定和 Hash 运算前的键值完全一样，所以数据库无法利用索引的数据来避免任何排序运算；
Hash 索引不能利用部分索引键查询。
对于组合索引，Hash 索引在计算 Hash 值的时候是组合索引键合并后再一起计算 Hash 值，而不是单独计算 Hash 值，所以通过组合索引的前面一个或几个索引键进行查询的时候，Hash 索引也无法被利用。
Hash 索引在任何时候都不能避免表扫描。
前面已经知道，Hash 索引是将索引键通过 Hash 运算之后，将 Hash运算结果的 Hash 值和所对应的行指针信息存放于一个 Hash 表中，由于不同索引键存在相同 Hash 值，所以即使取满足某个 Hash 键值的数据的记录条数，也无法从 Hash 索引中直接完成查询，还是要通过访问表中的实际数据进行相应的比较，并得到相应的结果。
Hash 索引遇到大量Hash值相等的情况后性能并不一定就会比B-Tree索引高。
对于选择性比较低的索引键，如果创建 Hash 索引，那么将会存在大量记录指针信息存于同一个 Hash 值相关联。这样要定位某一条记录时就会非常麻烦，会浪费多次表数据的访问，而造成整体性能低下

Btree索引

Innodb和MyISAM默认的索引是Btree索引；
至于Btree索引，它是以B+树为存储结构实现的。
但是Btree索引的存储结构在Innodb和MyISAM中有很大区别。

btree索引在MyISAM中的实现

在MyISAM中，我们如果要对某张表的某列建立Btree索引的话，如图：

所以我们经常会说MyISAM中数据文件和索引文件是分开的。
因此MyISAM的索引方式也称为非聚集,
至于辅助索引，类似于主索引，唯一区别就是主索引上的值不能重复，而辅助索引可以重复。

因此当我们根据Btree索引去搜索的时候，若key存在，在data域找到其地址，然后根据地址去表中查找数据记录。

btree索引在Innodb中的实现

至于Innodb它跟上面又有很大不同，它的叶子节点存储的并不是表的地址，而是数据

我们可以看到这里并没有将地址放入叶子节点，而是直接放入了对应的数据，

这也就是我们平常说到的，Innodb的索引文件就是数据文件，

那么对于Innodb的辅助索引结构跟主索引也相差很多，如图：

我们可以发现，这里叶子节点存储的是主键的信息，

所以我们在利用辅助索引的时候，检索到主键信息，

然后再通过主键去主索引中定位表中的数据，这就可以说明Innodb中主键之所以不宜用过长的字段，由于所有的辅助索引都包含主索引，

所以很容易让辅助索引变得庞大。

我们还可以发现：在Innodb中尽量使用自增的主键，

这样每次增加数据时只需要在后面添加即可，

非单调的主键在插入时会需要维持B+tree特性而进行分裂调整，十分低效。

Btree索引中的最左匹配原则：

Btree是按照从左到右的顺序来建立搜索树的。

比如索引是(name,age,sex)，

会先检查name字段，如果name字段相同再去检查后两个字段。

所以当传进来的是后两个字段的数据（age，sex），

因为建立搜索树的时候是按照第一个字段建立的，所以必须根据name字段才能知道下一个字段去哪里查询。

所以传进来的是（name，sex）时，首先会根据name指定搜索方向，但是第二个字段缺失，所以将name字段正确的都找到后，然后才会去匹配sex的数据。

建立索引的规则：

利用最左前缀：
Mysql会一直向右查找直到遇到范围操作（>，<，like、between）就停止匹配。
比如a=1 and b=2 and c>3 and d=6；此时如果建立了（a, b, c, d）索引，那么后面的d索引是完全没有用到，当换成了（a, b, d, c）就可以用到。
不能过度索引：
在修改表内容的时候，索引必须更新或者重构，所以索引过多时，会消耗更多的时间。
尽量扩展索引而不要新建索引
最适合的索引的列是出现在where子句中的列或连接子句中指定的列。
不同值较少的列不必要建立索引（性别）。

练习题

数据索引的正确是(正确答案A, D)

A、一个表只能有一个聚族索引，多个非聚族索引
B、字符串模糊查询不适合索引
C、哈希索引有利于查询字段用于大小范围的比较查询
D、多余的索引字段会降低性能
Select A,B from Table1 where A between 60 and 100 order by B，下面哪些优化sql性能(正确答案B)

A、字段A 建立hash索引，字段 B不建立索引
B、字段 A 建立btree索引，字段 B不建立索引
C、字段A 不建立索引，字段 B建立btree索引