# 理论先行
- postgresql执行SQL语句时,首先通过语法分析模块(词法分析、语法分析(语法树)、语义分析(查询树)),然后通过查询优化器进行逻辑优化和物理优化,生成计划树,就是执行计划。
- 逻辑优化: 是基于规则的优化,对SQL进行重写。比如谓词下推,连接顺序交换等。
- 物理优化:是基于代价的优化,数据库建立了各种代价模型,对各种物理路径进行代价的评估,选择一条代价相对较低的执行。物理路径包括扫描路径、连接路径等。
- 代价计算: 代价的计算需要用到统计信息和选择率。统计信息记录了表内数据的抽样信息,定期进行统计。根据统计信息,数据库可以计算出一个约束条件可以过滤掉多少数据,计算出选择率。根据选择率可以得到各种物理路径的代价。
- 连接路径: 嵌套循环连接、哈希连接、归并连接。
# 查询类语句的处理
postgresql对查询类语句的优化过程,除了语法分析过程和词法分析过程以外还需进行:
将原始语法树转换为查询语法树;
以查询语法树为基础对其进行逻辑优化;
对查询语句进行物理优化;
查询计划创建等过程。
# 具体流程介绍
根据本人知识沉淀以及相关资料的查阅,以下提供各位本人对查询类语句优化过程的理解
(1)将原始语法树转换为查询语法树
经过词法分析和语法分析后,postgresql需要将原始语法树转换为查询语法树并在转换过程中进行语义方面合法性检查。例如基表的有效性检查和目标列的有效性检查及展开等。transformStmt函数依据查询语句的类型进行相应语法树到查询书的转换工作。
(2)基于规则的查询改写
经过转换操作后,查询引擎获得Query类型的查询树,然后依据系统中定义的规则对查询树进行依据规则的改写操作。例如视图的改写等。
(3)查询逻辑优化
逻辑优化阶段中,会对所有导致查询变慢的语句进行等价变换,依据数据库理论中给出的经典优化策略:选择下推,从而尽可能减少中间结果的产生。即所谓的先做选择操作,后做投影操作。
例如,对“in”和“exists”的处理,则是将查询变为“join”连接查询,使得子链接中的子查询有机会与父查询语句进行合并优化。
(4)查询物理优化
该阶段最主要的任务是选择出一条查询代价最优的查询访问路径。依据逻辑优化阶段所得的查询语法树为基础,构建一条最小查询访问代价的查询路径。
(5)创建查询计划
在成功获得一条查询访问路径后,查询引擎会以此为蓝本创建对应的查询计划。