MySQL 查询执行过程深度解析

MySQL 作为最流行的开源关系型数据库之一，几乎无处不在。从电商平台的订单查询到社交应用的动态加载，MySQL 的性能直接决定了用户的体验。本文将尝试深入剖析 MySQL 执行查询的完整过程。
一、MySQL 整体架构MySQL 采用经典的服务层-存储引擎层分离架构，这种插件式设计使得 MySQL 能够支持多种存储引擎，同时保持核心功能的统一性。
1.1 分层架构设计flowchart TD
    subgraph A [客户端层]
        Client[应用程序/客户端工具]
    end

    subgraph B [MySQL Server 服务层]
        direction TB
        C[连接器 Connection Handler]
        P[分析器 Parser]
        O[优化器 Optimizer]
        E[执行器 Executor]

        C --> P
        P --> O
        O --> E
    end

    subgraph C [存储引擎层 Storage Engine]
        direction TB
        I[InnoDB]
        M[MyISAM]
        M2[Memory]
        M3[其他引擎]
    end

    Client -- SQL语句/结果集 --> C
    E -- 调用存储引擎API --> I
    E -- 调用存储引擎API --> M
    E -- 调用存储引擎API --> M2
    E -- 调用存储引擎API --> M3
    I -- 返回数据 --> E
    M -- 返回数据 --> E
    M2 -- 返回数据 --> E
    M3 -- 返回数据 --> E1.2 核心组件职责分工

组件
职责
关键技术


连接器
管理客户端连接、身份认证、权限验证
TCP 连接管理、SSL 加密、权限缓存

分析器
SQL 语句的词法分析和语法分析
词法解析器、语法解析器、AST 构建

优化器
生成最优执行计划
成本模型、统计信息、索引选择

执行器
执行查询计划、协调存储引擎
火山模型、向量化执行

存储引擎
数据存储、索引管理、事务处理
InnoDB 的 MVCC、Buffer Pool
二、查询执行完整流程MySQL 执行查询的过程是一个分层、协作的复杂系统，让我们通过详细的序列图来展示整个流程：
2.1 完整执行序列图sequenceDiagram
    participant Client as 客户端
    participant Connector as 连接器
    participant Parser as 分析器
    participant Optimizer as 优化器
    participant Executor as 执行器
    participant Storage as 存储引擎<br/>InnoDB

    Note over Client: 发起查询请求
    Client->>Connector: 1. 发送SQL查询
    Note over Connector: 2. 连接管理与权限验证

    Connector->>Parser: 3. 传递SQL语句
    Note over Parser: 4. 词法分析与语法分析

    Parser->>Optimizer: 5. 生成解析树
    Note over Optimizer: 6. 生成最优执行计划

    Optimizer->>Executor: 7. 传递执行计划
    Note over Executor: 8. 权限验证与执行准备

    loop 数据获取循环
        Executor->>Storage: 9. 调用存储引擎接口
        Note over Storage: 10. 在Buffer Pool或磁盘中查找
        Storage-->>Executor: 11. 返回数据行
    end

    Note over Executor: 12. 结果集处理
    Executor-->>Client: 13. 返回最终结果2.2 各阶段耗时分布根据实际性能分析，查询执行过程中各阶段的典型耗时分布如下：


阶段
耗时占比
主要影响因素


连接器
<1%
网络延迟、认证复杂度

分析器
1-3%
SQL 语句复杂度

优化器
5-10%
表数量、索引复杂度

执行器+存储引擎
85-95%
数据量、索引效率、IO 性能
三、连接器：建立通信桥梁连接器是 MySQL 与客户端交互的第一道关口，负责建立、管理和维护客户端连接。
3.1 连接建立详细过程
-- 客户端连接示例
mysql -h127.0.0.1 -P3306 -uroot -p database_name连接建立步骤：
TCP 三次握手：建立网络连接，默认端口 3306
SSL/TLS 协商：如果配置了 SSL，进行加密握手（MySQL 8.0 默认启用）
身份认证：验证用户名、密码、主机权限
权限加载：从 mysql.user 系统表读取用户权限并缓存
字符集设置：协商客户端与服务端的字符集
3.2 连接管理与性能优化
-- 查看当前连接状态
SHOW PROCESSLIST;

-- 连接相关配置参数
SHOW VARIABLES LIKE 'max_connections';      -- 最大连接数（默认151）
SHOW VARIABLES LIKE 'wait_timeout';         -- 非交互连接超时（默认28800秒）
SHOW VARIABLES LIKE 'interactive_timeout';  -- 交互连接超时（默认28800秒）
SHOW VARIABLES LIKE 'max_connect_errors';   -- 最大连接错误数连接池的重要性：
避免连接风暴：频繁建立连接消耗大量资源
减少认证开销：连接复用避免重复权限验证
提高响应速度：已建立的连接可以立即处理查询
3.3 连接状态监控
-- 详细连接信息查询
SELECT
    id,
    user,
    host,
    db,
    command,
    time,
    state,
    info
FROM information_schema.processlist
WHERE command != 'Sleep';

-- 连接统计信息
SHOW STATUS LIKE 'Threads_connected';
SHOW STATUS LIKE 'Threads_running';
SHOW STATUS LIKE 'Aborted_connects';四、分析器：理解 SQL 意图分析器负责将 SQL 字符串转换为 MySQL 内部可以理解的结构，主要包括词法分析和语法分析两个阶段。
4.1 词法分析：拆分 SQL 语句示例 SQL：
SELECT id, name FROM users WHERE age > 18 AND status = 'active';词法分析过程：
flowchart TD
    A[原始SQL字符串] --> B[词法分析器 Lexer]
    B --> C[字符流扫描]
    C --> D[识别Token]
    D --> E[关键字: SELECT]
    D --> F[标识符: id]
    D --> G[分隔符: ,]
    D --> H[标识符: name]
    D --> I[关键字: FROM]
    D --> J[标识符: users]
    D --> K[关键字: WHERE]
    D --> L[标识符: age]
    D --> M[操作符: >]
    D --> N[数值: 18]
    D --> O[关键字: AND]
    D --> P[标识符: status]
    D --> Q[操作符: =]
    D --> R[字符串: 'active']

    E --> S[Token序列]
    F --> S
    G --> S
    H --> S
    I --> S
    J --> S
    K --> S
    L --> S
    M --> S
    N --> S
    O --> S
    P --> S
    Q --> S
    R --> S4.2 语法分析：构建抽象语法树（AST）语法分析器根据 MySQL 的语法规则验证 Token 序列，构建解析树：
graph TD
    Root[SELECT查询] --> SelectList[SELECT子句]
    Root --> FromClause[FROM子句]
    Root --> WhereClause[WHERE子句]

    SelectList --> Field1[字段: id]
    SelectList --> Field2[字段: name]

    FromClause --> Table[表: users]

    WhereClause --> AndCondition[AND条件]
    AndCondition --> Condition1[比较条件: age > 18]
    AndCondition --> Condition2[比较条件: status = 'active']

    Condition1 --> Col1[列: age]
    Condition1 --> Op1[操作符: >]
    Condition1 --> Val1[值: 18]

    Condition2 --> Col2[列: status]
    Condition2 --> Op2[操作符: =]
    Condition2 --> Val2[值: 'active']4.3 常见语法错误处理
-- 错误示例1：缺少关键字
SELECT id, name users WHERE age > 18;
-- 错误: You have an error in your SQL syntax near 'users WHERE age > 18'

-- 错误示例2：括号不匹配
SELECT * FROM (users WHERE id = 1;
-- 错误: You have an error in your SQL syntax

-- 错误示例3：非法字符
SELECT * FROM users WHERE name = "John";  -- 双引号应改为单引号五、优化器：MySQL 的智能决策引擎优化器是 MySQL 查询执行过程中最复杂的组件，负责生成最高效的执行计划。MySQL 8.0+在优化器方面有显著改进。
5.1 优化器决策流程graph TB
    A[预处理后的AST] --> B[逻辑优化阶段]
    B --> C[常量折叠 Constant Folding]
    B --> D[谓词下推 Predicate Pushdown]
    B --> E[子查询优化 Subquery Optimization]
    B --> F[等价变换 Equivalence Transformation]

    C --> G[物理优化阶段]
    D --> G
    E --> G
    F --> G

    G --> H[生成候选执行计划]
    H --> I[成本估算 Cost Estimation]
    I --> J{选择成本最低计划}
    J --> K[输出最终执行计划]

    subgraph "成本模型 Cost Model"
        L[IO成本] --> I
        M[CPU成本] --> I
        N[内存成本] --> I
        O[网络成本] --> I
    end

    subgraph "统计信息 Statistics"
        P[表统计信息] --> I
        Q[索引统计信息] --> I
        R[列统计信息] --> I
    end5.2 MySQL 8.0+优化器新特性5.2.1 哈希连接（Hash Join）MySQL 8.0.18+引入了哈希连接算法，对于大表连接查询性能有显著提升
-- 启用哈希连接（默认已启用）
SET optimizer_switch='hash_join=on';

-- 示例：大表连接查询
EXPLAIN SELECT *
FROM orders o
JOIN customers c ON o.customer_id = c.id
WHERE o.amount > 1000;哈希连接特性：
版本演进：8.0.18 版本引入，8.0.20 版本加强
适用场景：无索引的等值连接查询
算法原理：对较小的表创建哈希表，然后扫描大表进行匹配
性能优势：避免嵌套循环连接的 O(n²)复杂度，适合内存充足的大表连接
5.2.2 成本模型改进MySQL 8.0 改进了成本估算模型，更准确地反映现代硬件特性：
-- 查看成本模型配置
SHOW VARIABLES LIKE 'optimizer_switch';

-- 重要的成本模型参数
SHOW VARIABLES LIKE 'optimizer_search_depth';  -- 搜索深度
SHOW VARIABLES LIKE 'range_optimizer_max_mem_size';  -- 范围优化内存限制5.3 执行计划生成示例
-- 复杂查询示例
EXPLAIN
SELECT c.name, COUNT(o.id) as order_count, AVG(o.amount) as avg_amount
FROM customers c
LEFT JOIN orders o ON c.id = o.customer_id
WHERE c.city = 'Shanghai' AND o.create_time > '2024-01-01'
GROUP BY c.id
HAVING order_count > 5
ORDER BY avg_amount DESC
LIMIT 100;优化器需要决策的关键问题：
驱动表选择：customers 表还是 orders 表？
访问方法：全表扫描 vs 索引扫描 vs 范围扫描
连接顺序：多表连接的执行顺序
连接算法：Nested Loop Join vs Hash Join
分组排序策略：使用临时表还是文件排序
5.4 EXPLAIN ANALYZE 实战分析MySQL 8.0.18+提供了EXPLAIN ANALYZE功能，可以获取实际的执行统计信息：
-- 传统EXPLAIN（预估执行计划）
EXPLAIN SELECT * FROM users WHERE age > 25;

-- MySQL 8.0+的EXPLAIN ANALYZE（实际执行统计）
EXPLAIN ANALYZE SELECT * FROM users WHERE age > 25;EXPLAIN ANALYZE 核心特性：
实际执行：不仅计划查询，还实际执行并测量性能
时间统计：提供每个执行阶段的真实耗时
行数统计：显示实际处理的行数，与预估对比
循环统计：记录循环执行次数
EXPLAIN ANALYZE 输出示例：
-> Filter: (users.age > 25)  (cost=10.5 rows=50) (actual time=0.1..2.3 rows=48 loops=1)
    -> Index range scan on users using idx_age  (cost=10.5 rows=50) (actual time=0.09..1.8 rows=50 loops=1)关键指标解读：
actual time：实际执行时间（格式：最小时间..最大时间）
rows：实际处理的行数
loops：循环次数
cost：优化器估算的成本（可与实际时间对比）
六、执行器执行器负责协调整个查询执行过程，调用存储引擎接口获取数据，并应用各种过滤、排序、分组操作。
6.1 执行器工作流程
  # 伪代码：执行器工作逻辑
def execute_query(execution_plan):
    # 1. 最终权限检查
    if not has_permission(current_user, table, 'SELECT'):
        raise PermissionError("Access denied")

    # 2. 初始化存储引擎交互
    storage_engine = get_storage_engine(table)
    iterator = storage_engine.init_scan(execution_plan)

    # 3. 循环获取数据（火山模型）
    results = []
    while True:
        row = storage_engine.get_next_row(iterator)
        if row is None:
            break

        # 4. 应用WHERE条件过滤
        if satisfies_conditions(row, execution_plan.where_conditions):
            # 5. 字段投影
            processed_row = project_columns(row, execution_plan.select_list)
            results.append(processed_row)

    # 6. 后处理操作
    if execution_plan.need_group_by:
        results = apply_group_by(results, execution_plan.group_columns)

    if execution_plan.need_having:
        results = apply_having(results, execution_plan.having_conditions)

    if execution_plan.need_order_by:
        results = apply_order_by(results, execution_plan.sort_columns)

    if execution_plan.need_limit:
        results = apply_limit(results, execution_plan.limit_count)

    return results6.2 执行器与存储引擎交互执行器通过统一的 Handler API 调用存储引擎：
-- 执行器调用存储引擎的典型模式

-- 1. 初始化扫描
handler->ha_index_first()  -- 索引首记录
handler->ha_index_last()   -- 索引末记录
handler->ha_rnd_init()     -- 全表扫描初始化

-- 2. 获取数据
handler->ha_index_next()   -- 索引下一记录
handler->ha_index_prev()   -- 索引前一记录
handler->ha_rnd_next()     -- 全表扫描下一记录
handler->ha_rnd_pos()      -- 根据位置获取记录

-- 3. 关闭扫描
handler->ha_index_end()    -- 结束索引扫描
handler->ha_rnd_end()      -- 结束全表扫描6.3 火山模型（Volcano Model）MySQL 采用经典的火山模型执行查询：
flowchart TD
    A[查询根节点] --> B[获取下一行]
    B --> C{是否有更多行?}
    C -->|是| D[返回当前行]
    C -->|否| E[结束查询]
    D --> B

    subgraph "操作符管道"
        F[扫描操作符] --> G[过滤操作符]
        G --> H[连接操作符]
        H --> I[排序操作符]
        I --> J[分组操作符]
    end

    A -.-> F
    J -.-> B火山模型特点：
迭代器接口：每个操作符实现open(), next(), close()方法
流水线执行：数据流式处理，减少内存占用
懒加载：按需获取数据，避免一次性加载所有数据
七、存储引擎：数据存储与检索存储引擎层负责数据的物理存储和访问，以最常用的 InnoDB 引擎为例进行深入分析。
7.1 InnoDB 内存结构flowchart TD
    A[查询请求] --> B[InnoDB Buffer Pool]
    B --> C{数据页是否在内存中?}
    C -->|是| D[从内存返回数据]
    C -->|否| E[从磁盘加载数据页]
    E --> F[LRU算法管理缓存]
    F --> D

    subgraph "Buffer Pool结构"
        G[数据页缓存区] --> H[索引页缓存区]
        H --> I[自适应哈希索引]
        I --> J[更改缓冲区 Change Buffer]
    end

    B -.-> G7.2 索引访问过程7.2.1 聚簇索引（主键索引）访问
-- 基于主键的查询
SELECT * FROM users WHERE id = 123;访问路径：
在聚簇索引 B+树中查找 id=123 的叶子节点
直接获取完整的行数据
返回结果
7.2.2 二级索引访问
-- 基于二级索引的查询
SELECT * FROM users WHERE email = 'user@example.com';访问路径：
在idx_email二级索引树中查找'user@example.com'
获取对应的主键值
回表操作：使用主键到聚簇索引中查找完整行数据
返回完整行数据
7.2.3 覆盖索引优化
-- 创建覆盖索引
CREATE INDEX idx_covering ON users(email, name, age);

-- 查询只需索引列，避免回表
SELECT email, name FROM users WHERE email LIKE 'john%@example.com';7.3 MVCC（多版本并发控制）InnoDB 通过 MVCC 实现非阻塞读操作：
sequenceDiagram
    participant T1 as 事务1（写）
    participant T2 as 事务2（读）
    participant MVCC as MVCC机制
    participant Undo as Undo Log

    T1->>MVCC: UPDATE users SET name='John' WHERE id=1
    MVCC->>Undo: 保存修改前镜像（name='Tom'）
    MVCC->>MVCC: 创建新版本数据

    T2->>MVCC: SELECT name FROM users WHERE id=1
    MVCC->>MVCC: 根据ReadView判断可见性
    MVCC->>Undo: 读取事务开始时的数据版本
    Undo-->>MVCC: 返回name='Tom'
    MVCC-->>T2: 返回name='Tom'MVCC 关键组件：
Undo Log：保存数据修改前的版本
ReadView：事务可见性判断
事务 ID：每个事务的唯一标识
回滚指针：指向历史版本链
7.4 Buffer Pool 调优
-- 查看Buffer Pool状态
SHOW ENGINE INNODB STATUS\G

-- Buffer Pool相关配置
SHOW VARIABLES LIKE 'innodb_buffer_pool_size';        -- 缓冲池大小
SHOW VARIABLES LIKE 'innodb_buffer_pool_instances';  -- 缓冲池实例数
SHOW VARIABLES LIKE 'innodb_old_blocks_pct';          -- 老生代比例
SHOW VARIABLES LIKE 'innodb_old_blocks_time';        -- 老生代停留时间调优建议：
innodb_buffer_pool_size设置为系统内存的 50-70%
innodb_buffer_pool_instances设置为 CPU 核心数
监控Innodb_buffer_pool_reads和Innodb_buffer_pool_read_requests命中率
The End
MySQL 查询执行过程深度解析

一、MySQL 整体架构

1.1 分层架构设计

1.2 核心组件职责分工

二、查询执行完整流程

2.1 完整执行序列图

2.2 各阶段耗时分布

三、连接器：建立通信桥梁

3.1 连接建立详细过程

3.2 连接管理与性能优化

3.3 连接状态监控

四、分析器：理解 SQL 意图

4.1 词法分析：拆分 SQL 语句

4.2 语法分析：构建抽象语法树（AST）

4.3 常见语法错误处理

五、优化器：MySQL 的智能决策引擎

5.1 优化器决策流程

5.2 MySQL 8.0+优化器新特性

5.2.1 哈希连接（Hash Join）

5.2.2 成本模型改进

5.3 执行计划生成示例

5.4 EXPLAIN ANALYZE 实战分析

六、执行器

6.1 执行器工作流程

6.2 执行器与存储引擎交互

6.3 火山模型（Volcano Model）

七、存储引擎：数据存储与检索

7.1 InnoDB 内存结构

7.2 索引访问过程

7.2.1 聚簇索引（主键索引）访问

7.2.2 二级索引访问

7.2.3 覆盖索引优化

7.3 MVCC（多版本并发控制）

7.4 Buffer Pool 调优

文章导航

版权声明

评论 (0)

暂无评论

组件	职责	关键技术
连接器	管理客户端连接、身份认证、权限验证	TCP 连接管理、SSL 加密、权限缓存
分析器	SQL 语句的词法分析和语法分析	词法解析器、语法解析器、AST 构建
优化器	生成最优执行计划	成本模型、统计信息、索引选择
执行器	执行查询计划、协调存储引擎	火山模型、向量化执行
存储引擎	数据存储、索引管理、事务处理	InnoDB 的 MVCC、Buffer Pool
阶段	耗时占比	主要影响因素
连接器	<1%	网络延迟、认证复杂度
分析器	1-3%	SQL 语句复杂度
优化器	5-10%	表数量、索引复杂度
执行器+存储引擎	85-95%	数据量、索引效率、IO 性能