「MySQL」- 检查复制状态

  CREATED BY JENKINSBOT

问题描述

在管理复制的过程中,确保复制正在进行是最常见的任务,并且要保证主从复制没有错误

执行 SHOW SLAVE STATUS \G 语句可以查看同步(复制)状态,该语句必须在从库上执行

但是该语句它会输出一大堆的内容,这些内容会经常让人摸不着头绪,不知所云。

本文将揭开面纱,详细介绍输出中各个字段的含义,以及它们所代表的信息。

关键字段

Slave_IO_State – 从库的当前状态

Section 8.14.6, “Replication Slave I/O Thread States”
Section 8.14.7, “Replication Slave SQL Thread States”

Checking master version – 在建立与主站的连接之后,非常短暂地发生的状态。
Connecting to master – 线程正在尝试连接到主服务器。
Queueing master event to the relay log – 线程已读取事件,并将其复制到 Relay Log ,以便SQL线程可以处理它。
Reconnecting after a failed binlog dump request – 线程正在尝试重新连接到主服务器。
Reconnecting after a failed master event read – 线程正在尝试重新连接到主服务器。 当再次建立连接时,状态变为:Waiting for master to send event
Registering slave on master – 建立与主站连接后非常短暂的状态。
Requesting binlog dump – 在建立与主站的连接之后,非常短暂地发生的状态。线程从请求的 Bin Log 文件名和位置开始向主机发送对其 Bin Log 内容的请求。
Waiting for master to send event – 线程已连接到主服务器并正在等待 Bin Log 事件到达。 如果主站空闲,这可能会持续很长时间。 如果等待持续slave_net_timeout秒,则发生超时。 此时,线程认为连接被破坏并尝试重新连接。
Waiting for master update – 在Connecting to master之前的初始状态
Waiting for slave mutex on exit – 线程停止时短暂发生的状态。
Waiting for the slave SQL thread to free enough relay log space – 您正在使用非零的relay_log_space_limit值,并且 Relay Log 已经增长到足以使其组合大小超过此值。 「I/O线程」正在等待,直到SQL线程通过处理 Relay Log 内容释放足够的空间,以便它可以删除一些 Relay Log 文件。
Waiting to reconnect after a failed binlog dump request – 如果 Bin Log 转储请求失败(由于断开连接),则线程在休眠时进入此状态,然后尝试定期重新连接。 可以使用CHANGE MASTER TO语句指定重试之间的间隔。
Waiting to reconnect after a failed master event read – 读取时发生错误(由于断开连接)。 在尝试重新连接之前,线程会进入休眠,休眠时时间是由CHANGE MASTER TO语句(默认为60)设置的秒数。

Slave_IO_Running – 用于读取主库 Bin Log 的「I/O线程」是否正在运行

除非尚未启动复制,或已使用STOP SLAVE明确停止复制,否则该字段的值通常为“Yes”。

Slave_SQL_Running – 执行 Relay Log 中事件的SQL线程是否正在运行

与「I/O线程」一样,通常应为“Yes”。

Last_IO_Errno – 处理 Relay Log 时「I/O线程」的最后一个错误编号

理想情况下,应该为零,表示没有错误。

Last_IO_Error – 处理 Relay Log 时「I/O线程」的最后一个错误

理想情况下,这些应为空白,表示没有错误。

Last_SQL_Errno – 处理 Relay Log 时SQL线程的最后一个错误编号

理想情况下,应该为零,表示没有错误。

Last_SQL_Error – 处理 Relay Log 时SQL线程的最后一个错误

理想情况下,这些应为空白,表示没有错误。

Seconds_Behind_Master – 从库SQL线程处理主 Bin Log 的落后的秒数

较高数字(或数字增加)可以表示从库无法及时处理来自主库的事件。

如果Seconds_Behind_Master为0值,通常可以解释为意味着从库已经赶上了主库,但在某些情况下,这不是严格正确的。例如,如果主站和主库之间的网络连接断开,但从库的「I/O线程」尚未注意到这一点,即在slave_net_timeout设置的超时尚未过去时,则会发生这种情况。

如果Seconds_Behind_Master为瞬态值也可能无法准确反映情况。当从库SQL线程赶上I/O时,Seconds_Behind_Master显示0;但是当从库「I/O线程」仍在排队新事件时,Seconds_Behind_Master可能会显示一个较大的值,直到SQL线程完成执行新事件。当事件具有旧时间戳时,这尤其可能,在这种情况下,如果您在相对较短的时间内多次执行SHOW SLAVE STATUS,您可能会看到此值在0和相对较大的值之间反复来回变化。

同步进度

Master_Log_File

表示 SLAVE 的「I/O线程」当前正在从 MASTER 中读取的 Bin Log 文件。

Read_Master_Log_Pos

它是 MASTER Bin Log 中的一个位置,表示从库的「I/O线程」已经读取到该位置。

可以在主库上执行SHOW MASTER STATUS语句,然后对比这两个值。

Relay_Master_Log_File

表示 SLAVE 正在执行 MASTER 的哪个 Bin Log 文件。这只是一种表示法,因为SQL线程真正执行的是 Relay Log 文件。

Exec_Master_Log_Pos

表示 SLAVE 已经执行到 MASTER 的 Bin Log 的哪个位置。这依旧只是一种表示法。

Relay_Log_File

表示 SLAVE 的「SQL线程」当前正在执行的中继文件。

Relay_Log_Pos

表示 SLAVE 的「SQL线程」已经执行到的 Relay Log 的哪个位置。

其他字段

Master_Host

主库的IP地址

Master_User

Master_Port

Connect_Retry

Replicate_Do_DB

Replicate_Ignore_DB

Replicate_Do_Table

Replicate_Ignore_Table

Replicate_Wild_Do_Table

Replicate_Wild_Ignore_Table

Last_Errno

Last_Error

Skip_Counter

Relay_Log_Space

Until_Condition

Until_Log_File

Until_Log_Pos

Master_SSL_Allowed

Master_SSL_CA_File

Master_SSL_CA_Path

Master_SSL_Cert

Master_SSL_Cipher

Master_SSL_Key

Master_SSL_Verify_Server_Cert

Replicate_Ignore_Server_Ids

Master_Server_Id

Master_UUID

Master_Info_File

SQL_Delay

SQL_Remaining_Delay

Slave_SQL_Running_State

Master_Retry_Count

Master_Bind

Last_IO_Error_Timestamp

Last_SQL_Error_Timestamp

Master_SSL_Crl

Master_SSL_Crlpath

Retrieved_Gtid_Set

Executed_Gtid_Set

Auto_Position

其他信息

语句SHOW STATUS也提供了一些与主从复制有关的信息。由语句SHOW STATUS显示的复制心跳信息允许您检查复制连接是否处于活动状态,即使主服务器最近未向从服务器发送事件也是如此。如果在比心跳间隔更长时间内,在 Bin Log 中没有更新,并且没有未发送的事件,则主库向从库发送心跳信号。主库上的MASTER_HEARTBEAT_PERIOD设置(由CHANGE MASTER TO语句设置)指定心跳的频率,默认为从库的连接超时间隔的一半(slave_net_timeout)。语句SHOW STATUSSlave_last_heartbeat变量显示复制从站上次收到心跳信号的时间。

在主库上,可以使用SHOW PROCESSLIST检查已连接从服务器的状态,以检查正在运行的进程列表。但是,由于是从库驱动的复制过程,所以显示的信息可能比较少。

对于使用–report-host选项启动,并连接到组库的从库,主库的SHOW SLAVE HOSTS语句显示有关从库的基本信息。输出包括从库的ID(Server_id)、–report-host选项的值、连接端口、主库ID(Master_id)。

常见错误

Got fatal error 1236 from master when reading data from binary
-「MySQL Replication: ‘Got fatal error 1236’ causes and cures

参考文献

MySQL 5.6 Reference Manual/SHOW SLAVE STATUS Syntax
MySQL 5.6 Reference Manual/16.1.7.1 Checking Replication Status
Trying to understand SHOW SLAVE STATUS\G
MySQL Replication: ‘Got fatal error 1236’ causes and cures
MySQL同步状态双Yes的假象及seconds_behind_master的含义
How does MySQL Replication work?