RDS链路卡慢问题的诊断

  • 时间:
  • 浏览:0

案例分析一:

当朋友测试超出DNS连接比较耗时,同去使用vip连接也比较耗时的完后 ,则表明RDS的VIP链路老是出现了异常,这人完后 还还还可不可否提交RDS的工单,让后端的人员进行排查。

在朋友被委托人vm上部署的探测测试:(DNS连接)

用户应用进程从半夜三更三更0:05左右老是过后结束了了老是出现连接RDS超时,RDS,ECS的cpu,网络,io负载都在高,将会影响用户的正常使用,用户的报错截图:

案例分析二:

第一步:获取链路RT

排查用户的RDS,ECS的cpu,io负载都在高,但在数据库中发现了有network io的等候,是都在网络老是出现了异常,统统这人完后 时要测试正常的一次连接RDS时要消耗多久的时间,通过SQLping发现了重要线索:

(2)    当VIP 链路老是出现难题:

为了验证用户所说的APP连接RDS老是出现连接超时的具体情况,朋友时要部署监控,看看监控中是否与应用中的超时时间一致,于是在用户app以及朋友的一台vm上部署sqlping,用于实时探测用户的rds是否地处连接超时的具体情况:

(1)    当DNS链路服务老是出现难题:

       朋友还还还可不可否在本地的应用服务器(VM)上通过简单的ping命令,将会数据库的客户端去不断的连接测试RDS,来获取每次连接RDS的响应时间(RT)。在正常具体情况下RT应该小于20ms以内,将会超出10ms,则表明了RDS的网络链路老是出现了异常,这人完后 朋友就时要去排查一下是在哪里老是出现了难题:

(3)    正常具体情况下的链路表现:

还还还可不可否看到无论从用户本地的app环境去连接RDS,还是从朋友被委托人的vm去连接RDS,都在非常快的,那么 老是出现过超时:统统链路上是那么 难题的;

用户在3台不同的vm上去连接测试RDS,发现都老是出现了絮状的连接时间高将会超时,证明了RDS的链路上虽然地处了难题,这人完后 给你提工单进行反馈;进一步去探测DB节点的RT,结果发现在后端的DB服务器上老是出现了异常,最终定位难题在后端的物理服务器上硬件老是出现了难题,在替换硬件后难题得以处理。

最后建议用户从业务上去排查是否地处异常,最终定位应用异常导致 。

用户端的APPàRDS测试:(DNS连接)

正常具体情况下,通过DNS将会vip的最好的办法去连接RDS,RT应该在20ms以下。

用户反馈实例老是出现写入效率过慢.写入效率不如正常具体情况下1/10.

老是会收到用户反馈在使用RDS的过程中老是出现卡慢,闪断地具体情况,当老是出现此类难题的完后 ,首先朋友要进行一下测试,看看难题老是出现在哪有另有一个 阶段,RDS给到用户的是有另有一个 DNS地址,虽然他包括有另有一个 阶段:DNS–>VIP–>DB

当朋友测试出DNS的连接比较耗时,而使用vip连接正常的完后 ,则表明DNS解析比较耗时,此时的难题则老是出现在了DNS服务后边,这人完后 还还还可不可否尝试换用其它的DNS服务器,将会启用DNS缓存服务,将会暂时在hosts文件中绑定DNS和IP地址,等DNS服务恢复正常后在归还绑定(朋友强烈建议在正常具体情况下未必绑定RDS的DNS和IP地址,将会直接使用IP地址进行访问,将会RDS的IP地址将会会地处改变,绑定ip将会直连ip的最好的办法会导致 RDS访问出错);