1. DNS解析污染或解析记录被篡改;2. 域名解析生效延迟(TTL仍在缓存);3. DNS提供商在区域内的节点故障或被劫持;4. 节点IP被防火墙/机房封禁。
1. 使用dig或nslookup检查不同地区解析:dig +short @8.8.8.8 域名;2. 比对权威DNS与本地缓存结果,确认是否为权威记录不一致;3. 查询WHOIS与域名解析商后台是否有异常改动;4. 若疑似污染,临时切回备用DNS或降低TTL加速切换。
1. 用curl -I 或浏览器分别访问不同解析到的IP,确认返回头部与响应码;2. 在多台境外节点(如大陆以外VPS或第三方监测)做抓包,排查中间被劫持;3. 如果DNS被篡改,立即调整为可信DNS并同步备案和域名注册信息。
优先按“前端->CDN->回源->源站->网络”顺序排查,先确认是否是公共节点问题,再看回源链路与源站健康。
1. 用curl --resolve 强制指定回源IP测试:curl -v --resolve 域名:80:回源IP http://域名/,查看回源响应;2. 检查CDN控制台回源健康与回源并发/限流策略;3. 登录源站查看web服务进程(ps/nginx -t/systemctl status);4. 查看源站日志 tail -n 200 /var/log/nginx/error.log 和 access.log,筛查大量 502/504 或后端超时。
1. 若CDN回源异常但源站正常,调整CDN回源配置或切换回源策略(IP轮换/备用回源);2. 若源站压力大,临时增加进程/扩容或启用降级页面;3. 若是网络抖动,联系机房或更换出站出口IP,必要时短期替换为其他机房节点。
原因包括内容重复、404/500大量存在、robots.txt或meta noindex误配置、IP被列入黑名单或速度/UX问题。
1. 使用site:域名 检查索引数量差异,并对比正常站点;2. 检查robots.txt 与页面是否误设置为noindex;3. 检查canonical标签是否正确指向主站,避免站群间互相Canonical错误;4. 在搜索引擎站长平台查看抓取异常、手动操作通知(如谷歌Search Console/百度站长平台)。
1. 修复robots和meta,提交sitemap并请求重新抓取;2. 优化重复内容,采用本地化差异化或为非目标站点加入noindex;3. 检查并移除隐藏链、灰色SEO行为,若被惩罚按平台指引申诉并补救。
判断是否为证书到期、证书链不完整、SNI配置错误或中间证书缺失,以及是否为客户端缓存问题。
1. 用openssl s_client -connect 域名:443 -servername 域名 查看证书链和过期时间;2. 检查web服务器配置(nginx/apache)是否加载了完整链文件;3. 若使用负载均衡/CDN,确认证书是否已在边缘节点更新;4. 临时措施可通过HTTP强制跳转到HTTPS前先回退为HTTP或使用备用证书(注意安全和SEO影响)。
1. 在多个浏览器/设备上清除缓存并重试;2. 在SSL Labs或在线工具测试证书链与兼容性;3. 确认移动端和爬虫访问均无证书警告,必要时在CDN面板刷新边缘证书配置。
建立分级告警、标准化排障SOP、责任到人、以及常用工具和自动化脚本库是关键。
1. 监控项:域名解析、证书到期、回源延时、错误率(5xx)、页面关键路径响应时间、带宽与CPU/内存;2. 告警分级:P0(全站不可用)、P1(重要节点异常)、P2(性能下降)、P3(非紧急);3. 工具:Prometheus/Grafana、Zabbix、UptimeRobot、日志中心(ELK/Graylog)、自动化运维脚本(Ansible/SSH批量脚本)。
1. 制定并演练常见故障流程(DNS污染、回源超时、证书异常、被黑/流量攻击);2. 建立故障模板(检测命令、临时回退命令、联系方式清单);3. 定期演练和复盘,将演练结果写入知识库,确保新人能在短时间内跟随SOP排障。