2023-11-12 阿里云全面崩溃,包括淘宝、阿里云、咸鱼、钉钉、语雀、饿了么等应用产品都相继出现无法访问的情况
简介
2023年11月12日17:39,阿里云云产品控制台访问及管控API调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务(AK)异常有关。
影响
官方给出的影响阿里云云产品控制台服务异常,当天实际影响, 阿里巴巴旗下的全线产品,包括淘宝、闲鱼、钉钉,以及使用阿里云服务的各类产品,全部出现了崩溃和系统故障的问题:
根因
访问密钥服务 (AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。
故障修复
- 17:39:阿里云云产品控制台访问及管控 API 调用出现异常。
- 17:50:工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调用异常,以及依赖 AK 服务的云产品服务运行异常。
- 18:01:工程师定位到根因。
- 18:07:开始执行恢复措施,包括修订白名单版本、重启 AK 服务。
- 18:35:杭州等 Region 开始恢复正常。
- 19:20:绝大部分 Region 的云产品控制台和管控 API 调用恢复正常。
预防措施
官方虽然给出了后续的改进措施,但根据作者的一些理解,改进还远远不够。下面是作者的一些思索:
- 灰度验证 增强对灰度变更的逻辑验证,提升告警拦截,异常感知能力。
- 感知能力 增强在灰度变更期间,对关联服务的健康状态检查和告警能力。
- 快速恢复 提升快速恢复能力,做好预案管理,应急管理。
- 去中心化 实现组件高可用,避免单点故障,循环依赖,控制故障爆炸半径。
最后更新于: 2025 年 03 月 13 日。 阅读量: 1。 链接地址: https://blog.bamaicloud.com/posts/2023-11-12-alibaba-system-fault/