行业资讯
分享专栏文章,携手打造高质量产品
当前位置:首页 > 行业资讯 > 大厂业界P0级事故频发,背后真相竟是……
大厂业界P0级事故频发,背后真相竟是……
发布时间:2023-12-05 浏览数:0
在信息化快速发展时代,大厂服务器宕机已屡见不鲜,即使在互联网行业最为发达的硅谷,也曾有过不少此类黑历史。

在信息化快速发展时代,大厂服务器宕机已屡见不鲜,即使在互联网行业最为发达的硅谷,也曾有过不少此类黑历史。然而,近几年的情况似乎比以往更加频繁和严重。服务器宕机频繁发生,同时伴随着长期的降本增效措施和大范围裁员,这不禁引发了网友们的猜测,如“开猿节流”、“降本增笑”等幽默调侃。

到底背后真相如何让我们一起来看下。

3月,唯品会329宕机故障12小时登上热搜,公告称南沙IDC冷冻系统故障,机房设备温度快速升高宕机,线上商城停止服务,造成业绩损失超亿元,影响客户达800万,判定为P0级故障。

10月,语雀云笔记宕机8小时,服务团队在进行升级操作时,由于新的运维升级工具bug,导致生产环境存储服务器被误下线,影响数千万用户。

11月,阿里云多服务异常,包括闲鱼、钉钉、阿里云盘、饿了么、天猫精灵、夸克等崩溃无法访问,管理员发布公告称阿里云产品控制台及API调用异常。

12月,滴滴崩溃持续12小时,预估损失千万订单和超4亿交易额,起因是底层系统软件故障。也有网友对此质疑,传真实原因是K8s版本升级错误,导致控制节点挂了。



回顾国际宕机事件

Facebook史上最严重宕机长达7小时,市值蒸发数百亿。 

ChatGPT和API服务出现100分钟严重停机,网友报告OpenAI的ChatGPT和API全都无法使用。

作为全球最受瞩目的科技公司,苹果全球服务经历55分钟大规模宕机,用户Apple ID/iCloud账户登出,无法登录。宕机原因是数据中心严重故障,导致多项服务无法正常运行。

还有谷歌、特斯拉、云计算巨头OVH等均出现过严重的宕机事故。

 微信图片_20231205094502

服务器宕机是个复杂的问题,可能受到多重因素的影响,背后的原因也比我们想象的复杂,但大致可以分为以下几大原因

1. 系统升级失败:在测试未完全覆盖的情况下进行上线可能导致系统不稳定,进而引发服务器宕机。

2. 服务器故障:遭遇诸如天灾人祸等不可抗力因素可能导致服务器宕机。

3. 第三方服务故障:使用第三方组件可能会导致组件挂掉,进而导致服务失效。

4. 黑客攻击:遇到黑客攻击可能会导致系统受损。

前两者发生的概率占大多数,但无论人为还是非人为因素,都无法完全避免,从这些事故中,我们可以得到一些启发:

1.备份和灾备:备份和灾备计划是防止在线业务中断的关键。对于关键数据和应用程序,需要定期备份,并且需要将备份数据存储在安全的地方,以防止数据丢失。

2.监控和告警:监控和警报系统可以帮助及时发现线上业务出现的问题。需要建立完善的监控和警报系统,以便能够实时监控应用程序、服务器和网络的状态,并在出现问题时立即发出警报。

3.定期进行安全性和可靠性测试:定期进行安全性和可靠性测试可以帮助发现潜在的问题和漏洞。需要对应用程序、服务器和网络进行测试,以确保它们能够在各种情况下正常运行。

4.系统演练和压力测试:模拟各种故障和异常情况,验证系统的稳定性和可靠性。同时,进行回滚测试,确保回滚操作的可行性和正确性。

5.性能优化:对系统进行性能优化,提高系统的响应速度和吞吐量。通过合理的缓存策略、数据库优化、代码优化等手段,提升系统的性能。

6.实施容错机制:容错机制可以帮助在线业务在发生故障时自动恢复。可以实施一些容错技术,如负载均衡、冗余系统和故障转移等。

7.自动化部署和回滚:采用自动化部署工具,确保服务器的配置和应用程序的部署过程可重复、可靠。同时,建立回滚机制,当部署出现问题时,能够快速回滚到上一个稳定版本。

8.持续改进:从事故中吸取教训,持续改进在线业务的可靠性和稳定性。需要分析事故的原因,并采取适当的措施来避免类似的事故再次发生。同时,需要持续监控在线业务的状态,并及时解决潜在的问题。

 

在移动互联网占据主导地位的商业环境中,齿轮效应的显著性超越了以往任何时期。各个零部件之间相互紧密衔接,构成了一个无懈可击的联动系统。对于任何互联网企业而言,无论是服务器硬件故障、网络问题还是软件bug,都可能导致系统宕机。一个小失误,经过无数环节的层层传导、不断放大,最终将给整条产业链、几乎所有参与者带来难以忽视的影响。因此,对于互联网企业而言,必须采取有效措施来降低此类风险的发生概率,并确保系统的稳定性和可靠性。