销售队伍中断:全球DNS垮台启动了一名工程师,尝试快速修复

“我们对发生的事情感到难过”


今天可以听到隆隆声橡胶的声音,因为Salesforce抛出了负责改变的工程师,这些工程师在通过公共汽车下击倒了它。

“我们不是责备一名员工,”首席可用官员Darryn Dieken在星期三的前半个小时在上半年发布中断时做得很多。

要回顾,请在5月11日左右UTC中,将配置更改应用于Salesforce的域名系统(DNS)服务器,这些系统导致人员 无法访问 软件 - AS-Service Titan的产品。大约五个小时,客户无法可靠地登录,事物变得如此糟糕,即使状态页也不可用。

销售队伍一直在更新公众 根本原因分析 从那以后,Dieken在向客户介绍之前说,在修复完成之前需要更多的调整。

在此期间,呼叫中,螺旋的全部揭示揭示,并且工程师关注的发射Busware。

虽然Dieken在Salesforce Towers内拥有自动化,但一些流程仍然是手动。其中一个与DNS有关(是的,它是 总是 DNS。)一个孤独的工程师是任务的,进行配置变更,以在澳大利亚连接新的Salesforce Hyperforce环境。

DNS改变不是一个罕见的发生,工程师还有一个四岁的脚本来完成这项工作。然而,虽然Salesforce通常“滞录者”的变化来减少爆炸半径的漏洞,但这种变化的手动性意味着它取决于工程师慢慢滚动。

这是,唉,没有发生。根据Dieken的说法,工程师错误地决定了通过使用所谓的紧急断裂 - 修复(EBF)过程来快捷方式快捷方式。当发生错误时,通常使用EBF,或者快速和广泛地需要紧急补丁。

下降EBF路线意味着较少的批准和缩短的过程并不渐进。嘿,这是一个使用过错的剧本,工程师为Salesforce工作了多年,这些变化很常见。什么可能出错?

在经典 谁,我? 时尚,而是很多。

我们不明白

“无论我们不明白的任何原因,员工都决定做一个全球部署,”Dieken继续了。因此绕过了通常的交错方法。 DNS更改意味着这些服务器需要重新启动。

本身不会是完全灾难。也许是一个短暂的停电,也许。但不是展开的灾难。

但是,它将其丢失在那种试验和信任的脚本中的潜伏是一个错误。在负载下,可能会发生超时,这将阻止其他东西运行。并熟悉,随着更新在所有Salesforce的数据中心推出时,发生了超时。这反过来意味着当服务器重新启动时不执行某些任务。反过来,这意味着这些服务器没有正确返回操作。让客户无法访问Salesforce的产品。

然后事情变得更糟。 Salesforce团队具有处理悲伤服务器的工具,并使用Dieken称为“我们的紧急玻璃过程”的内容来执行回滚并重新启动。

“在这种情况下,”他继续,“我们发现了一个循环依赖,我们使用要进入生产的工具有一个依赖于处于活动的DNS服务器。”

它总是DNS。

我们发现了一种循环依赖,我们使用要进入生产的工具有依赖于处于活动的DNS服务器

当然,员工最终进入服务器来解决它们,但由于客户感到敏锐地感受到敏锐,所以花了很多时间来撤消混乱。

至于即将举行的行动,要在将来停止手动全球部署的安全措施,并且该过程将自动化。 Dieken还承认,这些经验在Salesforce的测试覆盖范围内出现了差距 - 所需的脚本基本上需要更好地测试。最后,恢复工具对DNS的依赖性需要处理。

客户困惑,他们必须从社交媒体或这个非常器官中获得中断的官方词,而不是 状态页面毫无疑问,在启示时,最卑微的是,Salesforce Status网站跌倒的原因是由于自动规模没有打开该Web物业。 (在停机期间,Salesforce必须使用其文档网站向客户解释出现问题。)

“我们过度提供了足够的能力,以确保我们能够处理大型尖峰,”Dieken解释说,“,但我们从不预见我们有这种类型的负载。”

但是,不要担心,自动规模现在也在上,所以至少应该再次南方进入状态现场,不太可能令人尴尬地缺席。

和销售队员仔细制作政策的工程师并取下平台? “我们采取了这种特定的员工采取了行动,”Dieken说。 ®

类似主题


您可能喜欢的其他故事

咬住它的手©1998-2021