AWS为Systems Manager添加了自动疑难解答器的“基本版本”,但它不是工程师的立场

“对于复杂的问题,只有人类专家将弄清楚”


AWS Systems Manager的一个新组件旨在协助处理事件。

AWS Systems Manager(以前称为SSM-Simple Systems Manager)于2017年推出,但它真的返回EC2 Systems Manager, 推出 late 2016.

“它开始作为管理EC2实例的一种方式,”Aws Evangelist Julien Simon告诉 企业技术新闻“例如,检查EC2舰队的修补状态。如果您有一对夫妇,可以手动进行,但如果您有100个实例,Linux和Windows,那就很难。”

当前系统管理器具有包括组织AWS资源,调度维护任务,收集自动库存数据的功能,以及查看指标和警报的摘要。管理员还可以通过SSM文档运行多个实例的命令和脚本。

SSM取决于EC2实例上安装的代理,代码是开源的 在GitHub上.

上周AWS为System Manager添加了一个新功能,调用 事件经理。为什么事故经理? “主要原因是客户正在寻找对AWS完全集成的解决方案,”西蒙说。

这个想法是通过CloudWatch,AWS监控服务或通过EventBridge事件总线发送的事件来触发事件。这些触发器在事故经理中的响应计划,其中响应计划是联系人,升级计划和流氓的组合。

事件管理器...从CloudWatch警报到响应计划,修复和分析

事件管理器...从CloudWatch警报到响应计划,修复和分析

一个 例子 当CloudWatch检测到EC2 VM上的高CPU使用量时,AWS给出了一个事件。 AWS解决方案中的往返联系人响应者,然后提供有关将实例附加到自动缩放组的说明。

如果电子商务网站不堪重负,那将是一个很好的解决方案,因为我们试图下订单,但如果错误的过程是没有充分理由的错误消耗CPU,那就不是那么好;人们希望响应者能够接受这一目标而不是盲目地扩大并给AWS赚更多钱。典型的流浪书有分类,诊断,缓解和恢复的步骤,包括事故后的报告。

谁是谁?

事件管理器不适用于最终用户,这些事件是技术事件而不是支持案例。也就是说,存在API,因此如果适当的话,可以在某些其他系统中具有支持情况触发事件。还有与OpsCenter的集成,Systems Manager的另一部分,它是用于操作工作项(Opsitems)的管理器,基本上是一个管理任务列表。事件管理器为其识别的任务生成OPSITEMS。这些OPSITEMS可以通过与JIRA和ServiceNOW等第三方票务系统同步。

事件经理可以完全自动化,以便问题自动修复?可悲的是,即使Runbook能够执行命令,也不太可能。 “对于复杂的问题,只有一个人类专家将弄清楚,”西蒙说。

也就是说,自动化过程可以“收集日志,确保维护页面在网站上,即早期步骤”,“他补充说。

问题可能是在简单拥有CloudWatch警报通知工程师时增加了多少价值事件管理器。 CloudWatch已经能够触发诸如重新启动EC2实例之类的操作,或配置自动缩放。

“我们始终建立一个基本的第一版,然后我们倾听客户,”西蒙说,当询问他将来希望看到什么告诉我们他希望有更复杂的条件 - “有点智力,有点智力更具灵活性。“

“我对客户的建议是,我们正试图为事件解决的最佳实践,这是由亚马逊的大型事件管理团队设计的。当亚马逊内部休息时,实际处理这些大问题的人AWS,“Simon补充道。

他还推荐了混沌工程作为测试事件响应的手段,例如通过使用AWS故障注射器模拟器介绍了一个 几个月前.

显而易见的是,事件经理在仔细配置时只会表现良好,并且挑战是微调的CloudWatch警报,以在必要时击中警报工程师的甜蜜点,但仅在必要时。第二个挑战是弄清楚出于出错的原因,因为在许多情况下,一旦建立了根本原因,在许多情况下都有相对容易。 ®

类似主题


您可能喜欢的其他故事

咬住它的手©1998-2021