本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
主动预防事故
AWS DevOps 代理分析您的事件调查模式,以提供有针对性的建议,从而持续改善您的运营状况并防止将来发生事件。通过操作员 Web 应用程序中的 “改进” 页面访问主动事件预防。
主动式事件预防的工作原理
AWS DevOps 代理评估最近的事件调查,以确定持久的改进措施,以防止将来发生事故并缩短平均检测时间 (MTTD)。该代理分析多起事件,以确定可以防止将来发生整类事件的建议,重点是最有影响力的建议,以确保这些建议具有可操作性。
默认情况下,代理每周自动运行一次评估。如果您希望仅按需进行评估,则可以暂停日程安排。手动评估随时可用,当最近的调查要求对建议的改进进行快速周转时,这很有用。
代理可以识别出四个类别的改进,如改进页面上的建议分类图表所示:
可观察性-增强监控、警报、日志记录和系统可见性的建议,以更快、更准确地检测问题。
基础架构 — 优化资源配置、容量调整和架构弹性的建议。
治理 — 关于加强部署流程、管道改进、测试实践和操作控制的建议。
代码优化-改善应用程序代码质量、错误处理和代码弹性的建议。
这种分类可帮助您了解最需要改进运营的地方,并允许您根据团队的重点领域确定建议的优先顺序。
优势
防止事件反复出现 — 系统地解决根本原因,而不是反复应对相同类型的问题
减少运营疲劳 — 让您的团队摆脱重复的消防工作,专注于创新和战略改进
提高系统弹性 — 根据真实事件数据加强您的基础架构、可观察性和部署流程
从历史模式中学习 — 利用过去事件的见解,进行有针对性的改进,从而产生最大的影响
代理摘要
Web 应用程序 “改进” 页面中的 “代理摘要” 描述了最近一次事件评估的结果。摘要说明了分析的事件调查数量,哪些事件与过去的事件相似,以及哪些建议是根据新信息创建或更新的。
该摘要可帮助您快速了解代理在最近的评估中发现了什么,并重点介绍了可能对您的运营状况产生最大影响的最值得注意的建议。
控制评估
您可以控制 AWS DevOps 代理何时评估事件并生成建议:
手动运行评估-单击 “改进” 页面中的 “立即运行” 按钮可立即开始评估。当最近的调查要求对建议的改进进行快速周转时,这很有用。
停止正在进行的评估 -单击 “改进” 页面中的 “停止评估” 按钮可停止当前正在进行的评估。
管理推荐
AWS DevOps 代理在 “改进” 页面中提供建议,您可以在其中查看和管理这些建议:
查看建议详情-单击建议可打开建议详细信息页面,您可以在其中查看有关建议改进的更多信息,包括为该建议提供依据的事件、预期影响和后续步骤。有关代码更改的建议,您还可以查看代理就绪规范,该规范可以交给编码代理实施。
保留 — 单击 “保留” 可在待办事项列表中保留建议以供跟踪。这使您可以监控计划实施哪些改进并跟踪其进度。
丢弃 — 单击 “放弃” 可从待办事项列表中删除推荐。当你放弃推荐时,你可以用自然语言解释为什么它不能满足你的需求。工程师从这些反馈中吸取教训,并利用这些反馈为未来的建议提供信息,确保这些建议随着时间的推移与您的运营优先事项和要求更加一致。
已实施-单击 “已实施” 将建议标记为已完成。这可以帮助您跟踪已应用了哪些改进,并允许代理衡量其建议在一段时间内的有效性。
自动删除-未标记为 “保留” 或 “已实施” 的建议可以在大约 6 周后删除,前提是实施该建议无法防止出现新的事件。这样可以确保 “改进” 页面将重点放在最相关的改进上,以应对您的运营挑战。
建议更新 — 当发现建议本来可以防止的新事件时,会更新现有建议。更新可能会更改建议的优先级或根据新的见解完善建议。
确定建议的优先顺序
AWS DevOps 代理会自动按优先级对您的推荐进行排名,以帮助您首先专注于最具影响力的改进。排名考虑了您团队的具体背景、运营模式以及每项建议所解决的问题的严重性。
优先级划分的工作原理
每个评估周期,代理都会使用以下组合对您的有效推荐(处于已建议或保留状态的推荐)进行排名:
AI-powered 排名 — 代理根据类别相关性、事件严重程度和运营影响来评估您的热门推荐的相对重要性。
确定性评分 — 对于较大的积压案件,代理会根据事件频率、严重性模式和最近程度应用优先级分数,以确保排名靠前的项目之外的顺序保持一致。
排名列表显示在 “改进” 页面中,排名位置为数字(1 表示最高优先级)。已放弃或已实施的建议不进行排名。
自定义优先级
您可以通过聊天界面传达团队的优先级,从而影响代理对推荐的排名:
设置类别首选项-告诉代理哪些推荐类别对您的团队最重要(例如,“我们优先考虑可观察性改进而不是基础架构变更”)。代理会存储这些偏好,并在将来的排名评估中使用它们。
提供背景信息-共享有关即将开展的项目、合规要求或团队重点领域的信息。代理在确定应优先考虑哪些建议时会考虑这种背景。
要更新您的偏好,请使用聊天界面并用自然语言描述团队的优先事项。代理将确认已理解,并将在下一个评估周期中应用您的偏好。
排名稳定性
在以下情况下,推荐等级可能会在两个评估周期之间发生变化:
添加了优先级高于现有建议的新建议
您的团队声明的偏好发生了变化
新的事件数据强化或削弱了建议的理由
无论排名如何变化,您已经标记为 Keep 的推荐都将保留其在待办事项列表中的位置,从而确保您的工作流程不会中断。
Agent-ready 规格
对于涉及代码或配置更改的建议, AWS DevOps 代理可以生成代理就绪规范。该规范提供了一个结构化文档,可以直接交给编码代理进行实施。
该规格包括:
问题陈述-问题及其根本原因的摘要
解决方案摘要-对推荐方法的高级描述
目标存储库-需要进行更改的特定存储库
代码更改 — 详细描述需要更改的内容和原因,以及特定的文件路径和实现注意事项
测试要求-需要测试哪些场景
实施计划 — 实施变更的分阶段方法
Agent-ready 规范通过为编码代理提供进行生产就绪更改所需的上下文,而无需与工程师进行大量的来回交流,从而加快实施速度。
实施建议
为了最大限度地发挥主动事件预防建议的价值,请考虑采取以下措施来执行这些建议:
使用代理就绪规范 — 有关代码变更的建议,请使用生成的规范将其交给编码代理或将其用作手动实施的详细指南,从而加快实施。
向工单待办事项中添加建议 — 将建议复制到团队的工单系统或项目管理工具,以确保这些建议与其他工程工作一起被优先考虑。
根据影响对建议进行优先排序 — 首先关注针对最常见或最严重的事件类型或影响关键系统的建议。
跟踪实施进度 — 通过观察类似事件是否随着时间的推移而减少,监控哪些建议已得到实施,并衡量其有效性。
与开发团队协调-与拥有受影响系统的相应团队共享建议,确保他们拥有实施改进所需的背景和资源。