自动执行重大事件管理的5个最佳实践

作者: Roger Morrison
创建日期: 27 九月 2021
更新日期: 21 六月 2024
Anonim
Scaling to the Moon - Inside our $2 Million Dollar Ecommerce Case Study | AWasia 2017
视频: Scaling to the Moon - Inside our $2 Million Dollar Ecommerce Case Study | AWasia 2017

内容



资料来源:Pixtum / iStockphoto

带走:

借助智能自动化策略,您可以比以往更快,更轻松地进行事件响应,从而最大程度地减少停机时间和潜在的安全漏洞。

每天,公司内部都会发生重大的IT事件。尽管只有少数几个成为头条新闻,但停机和安全漏洞等事件会严重削弱员工的生产力,对客户的看法产生负面影响,最重要的是,这会导致收入损失。

因此,在管理重大IT事件时,最好专注于业务影响和底线。根据Ponemon Institute的数据,2016年平均停机时间成本为每分钟8,851美元-每小时超过500,000美元,典型停机时间平均超过90分钟。这只是直接的费用!诸如声誉受损和客户流失之类的长期影响是不可预测的,并且可能是灾难性的。

虽然您不能完全避免所有重大事件,但可以让组织做好充分准备,以在发生这些事件时进行处理。策略的主要组成部分应该是整合自动化。在主要的事件解决流程中最大限度地利用自动化的组织可以更快地恢复服务,并减少因人为错误引起的错误。这是因为自动化会直接影响您缩短业务影响期持续时间的能力–或您的用户和业务运营实际上感受到事件影响的代价高昂的期间。 (要了解有关自动化的更多信息,请参见自动化:数据科学和机器学习的未来?)

为了最大程度地利用自动化的收益,您应该检查在影响时段内需要进行哪些活动,并弄清楚如何在事件开始之前或业务恢复正常之后将所有其他活动移至其他活动。这里有五种有用的入门方法。

1.开发和定义流程

定义重大事件管理流程的目的是查明事件期间可以计划,协调或执行的内容。例如,这可能意味着要通过技能和时间表来识别关键支持团队成员,以便您的服务台可以尽快有效地与他们联系。这也意味着弄清楚如何将相关信息传达给团队,以便他们可以立即解决问题,并向合适的利益相关者提供最新信息。

自动化对于该过程的关键方面至关重要。例如,您可以自动将服务台票中监视工具中的相关信息包括在内,也可以将服务台中的信息包含在事件解决者的通知中。您还可以将整个事件记录为所有人都可以访问的单一全面事实来源。请记住,您可以练习此过程以使其正确执行-您无需等待真实事件来测试您的方法。

2.完善您的基础架构

在当今警报疲倦的时代,请不要继续使用不相关的通知和不适用于他们的信息轰炸您的团队。将过滤器应用于监视警报将使您的团队更容易将零杂的零噪音归零。这是使所有见解和数据真正可行的关键,而不仅仅是增加信息过载。


自动化的好方法包括使用APM解决方案对所有应用程序和系统进行爬网,以在造成重大服务中断之前,在性能下降时主动找出根本原因。您还可以集成监控,服务台,协作应用程序和聊天工具,以实时共享Conual信息。

没有错误,没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南

当没有人关心软件质量时,您就无法提高编程技能。

3.准确测量MTTR

您如何衡量平均维修时间(MTTR)?您是基于IT团队的总工作时间,还是业务实际受到影响的总时间?如果答案是前者,则应重新考虑使用业务透视图衡量影响范围。这对于您的优化工作来说是一个更为准确的骗局,因为您的目标是最大程度地减少事件的影响,而不仅仅是向董事会提供更好的响应报告。 (要了解有关停机时间及其处理方式的更多信息,请查看“两次故障之间的真正间隔时间是什么意思”。)

您可以通过提供对应用程序的完全可见性来实现自动化,以在需要时追溯“启动时钟”,并保留您的解决方案活动和通信的完整记录,以进行分析和审核以改善您的流程。

4.保持利益相关者的知情–但不会中断解决方案

利益相关者期望有效和及时的沟通,同时也希望主题专家专注于解决问题。虽然您可以指定一个通讯联系点来监视和吸引业务用户,但更有效的策略是创建一个包含状态更新的自助服务网页。这使利益相关者可以自行检查,而不会用进一步的电话和电话轰炸您的团队。只需记住要定期更新您的涉众,以便他们总是收到并知道期望最新的状态报告。不要忘记沟通不应该仅仅因为恢复服务而停止!重要的是,利益相关者必须总结所发生的事情,所学到的知识以及将来如何预防这种情况。

在这种情况下,可以实现自动化以为涉众创建一个自动的实时状态页面,以及在您的聊天工具中添加斜杠命令以更新该页面。

5.收集数据以支持问题管理

恢复服务并不代表事件管理已结束!实际上,一些最有价值的活动是在解决之后发生的。通过收集诊断和影响数据并进行根本原因分析,您可以对重大事件进行全面审核,包括采取预防措施以避免将来发生类似事件。此外,即使再次发生可识别的事件,您也可以为需要收集哪些类型的数据以及为提高分辨率而需要执行的步骤创建已定义的过程。这样,您的团队只需参考清单并专注于恢复服务的核心目标,而不必担心他们的需求和时间。


此处的自动化功能可以在单个记录系统中捕获和保存解决方案活动,包括聊天记录等内容,以进行分析。此外,它将帮助您建立熟悉的事件或问题的目录,巩固每个事件或问题的最佳做法,从而在将来加快解决速度。

结论:更智能的自动化,而不是更多

请注意,更多的自动化不一定是更好的方法!了解您何时,何地以及如何将IT系统连接在一起以支持事件管理,这一点更为重要。您不想为了增加自动化流程而增加任何不必要的复杂性。请记住,目标是尽可能简化和合并运营,以使您的团队有能力有效地解决问题。这是关于智能实施自动化以促进一系列协调一致的流程,知识渊博的员工以及有效的利益相关方沟通,以最大程度地减少重大事件对整体业务的影响。