Vou falar um pouco mais sobre post mortem e como isso impacta diretamente a área de segurança e compliance no que diz respeito a disponibilidade e integridade dos dados e do sistema. Mas afinal, o que é o post mortem ?
O post mortem é uma reunião que é feita no fim de todo projeto ou procedimento, é uma espécie de retrospectiva, onde a equipe analisa o que foi feito, o que deu certo e pontos a serem melhorados.
Aqui na Convenia, além de realizamos esse rito após o fim de um projeto ou procedimento, realizamos também após algum incidente relacionado a tecnologia, um exemplo disso, é a queda de algum serviço. Essa reunião é um processo que ajuda a melhorar os nossos serviços e entendermos o porquê ocorreu a falha, alterando processos organizacionais para incorporar lições aprendidas. Um post mortem é mais do que apenas uma apuração dos fatos.
Na verdade, as funções mais importantes de um post mortem são promover melhorias nos processos e melhores práticas para repetir sucessos. Geralmente costuma ser uma reunião rápida, de no máximo 1 hora, que reunimos o time responsável pelo gerenciamento do serviço que foi impactado no incidente, e detalhamos o que ocorreu, o porque ocorreu, tempo de duração e o que podemos fazer para não acontecer novamente.
Em um determinado momento, no meio de 2022 sentimos falta de uma métrica para conseguirmos mensurar a periodicidade e o impacto desses incidentes, foi onde decidi implementar o RIT, que é o relatório de incidentes de tecnologia.
O que é feito em caso de incidente ou indisponibilidade
Quando somos afetados por algum evento adverso, seguimos um fluxo de trabalho composto por 3 passos:
- Identificar o problema (equipe responsável pelo serviço em questão é mobilizada para descobrir a causa raiz);
- Resolução rápida do problema (seja definitiva ou provisória com uma task mais estruturada para o futuro);
- O time pensa em medidas preventivas e aprendizados para o problema em questão. Posteriormente, preenchemos um RIT (Relatório de incidente de Tecnologia).
O que é o RIT ?
Esse documento é preenchido no decorrer da reunião de post mortem, conforme vamos debatendo os pontos, vamos preenchendo e no final revisamos o que escrevemos. Logo de início, preenchemos uma descrição resumida do que aconteceu, seguido pela severidade do incidente, tipo de impacto, origem do alerta e a qual setor o incidente foi informado.
Após essa análise inicial, partimos para o detalhamento do incidente, informamos qual foi a sua categoria, como por exemplo: alteração não planejada, não conformidade com a nossa política de segurança, falha de backup, ou alguma outra categoria ainda não catalogada. Após essa definição de categoria, descrevemos o que ocorreu, qual foi a extensão e impactos desse incidente, as causas e áreas envolvidas.
Finalizando esse detalhamento do incidente, descrevemos como foi feito o tratamento desse incidente, descrevemos ações executadas para o tratamento ou contorno desse incidente com a maior riqueza de detalhes possível. E para terminar, fazemos uma análise final e encerramento do incidente, que é onde detalhamos se outras ações e recursos serão necessários para não acontecer outro incidente dessa natureza e se possível, informamos o prazo e os responsáveis por executar essas ações de melhorias. Além disso, descrevemos também sobre as lições aprendidas, o que tiramos de lição do incidente, o que aprendemos com o que ocorreu, e o que devemos fazer para não se repetir. Caso queira baixar o template desse documento, estamos deixando disponível aqui.
Importância de adotar esses processos.
Adotar o post mortem e a partir daí, realizar o preenchimento de um RIT é essencial para conseguirmos periodicamente revisar os planos de ação para entender se eles foram implementados de fato. A partir desse conjunto de ferramentas é possível entender as falhas, entender o que aprendemos e mitigar os riscos, além de uma métrica e melhor entendimento dos incidentes passados. Outro ponto importante para defendermos essa implementação, é aumentar a cultura de aprender com os erros, erros irão acontecer, isso é normal no processo de produto, mas devemos aprender com eles e conseguir também tirar pontos positivos, para implementar melhorias ou melhorar algum processo quebrado que não temos visibilidade.
Caso real de uso na Convenia
Além dos pontos já citados no artigo, destaco um grande aprendizado que conseguimos retirar nesse processo de post mortem + RIT.
Sempre fizemos backups de todos nossos bancos e instâncias, mas de uma lição aprendida no preenchimento desses documentos, repensamos na nossa política, e após algumas análises, decidimos melhorar nosso processo, começamos a fazer um backup contínuo, que é um backup que se existir perda, será de no máximo 5 minutos.
Não só conseguimos melhorar nossos processos internos, como conseguimos também passar mais segurança e um melhor produto para o nosso cliente.
Outro ponto a se destacar, é que de tempos em tempos, nos reunimos e fazemos um resumo de todos os relatórios preenchidos, e com isso, conseguimos visualizar se implementamos as melhorias apontadas, ou tem alguma pendente. No começo, apenas um squad seguia esse processo, mas com o passar do tempo, o restante do time consegue ver as vantagens, e atualmente todos os squads adotam essa prática.
Conclusão
A reunião de postmortem é uma ferramenta fundamental para promover a melhoria contínua e o aprendizado organizacional. Um exemplo disso é o nosso case com o backup contínuo, que nos trouxe ainda mais segurança e melhora no nosso RTO e RPO.
Ao permitir que as equipes revisitem processos passados, a reunião de postmortem possibilita a identificação de pontos fortes e fracos, além de fornecer insights valiosos para evitar erros futuros. É importante ressaltar que, para que a reunião de postmortem seja efetiva, é necessário estabelecer um ambiente seguro e confidencial para que os membros da equipe possam falar abertamente e expor suas ideias. Além disso, é preciso garantir que as discussões resultem em ações concretas e medidas para melhorias. O postmortem pode ajudar as equipes a evoluírem e aprimorarem seu desempenho, tornando-se mais eficientes e eficazes em suas atividades, e com isso, garantir mais satisfação ao cliente final.
*O conteúdo deste artigo é de responsabilidade do(a) autor(a) e não reflete necessariamente a opinião do iMasters.