Há alguns meses que penso em formas de aproveitar melhor os dados coletados pelo Zabbix. Em paralelo a isso vejo quase que diariamente fornecedores vindo ofertar onde trabalho soluções miraculosas para correlacionamento de eventos.
Após alguns “POCs” (Provas de Conceito) não consegui tirar da minha cabeça: Pô… boa parte disso é análise… não é ferramenta… e o Zabbix tem este dado… só não tem uma forma bacana de apresentar… ou melhor… não tinha.
Há algumas semanas os usuários do fórum Zabbix-Brasil me viram fazendo um “call for betas”. Como o recurso é novo eu sabia que tinha que testa-lo na maior quantidade de ambientes o possível visando possibilitar validar se mais esta idéia maluca era realmente funcional ou não.
Investi também algum tempo colocando os arquivos do Zabbix-extras em um repositório público possibilitando assim que mais pessoas auxiliem com o mesmo.
Consegui o auxílio de cerca de dez membros da comunidade que executaram toda uma bateria de testes contra esta nova versão do Zabbix-Extras. Além da nova funcionalidade eu construí também um instalador baseado em menus para o bash visando simplificar o processo de instalação.
Para que o instalador funcione dois pacotes padrões do linux deverão estar instalados:
- wget – para efetuar download do pacote instalador;
- dialog – para construir os menus de instalação;
O início do processo de instalação é o mesmo dos anteriores. Efetue o download do arquivo abaixo e execute o script.
[wpdm_file id=10]
sh instalaExtras2.sh
Será feita uma validação visando identificar se os pacotes wget e dialog estão instalados, se eles não estiverem instalados o instalador os adicionará. Assim que finalizar a parte de validação de pacotes será apresentada uma tela para que você selecione o idioma.
Após a seleção do idioma o instalador irá precisar que você informe o caminho para os arquivos do frontend (interface gráfica) do seu Zabbix.
Agora confirme que é para fazer o download dos aquivos do patch.
Selecione quais módulos devem ser habilitados (eu recomendo todos).
Agora revise os parâmetros que você informou e confirme para que o instalador proceda com a instalação dos arquivos e a inserção dos menus no Zabbix.
Ao final sua tela deverá estar como a tela abaixo.
Agora voltemos à interface gráfica para que eu possa explicar quais são os conceitos envolvidos na nova funcionalidade e para que você possa iniciar o uso dela.
A pergunta que pretendo auxiliar a conseguirmos a resposta é:
- O quê causa o quê ?
- O incidente recorrente “A” é ocasionado por outra falha na minha infraestrutura ?
- Quando o incidente “B” ocorre, ele causa algum outro incidente ?
Qual é a minha proposta para responder a estas perguntas ? Todas elas tem uma coisa em comum: os incidentes, que no Zabbix são chamados de Eventos. Então me parece fazer algum sentido que a análise comece pela seleção de um incidente e a partir deste ponto o Zabbix-Extras faça uma análise de causa e efeito com eventos que ocorreram dentro de uma faixa X de tempo e que eu faça uma análise retroativa de algumas outras ocorrências similares.
Vamos analisar o exemplo abaixo. Selecionei em um laboratório um evento para correlacionamento: Internet fora – 26/04/2013 18:13.
Ao clicar no botão Correlacionar o Zabbix-Extras abre em outra janela o relatório correlacionando os eventos encontrados. Por padrão ele filtra os resultados para somente aqueles que tenham relacionamento em pelo menos 60% das ocorrências.
Neste teste ele localizou então cinco outros eventos que ocorrem quando Internet também ocorre, entretanto apenas três deles ocorreram em mais de 60% das vezes. Este filtro serve para direcionar as análise da sua equipe de gerenciamento de eventos.
Podemos observar que sempre que o evento Internet Fora ocorre o evento “ZDM X” também ocorre (estou nomeando os eventos de forma a possibilitar a apresentação aqui por questões de segurança), neste caso é altamente provável que ZDM X esteja relacionada com Internet Fora e valeria uma análise mais aprofundada por parte dos administradores destes serviços de forma a mitigarem tal situação.
Existem situações que não há o que se fazer, por exemplo, quando um servidor de banco de dados está fora o sitio que necessita consultar estas informações ficará fora também.
Mas existem outras situações onde é possível se perceber padrões tal qual um aumento significativo de tráfego no firewall causar a indisponibilidade de determinada parte de sua rede. Com a análise de causa e efeito correlacionando os eventos você passará a poder criar alertas que avisem que o evento irá ocorrer (aumento excessivo de banda… x minutos depois rede fora) permitindo que sua equipe atue proativamente evitando ou reduzindo o impacto do incidente.
Observem que passando o mouse por cima das “setinhas” que aparecem indicando que pode ser causa ou efeito você conseguirá ter um detalhamento melhor do que ocorreu.