Zabbix Extras 1.2 – Nova funcionalidade – Correlacionamento de eventos

Há alguns meses que penso em formas de aproveitar melhor os dados coletados pelo Zabbix. Em paralelo a isso vejo quase que diariamente fornecedores vindo ofertar onde trabalho soluções miraculosas para correlacionamento de eventos.

Após alguns “POCs” (Provas de Conceito) não consegui tirar da minha cabeça: Pô… boa parte disso é análise… não é ferramenta… e o Zabbix tem este dado… só não tem uma forma bacana de apresentar… ou melhor… não tinha.

Há algumas semanas os usuários do fórum Zabbix-Brasil me viram fazendo um “call for betas”. Como o recurso é novo eu sabia que tinha que testa-lo na maior quantidade de ambientes o possível visando possibilitar validar se mais esta idéia maluca era realmente funcional ou não.

Investi também algum tempo colocando os arquivos do Zabbix-extras em um repositório público possibilitando assim que mais pessoas auxiliem com o mesmo.

Consegui o auxílio de cerca de dez membros da comunidade que executaram toda uma bateria de testes contra esta nova versão do Zabbix-Extras. Além da nova funcionalidade eu construí também um instalador baseado em menus para o bash visando simplificar o processo de instalação.

Para que o instalador funcione dois pacotes padrões do linux deverão estar instalados:

  • wget – para efetuar download do pacote instalador;
  • dialog – para construir os menus de instalação;

O início do processo de instalação é o mesmo dos anteriores. Efetue o download do arquivo abaixo e execute o script.

[wpdm_file id=10]

sh instalaExtras2.sh

Será feita uma validação visando identificar se os pacotes wgetdialog estão instalados, se eles não estiverem instalados o instalador os adicionará. Assim que finalizar a parte de validação de pacotes será apresentada uma tela para que você selecione o idioma.

instala_extras_1.2_parte_1

Após a seleção do idioma o instalador irá precisar que você informe o caminho para os arquivos do frontend (interface gráfica) do seu Zabbix.

instala_extras_1.2_parte_2

Agora confirme que é para fazer o download dos aquivos do patch.

instala_extras_1.2_parte_3

Selecione quais módulos devem ser habilitados (eu recomendo todos).

instala_extras_1.2_parte_4

instala_extras_1.2_parte_4

Agora revise os parâmetros que você informou e confirme para que o instalador proceda com a instalação dos arquivos e a inserção dos menus no Zabbix.

instala_extras_1.2_parte_5

Ao final sua tela deverá estar como a tela abaixo.

instala_extras_1.2_parte_6_concluido

Agora voltemos à interface gráfica para que eu possa explicar quais são os conceitos envolvidos na nova funcionalidade e para que você possa iniciar o uso dela.

A pergunta que pretendo auxiliar a conseguirmos a resposta é:

  • O quê causa o quê ?
  • O incidente recorrente “A” é ocasionado por outra falha na minha infraestrutura ?
  • Quando o incidente “B” ocorre, ele causa algum outro incidente ?

Qual é a minha proposta para responder a estas perguntas ? Todas elas tem uma coisa em comum: os incidentes,  que no Zabbix são chamados de Eventos. Então me parece fazer algum sentido que a análise comece pela seleção de um incidente e a partir deste ponto o Zabbix-Extras faça uma análise de causa e efeito com eventos que ocorreram dentro de uma faixa X de tempo e que eu faça uma análise retroativa de algumas outras ocorrências similares.

Vamos analisar o exemplo abaixo. Selecionei em um laboratório um evento para correlacionamento: Internet fora – 26/04/2013 18:13.

extras1.2_em

 

Ao clicar no botão Correlacionar o Zabbix-Extras abre em outra janela o relatório correlacionando os eventos encontrados. Por padrão ele filtra os resultados para somente aqueles que tenham relacionamento em pelo menos 60% das ocorrências.

Neste teste ele localizou então cinco outros eventos que ocorrem quando Internet também ocorre, entretanto apenas três deles ocorreram em mais de 60% das vezes. Este filtro serve para direcionar as análise da sua equipe de gerenciamento de eventos. extras1.2_em_relatorio

Podemos observar que sempre que o evento Internet Fora ocorre o evento “ZDM X”  também ocorre (estou nomeando os eventos de forma a possibilitar a apresentação aqui por questões de segurança), neste caso é altamente provável que ZDM X esteja relacionada com Internet Fora e valeria uma análise mais aprofundada por parte dos administradores destes serviços de forma a mitigarem tal situação.

Existem situações que não há o que se fazer, por exemplo, quando um servidor de banco de dados está fora o sitio que necessita consultar estas informações ficará fora também.

Mas existem outras situações onde é possível se perceber padrões tal qual um aumento significativo de tráfego no firewall causar a indisponibilidade de determinada parte de sua rede. Com a análise de causa e efeito correlacionando os eventos você passará a poder criar alertas que avisem que o evento irá ocorrer (aumento excessivo de banda… x minutos depois rede fora) permitindo que sua equipe atue proativamente evitando ou reduzindo o impacto do incidente.

Observem que passando o mouse por cima das “setinhas” que aparecem indicando que pode ser causa ou efeito você conseguirá ter um detalhamento melhor do que ocorreu.