Por Marcos Bernardino em 17/09/2018 em Artigo

O monitoramento de TI é vital para todas as organizações que precisam assumir o controle da sua infraestrutura e dar sustentação aos seus sistemas. Por meio deste gerenciamento do ambiente de TI é possível medir disponibilidade dos dispositivos, gerar relatórios de capacidade, SLA (Service Level Agreement), SLM (Service Level Management), performance, entre outros indicadores indispensáveis.

Dessa maneira, monitoramento de TI deve se estender por toda a gama de serviços, sistemas, equipamentos e informações fornecidos por TI afim de certificar a integridade, a inviolabilidade, a disponibilidade e a confiabilidade das entregas. Os principais e mais elementares tipos de monitoramento que um departamento de TI deve manter ativo são:

Monitoramento de Infraestrutura

O monitoramento de infraestrutura refere-se à coleta sistemática de dados dentro de uma infraestrutura (sua estrutura básica de computação). Esses dados coletados são usados ​​para fornecer alertas sobre tempo de inatividade inesperado, invasão de rede e saturação de recursos.

Além disso, o monitoramento contribui para tornar os processos operacionais auditáveis, o que é essencial para as investigações forenses e para chegar à causa raiz dos problemas por meio de uma RCA (análise de causa raiz). Assim, o monitoramento suporta a análise objetiva das práticas operacionais e, geralmente, todos os processos de TI.

Assim, o monitoramento de infraestrutura é um componente crítico do gerenciamento de infraestrutura de TI e inclui monitores de tráfego de rede para uso no monitoramento de desempenho de rede de todos os componentes de infraestrutura de TI.

Principais conceitos

  • Monitoramento Ativo: Refere-se a sistemas que coletam dados interagindo diretamente com os sistemas monitorados. Os administradores precisam ponderar o custo do monitoramento versus o valor geral do teste. Um exemplo de um teste ativo é um agente que testa os tempos de resposta em bancos de dados de produção.
  • Alerta: Uma notificação sobre um evento que é capturado por um sistema de monitoramento. É produzido quando um fluxo de dados ultrapassa um limite predefinido. Alertas são tipicamente configuráveis. Os sistemas de monitoramento normalmente enviam alertas para níveis variados de administradores; cada limite aciona diferentes tipos de alertas.
  • Falso Positivo: Um evento que é detectado além do limite de monitoramento, mas não mostra um problema operacional. Monitorar sistemas configurados incorretamente causa falsos positivos. Eles diminuem a eficácia de alertas semelhantes porque operações, suporte e usuários são mais propensos a desconsiderar problemas genuínos.
  • Falso Negativo: Um evento que um sistema de monitoramento não detecta. Falsos negativos acontecem com testes que não são sensíveis o suficiente para detectar possíveis problemas e testes que não são executados em intervalos apropriados. Falsos negativos são extremamente problemáticos e podem impedir seriamente a utilidade de qualquer sistema de monitoramento.
  • Monitoramento Passivo: Refere-se a sistemas de monitoramento que coletam dados revisando os já gerados. Esses dados são coletados de logs ou “traps” ou de mensagens retransmitidas pelo sistema monitorado para um agente passivo. O syslog é um tipo de monitoramento passivo.
  • Limite:Uma configuração predefinida que indica um limite para operação – fora do qual não se espera que o sistema funcione. Limites são constantemente ajustados, para evitar falsos positivos ou falsos negativos.
  • Nagios: é um aplicativo open source (gratuito) amplamente popular para monitorar sistemas, redes e infraestrutura.
  • Syslog: Um padrão de formato de registro iniciado pelos utilitários BSD Unix (isto é, sendmail). O syslog é um pouco mal utilizado apesar de sua saturação. Muitos aplicativos usam seus próprios recursos de registro.

Plataformas

O monitoramento da infraestrutura depende de uma plataforma de monitoramento eficaz. As plataformas de monitoramento ouvem, reúnem e correlacionam eventos de aplicativos críticos e seu ambiente de TI subjacente. Uma plataforma bem definida permite que os administradores do sistema migrem dinamicamente para outra tecnologia ou arquitetura que seja dimensionada sob demanda. Essa plataforma de monitoramento também se interliga a servidores, sistemas e ferramentas de monitoramento.

Sistemas de monitoramento e outras ferramentas de gerenciamento de pontos produzem um fluxo interminável de eventos, a maioria dos quais são irrelevantes. Esses eventos devem ser analisados ​​separadamente e depois transformados em incidentes quando há um problema real. Na verdade, o volume de eventos é tão alto que muitos dos eventos críticos são perdidos com o excesso de informação. Geralmente, as equipes de suporte de primeiro nível só descobrem problemas de serviço quando os usuários começam a reclamar.

Contexto de Negócio

Na maioria das vezes, a equipe de TI não possui o contexto de negócios e outras informações relevantes de que precisa para priorizar eventos ou as informações de diagnóstico claras necessárias para resolvê-los rapidamente.

O tamanho da equipe de operações de TI tem diminuído constantemente devido à tendência de se fazer mais com menos. Com esse nível reduzido de pessoal, é quase impossível para a equipe de TI registrar manualmente todos os eventos e priorizar em quais eles devem estar trabalhando.

Os métodos tradicionais de encontrar a causa-raiz não funcionam mais com eficiência, pois foram projetados assumindo que o ambiente de TI é, na maioria das vezes, estático e não muda com frequência. Dessa maneira, utilizar um sistema de monitoramento adequado para a realidade da empresa é muito importante e agiliza sensivelmente a detecção e solução dos problemas.

Monitoramento de aplicativos e de desempenho

O monitoramento de desempenho de aplicativos pode ser definido amplamente como qualquer coisa que tenha a ver com o monitoramento do desempenho de um site ou aplicativo. Por exemplo, existem ferramentas que não fazem nada além de verificar um site a cada minuto para ver se ele está on-line e quanto tempo leva para carregar. Esta é a forma mais simples de monitoramento de desempenho de aplicativos.

No entanto, uma verificação simples do tipo ping HTTP não é um monitoramento de nível empresarial avançado. Pode ser capaz de dizer que o site está online ou lento, mas sem se saber o porquê, para isso, algumas outras observações devem ser consideradas:

  • Acompanhamento e monitoramento de taxas de erros de aplicativos.
  • Monitorar a CPU de seus servidores.
  • Analisar os registros de acesso do servidor da web para ver quantas solicitações ele está recebendo e quanto tempo elas levam em média.
  • Monitorar o tráfego de rede para identificar lentidões.
  • Usar o Google Analytics para alertar sobre velocidades baixas de página.
  • Acompanhamento de métricas-chave de dependências de aplicativos, como SQL, Redis, Elasticsearch, etc.

Plataformas

A maioria das ferramentas de monitoramento de desempenho de aplicativos mede o desempenho de uma forma ou de outra, mas elas raramente entendem o contexto completo do próprio aplicativo, por exemplo, em geral elas apenas certificam que a página web está ativa ou não.

A maioria das soluções APM (Application Performance Management) descobre automaticamente e rastreia todos os aplicativos em todos os ambientes. Incluindo ambientes de pré-produção e produção. Há várias coisas que as equipes de desenvolvimento precisam rastrear e gerenciar em relação à aplicativos:

  • Tipo de aplicativo (web, serviço de segundo plano, etc)
  • Locais instalados e número de instâncias do servidor
  • Histórico de implantação
  • Disponibilidade de aplicativos / uptime (SLAs)
  • Tráfego / uso de aplicativos da Web
  • Indicadores de desempenho (tempos de resposta, índices de satisfação, etc)
  • Taxas de erro

Esses detalhes são importantes para ajudar os desenvolvedores a entender o que está acontecendo com seus aplicativos e com auxílio de ferramentas de monitoramento de desempenho no nível de código, podem também identificar consultas SQL lentas, chamadas de serviços web de longa duração e outros problemas comuns.

Portanto, entender o desempenho até o nível do código permite visualizar literalmente o que o código está fazendo também. A maioria das soluções de APM pode capturar instantâneos ou rastros de transações individuais. É possível revisá-los para visualizar o que o código está fazendo. Isso ajuda os desenvolvedores a obter os detalhes de baixo nível que precisam saber.

Monitoramento e controle de riscos

O controle e o monitoramento de riscos de projetos é o acompanhamento do desempenho de suas respostas ao risco em relação ao plano, bem como o local onde os novos riscos são gerenciados.

Resumindo, os riscos podem ter impactos negativos e positivos. O risco positivo é um risco assumido pelo projeto porque seus benefícios potenciais superam a abordagem tradicional, e um risco negativo é aquele que poderia influenciar negativamente o custo do projeto ou seu cronograma.

Objetivo do controle de risco do projeto

  • Identificar os eventos que podem ter um efeito direto nas entregas do projeto.
  • Atribuir peso qualitativo e quantitativo – a probabilidade e consequências desses eventos que podem afetar as entregas do projeto.
  • Produzir caminhos alternativos de execução para eventos que estão fora de controle ou podem não ser mitigados.
  • Implementar um processo contínuo para identificar, qualificar, quantificar e responder a novos riscos.

Os principais objetivos para o risco de monitoramento e controle:

  • Confirmar se as respostas ao risco são implementadas conforme planejado.
  • Determinar se as respostas a riscos são eficazes ou se são necessárias novas respostas.
  • Determinar a validade das premissas do projeto.
  • Determinar se a exposição ao risco mudou, evoluiu ou diminuiu devido a tendências de progressão do projeto.
  • Confirmar que as políticas e procedimentos acontecem como planejado.
  • Monitorar o projeto para novos riscos
  • Monitorar os gatilhos de risco

Gatilhos de risco são aqueles eventos que farão com que a ameaça de um risco se torne uma realidade. Para cada risco identificado, deve-se fornecer um plano de resposta. São necessários planos alternativos ou novas aquisições.

Controle de Riscos

Procedimentos principais para monitorar e controlar efetivamente os riscos:

  • Plano de gerenciamento de riscos.
  • Plano de resposta a riscos.
  • Registro de riscos
  • Rastreador de riscos.
  • Comunicações do projeto.
  • Nova identificação de riscos.
  • Mudanças no escopo.

Resultados do monitoramento de riscos e controle de riscos:

  • Planos de solução de problemas.
  • Ações corretivas / preventivas.
  • Solicitações de mudança.
  • Atualizações do plano de resposta ao risco.
  • Banco de dados de riscos.
  • Atualizações da lista de verificação.

Monitoramento Contínuo de Segurança (CSM)

Como não se pode impedir todos os ataques, é necessário garantir a detecção deles o mais rápido possível. O conceito de monitoramento contínuo vem ganhando impulso. As exigências de ir além da avaliação periódica, devido à velocidade que os ataques podem proliferar em seu ambiente, faz necessário a construção ou aquisição de um “kit de ferramentas”, unindo tecnologias e processos para monitorar ativos de informações que atendem a uma variedade de necessidades de uma organização.

Então, dadas as diferentes definições de monitoramento de segurança, existe uma abordagem baseada em risco para monitorar e avaliar dispositivos críticos. Isso significa garantir que os ativos mais críticos sejam realmente monitorados continuamente, sem interrupções. Isso envolve ter um meio para a descoberta contínua de novos ativos em seu ambiente. Isso, porque não é possível monitorar (ou proteger) dispositivos que não se conhece.

Assim, pode-se obter essa descoberta por meio da verificação ativa do espaço de endereço de sua rede, ou do monitoramento passivo do tráfego de rede em busca de novos dispositivos ou ambos. De qualquer forma, a conscientização da topologia da rede é um fator crítico de sucesso para o CSM.

Em seguida, é preciso de uma maneira consistente e objetiva classificar esses ativos com base na criticidade. Há muitas maneiras de classificar os ativos e a tendência é favorecer um baseado na criticidade dos negócios.

Basicamente, os dispositivos que têm acesso a informações que podem resultar em perdas significativas para a organização são necessariamente mais críticos e exigem monitoramento e avaliação mais frequentes. Outro aspecto importante da classificação é obter consenso interno. Especialmente quando a maioria dos gerentes seniores tem a opinião de que os sistemas que apoiam seus negócios são os mais importantes.

Casos de Uso

À medida que se aprofunda nos casos de uso específicos que conduzem ao CSM, há uma grande parte dos projetos com o objetivo de atender à geração de documentação de conformidade, rastreamento de alterações nos dispositivos monitorados ou detecção de ataques. Para entender cada caso de uso um pouco melhor, aqui está uma breve descrição:

  •  Usa-se o monitoramento de segurança para identificar possíveis ataques ou comprometimento de sistemas. Também envolve tanto uma visão externa (visão do invasor) quanto uma visão interna (visão privilegiada) do ambiente de TI. Isso para garantir que toda a superfície de ataque seja suficientemente monitorada.
  • Controle de alterações: um caso de uso centrado nas operações serve para monitorar alterações, tanto para detectar as não planejadas (possivelmente maliciosas ou perigosas) quanto para verificar se as planejadas foram concluídas com êxito.
  • Por fim, há o caso de uso de caixa de seleção, em que uma obrigação ou orientação exige tecnologia de monitoramento ou verificação. O produto obrigatório dessa iniciativa é a documentação de que se está fazendo algo. Não necessariamente uma postura de segurança aprimorada, identificação de problemas de segurança ou confirmação de atividade.

Caso de uso de ataque

O caso de uso de ataque é maior, mais amplo e mais difícil do que o gerenciamento de mudanças, a conformidade é a menos sofisticada. Pode-se definir casos de uso mais granulares, mas esses três cobrem a maior parte do que as pessoas esperam do monitoramento de segurança.

Porém, essa é uma reversão da ordem em que a maioria das organizações adota tecnologias de segurança. Muitos começam com uma demanda para obter conformidade. Depois passam para um processo de controle interno para lidar com as mudanças, geralmente internas. E, finalmente, estão prontas para lidar com possíveis ataques analisando dados agregados. É claro que existem muitos caminhos para a segurança e muitas organizações vão direto para o caso de uso do ataque, especialmente aqueles sob ataque imediato ou perpétuo.

Plataformas

Para implementar o CSM, é preciso decidir sobre a plataforma de tecnologia para agregar as fontes de dados e executar um análise. Há vários candidatos e, provavelmente, alguns já operacionais no ambiente – embora provavelmente subutilizados. Isso inclui uma plataforma de gerenciamento de vulnerabilidades que deverá ser escolhida conforme o caso de uso de cada organização. Ela deve possuir um modelo de dados escalonável que possa evoluir para lidar com fontes de dados adicionais ao longo do tempo.

Então, dependendo de qual plataforma se escolher para construir um CSM, pode-se simplesmente adicionar recursos a um produto interno existente ou pode-se substituir a tecnologia existente.

De qualquer forma, é necessário se passar por um planejamento estruturado envolvendo a identificação das novas fontes de dados para fornecer as matérias-primas para a análise do caso de uso. Então se documenta as visualizações, alertas e relatórios para alcançar os resultados desejados. Aplica-se uma disciplina sólida de gerenciamento de projetos para garantir que a evolução ocorra a tempo e dentro do orçamento. Depois de chegar à fase de implementação, importa-se os novos dados e instala-se as políticas e os painéis. O teste e a verificação da precisão dos novos recursos vêm em seguida e logo os novos casos de uso estão em produção.

Neste ponto, o novo caso de uso é operacional e há o monitoramento de segurança contínuo. Mas alcançar o CSM é apenas a primeira parte do que deve ser feito. Novas implantações e recursos de tecnologia, como a computação em nuvem, bem como ataques emergentes, exigirão que se desenvolva continuamente o ambiente de monitoramento de segurança.

Conclusão

Enfim, o monitoramento de TI em todos os aspectos que envolvem as suas prerrogativas dentro de uma organização é de extrema importância e vital para a manutenção das informações das quais o setor é responsável. Existem diversos outros monitoramentos, tais como o monitoramento de serviços, o monitoramento de service-desk, e muitos outros itens de TI que são mensuráveis e podem auxiliar o gestor na manutenção da qualidade do setor e de seus serviços e produtos.