Por Juliana Gaidargi em 2/07/2019 em Gestão de TI

Assegurar a alta disponibilidade na empresa é um fator determinante para o sucesso do negócio. Mas o que é alta disponibilidade, afinal?

Como garantir alta disponibilidade na empresaO que é alta disponibilidade (HA)?

Alta disponibilidade refere-se a sistemas que são duráveis ​​e passíveis de operar continuamente sem falhas por um longo tempo. O termo implica que partes de um sistema foram totalmente testadas. Além disso, que existem acomodações para falhas na forma de componentes redundantes.

Em geral, as análises de alta disponibilidade em um sistema envolvem a busca pelo elo mais fraco. Este pode ser uma peça específica de hardware ou um elemento do sistema, como o armazenamento de dados. Para permitir um armazenamento de dados mais durável, os engenheiros que buscam alta disponibilidade podem usar um design RAID. Os servidores também podem ser configurados para alternar responsabilidades para um servidor remoto, se necessário. Isso se dá através de um processo de backup conhecido como failover.

Ebook Melhores Práticas em Gestão de TI

Apesar disso, também é importante que cada peça de hardware seja avaliada quanto à durabilidade. Nesse caso, métricas específicas de fornecedores são úteis para determinar por quanto tempo uma peça de hardware é estimada para funcionar em um sistema específico. Ou seja, métricas como tempo médio entre falhas se tornam úteis para engenheiros.

Por que a alta disponibilidade é importante para o seu negócio

Você sabia que as empresas de alta disponibilidade de hoje são viciadas em TI? Afinal, cada parte da empresa agora precisa de conectividade com a internet para funcionar. E não apenas para se assistir a vídeos de gatos durante as pausas. Mas para a comunicação via e-mail, mensagens instantâneas e VoIP, até back office ERP e CRM. Isso sem mencionar a importância dos canais de marketing digital e comércio eletrônico.

Portanto, seus aplicativos e até os serviços voltados para o consumidor estão mudando para modelos em nuvem e híbridos. Isso é proporcional à medida que as empresas percebem que a TI interna, uma vez encarregada de executar um servidor Exchange e manter desktops, não possui as ferramentas e especialistas para mantê-los funcionando.

Ou seja, nossa forte dependência da internet para fazer negócios expõe uma ameaça. Ameaça essa com o potencial de transformar as vantagens competitivas desse novo mundo de fazer negócios na nuvem em um destruidor de empresas..

Impactos da inatividade

O tempo de inatividade causa perdas de cerca de US $ 896.000 por semana para uma empresa com cerca de 10.000 funcionários. A Dun & Bradstreet demonstrou que mais da metade das empresas da Fortune 500 experimentam um mínimo de 1,6 horas de inatividade a cada semana. Ou seja, as perdas diretas são substanciais. Contudo, também implicam um alto risco de perder a confiança do cliente

E isso é muito mais difícil de quantificar. Portanto, representa um desafio para a retenção de clientes e é uma barreira significativa para o crescimento de primeira linha. Ou seja, qualquer forma de inatividade não planejada de aplicativos é tóxica para o sucesso dos negócios. Independentemente da função que determinado aplicativo desempenha na empresa.

Dessa forma, a melhor maneira de evitar o tempo de inatividade e eliminar essas perdas é adotar uma série de práticas recomendadas. Afinal, estas podem ajudar a obter alta disponibilidade para seu serviço ou aplicativo. As metodologias de alta disponibilidade, ou HA, visam manter o serviço ininterrupto pelo maior tempo possível. Normalmente, elas permitem apenas um tempo de inatividade de 0,001% (aproximadamente 5 minutos por ano).

Inatividade e perda de receita

Considere que um provedor de hospedagem regular só pode fornecer 99% de disponibilidade de serviço. Isso significa 87 horas (3,62 dias) de tempo de inatividade por ano. Até mesmo a promessa de 99,9% de tempo de funcionamento permite aproximadamente nove horas de inatividade por ano. Embora seja uma melhoria, uma empresa ainda pode experimentar uma produtividade significativa e perdas de clientes nessa quantidade de tempo. Especialmente se o tempo de inatividade ocorrer durante períodos de pico.

É fácil descartar as perdas consideráveis ​​de receita como relevantes apenas para megacorporações, como Amazon e Facebook. Entretanto, esse problema afeta empresas de todos os portes. Enquanto uma interrupção da Amazon.com de 30 minutos em 2013 custou à empresa quase US $ 2 milhões (US $ 66.240 por minuto), a IDC estima que, para 20% das pequenas empresas, uma paralisação de TI de apenas 1 hora poderia custar mais de £ 50.000.

Vantagens práticas

Como mostrado acima, a principal razão pela qual sua empresa precisa estabelecer uma solução de alta disponibilidade pode ser encontrada na economia simples. É mais provável que você fique offline com mais frequência e por períodos mais longos sem uma estratégia de alta disponibilidade. E o custo do tempo de inatividade para sua empresa, por maior ou menor que seja, é inquestionavelmente maior do que você imaginava.

No entanto, há mais do que apenas os números duros e frios. Aqui estão algumas outras razões pelas quais a alta disponibilidade é tão crucial para a continuação do seu negócio:

  • Sua reputação melhorará à medida que sua marca for conhecida por sua confiabilidade em relação aos seus concorrentes;
  • Algumas implementações de alta disponibilidade podem melhorar o desempenho do aplicativo. Por exemplo, geo-distribuição de usuários para o datacenter mais próximo.Afinal, isso propicia benefícios de produtividade e taxa de conversão de vendas;
  • Risco reduzido de perda de dados. Até 70% das empresas que sofrem perda de dados deixam de operar dentro de 1 ano;
  • Redução do impacto do cliente durante a manutenção planejada. Em muitos casos, você pode evitar completamente a interrupção do serviço durante eventos de manutenção planejados;
  • Minimiza o impacto da produção durante as janelas de backup. Ou seja, a replicação de dados usada como parte de uma implementação de alta disponibilidade também pode melhorar suas estratégias de backup de dados.

Tempo de inatividade faz diferença?

Se você deseja uma infraestrutura completa de alta disponibilidade, não pode adotar apenas uma política ou solução. Ou seja, é necessária uma abordagem multifacetada que envolva várias práticas recomendadas e soluções que girem em torno da redundância e da proteção da infraestrutura existente.

Aqui estão alguns passos para alcançar exatamente isso:

O tempo de inatividade é importante

Para a Amazon.com, um minuto de inatividade pode equivaler a US $ 66.000. Portanto, embora a necessidade de alta disponibilidade seja clara, ela também precisa ser acessível para empresas menores. Afinal, a maioria das empresas não vai comprar um sistema Fort Knox. Contudo, algo precisa ser feito para evitar a perda maciça de acesso.

A maioria dos gerentes de TI sabe que para manter o sistema de TI funcionando, além de proteger as informações internas, são necessárias duas coisas: 

  1. Um sistema de defesa robusto para intrusões, desastres e vírus;
  2. Um plano de backup para quando tudo estiver quebrado. 

E aqueles que estão realmente focados no design de proteção, tanto pela inevitabilidade de que as coisas vão quebrar quanto pelos passos que serão aplicados após o fato, isto é, o providencial “Plano B”.

Portanto, a ideia de arquitetura de alta disponibilidade criou raízes onde as empresas têm uma necessidade básica de manter seu sistema em execução. Tal como seus arquivos acessíveis, mesmo se o pior acontecer. Isso envolve uma operação contínua com várias conexões alternativas e nenhum tempo de inatividade prático. Afinal, essencialmente, o Shangri-La da rede operacional é de 100%. 

Checklist Nível de Excelência em TI

No entanto, é impossível manter uma rede funcionando através de qualquer coisa. Afinal, eventualmente, algum evento causará uma paralisação. Contudo, o objetivo de uma arquitetura de alta disponibilidade é fazer o backup o mais rápido possível. Especialmente utilizando automação para se mover mais rápido do que a pessoa que faz reparos.

Portanto, em suma, a arquitetura de alta disponibilidade é um projeto de rede intencional que fornece redundância, antecipando uma falha.

Como implementar a alta disponibilidade na empresa?

A implantação de aplicativos em vários servidores os manterá funcionando de maneira eficiente. Isso, além de reduzir o tempo de inatividade. Dessa forma, o usuário terá a sensação de estar sempre operacional, não importa o que aconteça.

Tenha múltiplos servidores

É importante lembrar do velho ditado, “não coloque todos os ovos na mesma cesta”. O mesmo se aplica aos servidores. Ou seja, bancos de dados devem ser dimensionados para que diferentes servidores tenham diferentes partes do quebra-cabeça da empresa. Além disso, cada servidor deve ter um ou dois prontos para fazer o backup do servidor principal fisicamente.

Espalhe os servidores fisicamente

Servidores de rede principais não devem ser mantidos no mesmo local físico. Portanto, as empresas precisam investir em locais de servidores físicos espalhados geograficamente. Afinal, ter um servidor de backup a alguns quilômetros de distância pode significar a diferença. Especialmente em casos de desastres naturais. 

Mantenha sistema de backup online recorrente junto com o hardware

O backup automatizado preenche a lacuna onde nos esquecemos de salvar e proteger arquivos em várias versões. Além disso, paga dividendos em todos os tipos de situações. Desde corrupção de arquivos e desastres naturais, até sabotagem interna por funcionários insatisfeitos.

Use um sistema escalonável para executar aplicativos de negócios

Afinal, quando você usa uma solução altamente escalonável, não precisa se preocupar com altos custos fixos quando o uso é baixo. Ou seja, você tem a certeza de que o serviço pode gerenciar picos ou aumentar o tráfego conforme o uso aumenta. Portanto, uma solução elástica pode se encaixar corretamente no tamanho da sua organização. Além disso, evoluirá automaticamente à medida que suas necessidades mudarem.

Use o balanceamento de carga para distribuir o tráfego

Essa abordagem pode ser adotada para lidar com vários servidores da Web ou de aplicativos. Seu intuito é remover o servidor de aplicativos como um único ponto de falha e fornecer uma arquitetura escalonável. Afinal, esta pode manipular volumes muito grandes de solicitações do usuário. Contar com proteção contra DDoS e firewalls de aplicativos também garante a continuidade do atendimento aos clientes e funcionários. Mesmo quando a empresa enfrentar ataques mal-intencionados.

Use o máximo de redundância possível

Essa prática deve ser adotada para aplicativo e orçamento específicos. Especialmente, por meio de servidores de replicação e failover.

Atenção à complexidade geral da solução

À medida que você aumenta o número de partes móveis no sistema, também aumenta o risco de falha. Portanto, use mecanismos integrados ao invés tentar reinventar a roda. Ou seja, evite implementações excessivamente complexas.

Considere oportunidades estratégicas

É essencial estar aberto a ajustar sua estratégia de backup à sua implementação de alta disponibilidade. Por exemplo, você pode usar uma réplica de alta disponibilidade para melhorar o desempenho do backup ou restaurar a velocidade no caso de um desastre?

Evite a tentação de usar a replicação como backup

Afinal, essas práticas são diferentes e devem sempre ser tratadas como tal. Certos cenários exigem recuperação de instantâneos de backup históricos. Contudo, a replicação de dados geralmente replica seus erros também.

Teste sua solução

Isso se aplica tanto à redundância/failover quanto ao planejamento de capacidade por meio do teste de carga. Afinal, um sistema sobrecarregado é inerentemente um sistema não confiável.

Roteamento em nível de aplicativo

No caso de uma falha de transação, os aplicativos com reconhecimento de nuvem podem ser projetados para rotear transações de maneira inteligente para um ponto de serviço secundário. Dessa forma, uma consulta de transação com falha é reprocessada automaticamente no local de trabalho secundário.

Gerenciamento de IP de rede

O gerenciamento de IP de rede permite que um IP de serviço publicado se mova entre as máquinas no momento de uma falha. Isso é classificado como um processo de autocorreção, em que dois servidores monitoram um ao outro. Ou seja, se o primeiro servidor falhar, o segundo assumirá suas funções e processos.

Realize monitoramento

Um pacote de monitoramento bem integrado não apenas fornece informações sobre um aplicativo e sua função atual. Ele também monitora as taxas de erro que excedem um limite predefinido. Por exemplo, um site de comércio eletrônico pode configurar o monitoramento em um gateway de pagamento. Nesse caso, se as transações de autorização do cartão de crédito excederem uma taxa de falha de 20%, seu Network Operations Center (NOC) receberá automaticamente uma tarefa de alerta e recuperação na infraestrutura iniciada. .

Transações sem estado

Planejar um aplicativo para executar transações de maneira sem estado melhora significativamente a alta disponibilidade. Afinal, em um modelo sem estado, qualquer máquina só mantém transações de estado (dados em) que são “in fly”. Contudo, depois que uma transação é concluída, quaisquer máquinas que se degradam não afetam o estado ou a memória de transações históricas. Portanto, os clientes não estão limitados à dependência do servidor e a perda de qualquer membro do conjunto em uma camada garante que a sessão do cliente não seja interrompida devido a uma falha de hardware ou aplicativo.

Infográfico Modelos de Suporte Técnico Para Contratar

A Amazon.com utiliza transações sem estado com um armazenamento de valor-chave estático para salvar carrinhos de compras indefinidamente. Portanto, a chave é evitar o armazenamento do estado permanente (ou seja, transações, inventário, dados do usuário) em servidores lógicos ou físicos individuais.

Adote configurações Multi-Site

No caso de uma falha de hardware catastrófica, os recursos podem ser reimplantados em um local secundário em minutos e com pouco planejamento. Afinal, a replicação de dados e a disponibilidade de recursos estão presentes no local secundário. Tal como a implementação just-in-time de infraestruturas inteiras de aplicativos é medida em minutos, não em horas.

Quando arquitetados e implementados corretamente, as configurações de vários sites permitem que uma empresa reimplemente toda a sua infraestrutura em um novo data center.

Afinal, uma organização que não tolera o tempo de inatividade em sua infraestrutura de aplicativos se beneficiará mais de uma configuração de vários sites. Nessa situação, o site adicional seria um data center completamente independente. Este hospedaria uma cópia independente da infraestrutura do site primário. Dependendo de como o aplicativo de site é configurado, o site adicional pode estar em uma configuração ativa que atende uma parte do tráfego que entra no site ou em um site de failover primário que não veicula tráfego. Porém, que fica inativo enquanto está continuamente replicando dados do primário.

Por que implementar a alta disponibilidade?

Ao aplicar uma estratégia de alta disponibilidade, você pode atender seus clientes com qualidade. Ou seja, você deixa claro que valoriza o negócio deles. Uma infraestrutura de alta disponibilidade também atenua o impacto negativo das interrupções na receita e na produtividade. Felizmente, a alta disponibilidade não precisa ter um custo elevado, com serviços escalonáveis ​​baseados em nuvem à sua disposição.

Contudo, saiba que a arquitetura de alta disponibilidade anda de mãos dadas com backup online e recuperação de emergência. Entretanto, ela está mais focada no design e no investimento da rede original desde o início. É aí que o planejamento a longo prazo, à frente e para o desastre, realmente compensa.

 

Deixe um comentário