quinta-feira, 29 de julho de 2010

FISL 11: Disponibilidade 99,999%

A palestra Disponibilidade >=99,999% usando Virtualização e Gerenciamento de Pacotes, do Marco Carnut, foi outra das várias palestras técnicas e bastante úteis para quem precisa garantir altos índices de disponibilidade para o ambiente de TI da empresa. A expectativa era grande e foi atendida e superada graças à dinâmica, objetividade e conhecimento demonstrados pelo Marco. Ele falou muita coisa que faz você pensar, e destaco aqui várias delas:
  • Com uma definição de segurança muito interessante, ele deixou explícito que precisamos ser racionais (nada de pensar em soluções absurdas e fora do contexto da organização) e em riscos específicos (somente aqueles que causariam dano significativo);
  • Pra garantir a alta disponibilidade de um ambiente monitorado, é essencial garantir no mínimo a mesma disponibilidade para o sistema de monitoramento, embora isso não aconteça em muitas organizações, e este é um grande desafio;
  • Com um quadro ilustrando o tempo de indisponibilidade tolerado de acordo com a "regra dos nove" para disponibilidade em TI, foi pontuado que é comum levarmos mais que 53 minutos (tempo máximo de parada ao ano para garantir 99,999%) realizando uma tarefa que, em princípio, seria simples e rápida (chego a ouvir meus prezados leitores confirmando: putz, é verdade!). Eu mesmo passo por isso no mínimo uma vez por semana, sendo bem otimista. Agora imagine não poder realizar este tipo de tarefa. Inimaginável, né ?
  • Outra coisa interessante que ele observou é que a maior parte da indisponibilidade no ambiente era causada por atualizações de aplicações (qualquer semelhança é mera coincidência), e portanto este era o ponto crítico a ser trabalhado;
  • Para garantir a alta disponibilidade, eles definiram o que chamaram de anéis, onde o anel 0 (zero) representava o conjunto de aplicações mais críticas e assim por diante, de modo a facilitar a definição de prioridades;
  • Outro ponto importante: questões relacionadas a energia, link, roubo e incêndio foram terceirizadas, pois o grau de exigência era muito elevado e implementar internamente sairia extremamente caro. Eles contrataram serviços da Diveo;
  • Internamente foram tratadas questões como falhas de hardware, conectividade local, paradas para manutenção, tudo resolvido com redundância - cluster de servidores, discos espelhados, switches redundantes, etc;
  • Certos riscos foram simplesmente "assumidos": inundação, terremoto, etc;
  • As soluções utilizadas incluiam Linux com Heartbeat e DRBD para cluster com failover, virtualização com o Linux VServer e gerenciamento de pacotes;
  • A solução Linux VServer foi escolhida por ser a mais leve na avaliação deles, rodando mais VMs por host que VMware, por exemplo;
  • Aliás, um ponto muito interessante da solução deles foi a DEBificação de TUDO: de aplicações a configurações, tudo é empacotado em DEB e instalado nos servidores utilizando o sistema de gerenciamento de pacotes, maduro e estável;
  • Vale destacar ainda a idéia de um ambiente de homologação como snapshot de produção, garantindo máxima fidelidade no ambiente utilizado pelos desenvolvedores;
  • É importante ressaltar também que alta disponibilidade não significa não parar, significa parar o mínimo possível, e voltar o mais rapidamente possível, e portanto falhas eventuais são toleradas;
Esta foi mais uma palestra muito legal do FISL 11.

Um comentário:

  1. Olá Christian!

    Obrigado pela resenha da minha palestra -- é muito recompensador saber que ela foi bem aproveitada!

    Se quiser os slides, pegue-os em:
    http://blog.tempest.com.br/marco-carnut/minha-palestra-fisl11.html

    Abraços!

    -K.

    ResponderExcluir