quinta-feira, 11 de novembro de 2010

O problema da deduplicação


Receba nosso boletim semanal!
Tecnologia que Interessa!

Muito tem se falado nos últimos tempos sobre deduplicação, à medida que o backup em disco se consolida no mercado. Inúmeras soluções surgem a cada dia, há quem diga que a fita morreu, ou que a fita deve ser utilizada para fins de arquivamento somente, dentre outras afirmações controversas.

Os benefícios da deduplicação são inegáveis. Redução drástica no volume de dados do backup (taxas de 10 pra 1 ou até maiores não são difíceis de obter), otimização do tempo de restauração e redução dos custos associados à solução (especiamente com aquisição de discos e fitas) são alguns exemplos.

O problema está no fato de que existem alguns pontos negativos, dos quais vou destacar o que considero mais grave: o ponto único de falha resultante do fato de que pode haver uma única cópia completa do seu backup, ou mesmo de vários dos seus backups, a depender da solução utilizada.

Vamos exemplificar para facilitar o entendimento:
  • Suponha que você possua um servidor de banco de dados, cujo backup é realizado através de uma solução que oferece o recurso de deduplicação.
  • Ao realizar o backup do servidor pela primeira vez, todos os dados serão copiados.
  • A partir da segunda execução, serão copiados apenas os dados alterados, seja através da identificação de blocos modificados ou outra técnica qualquer.
  • Agora vem a pergunta do milhão: o que acontece se aquela cópia inicial dos dados for corrompida ?
  • Há soluções que vão além, e são capazes de reutilizar esta cópia primária (de uma máquina virtual, por exemplo) para vários backups, aumentando a gravidade do problema.
Desta forma, quero com este texto alertar para o fato de que, apesar de todas as vantagens das soluções baseadas em deduplicação, é essencial garantir que haja mais de uma cópia primária de cada backup. A boa notícia é que isto é bastante simples de fazer, bastando realizar um segundo backup do mesmo dado, mas com destino diferente. Ou seja, pode ser feito um backup diário para disco e um semanal para fita, por exemplo, ou qualquer combinação que garanta que haverá mais de uma cópia completa dos dados.

Vale lembrar que, certamente, a estratégia aqui sugerida vai causar uma redução nas "taxas de economia de espaço de armazenamento" propagandeadas pelas soluções baseadas em deduplicação, que desconsideram esta questão em seus datasheets e folders. Há inclusive quem considere que o problema não existe, buscando por outros meios (redundância de discos, por exemplo) garantir que a cópia única jamais será corrompida. Você acreditaria nisso ? Eu não.
Portanto, o recado que deixo é: "Deduplicação, use com moderação.".

2 comentários:

  1. Fala Christian, fiquei com uma dúvida. Você está se referindo a soluções de backup que utilizam o dedup certo? Ou está englobando qualquer tecnologia de deduplicação? Por exemplo, temos essa tecnologia implantada no Windows Server 2012. Vc configura no SO e ele passa a fazer dedup dos dados do disco local da máquina... o ganho é o mesmo, mas nesse caso, não vejo o problema que você citou referente ao backup. Se a tecnologia (dedup) estier no disco e eu fizer um backup que não utiliza essa tecnologia, corro o mesmo risco?

    ResponderExcluir
  2. Olá Anônimo!

    O foco do texto foi em soluções de backup sim, mas o problema se aplica a qualquer situação em que se use deduplicação, pois o efeito colateral que vou chamar de "cópia única" vai existir.

    No seu caso, se seu backup não utiliza o recurso o problema está resolvido, pois você garante que haverá várias cópias dos dados, ou seja, a cada execução do backup uma nova cópia dos dados será criada, e assim você não tem o problema da cópia única de backup.

    Obrigado pelo comentário!

    ResponderExcluir