
O sistema de backup do banco (DBS) vem operando com base no software Veritas NetBackup há muito tempo. Mas o equipamento, no qual o SRC estava girando, não aguentava mais a carga.
Um sinal de um problema iminente foi a falta de uma janela de backup. A SRK não tinha mais tempo para fazer backup de dados de servidores e estações de trabalho durante a noite, e algumas das tarefas foram distribuídas ao longo do horário de trabalho. Como resultado, para alguns recursos, as cópias não eram feitas todos os dias, e isso criava o risco de perda de dados e violação do nível de SLA em caso de falhas reais.
Outro problema é a falta de espaço na biblioteca de discos. Para compensar de alguma forma, o cliente reduziu o tempo de armazenamento de backups na biblioteca de disco de 14 para 7 dias. Isso colocava pressão adicional nas unidades da biblioteca de fitas, que eram quase totalmente utilizadas de qualquer maneira.
A biblioteca de discos foi usada para armazenamento online de backups e forneceu a execução paralela de trabalhos de backup de até 25 threads simultaneamente.
A biblioteca de fitas foi usada para armazenamento de longo prazo. De acordo com as exigências do regulador, diversos documentos devem ser armazenados de 1 a 5 anos. Com um novo aumento de carga, o cliente teria problemas para cumprir os regulamentos do Banco Central. Não é uma perspectiva muito positiva.
Mudança? Reparar? Expandir? Melhoria?
Quando a SRK começou a "engasgar", se aproximando do limite de sua produtividade, o cliente teve uma dúvida - onde está o "gargalo" do sistema? Como estamos envolvidos na manutenção da parte de software da SRK, o serviço de TI do banco nos solicitou uma análise do funcionamento do sistema.
A solução na época incluía os seguintes componentes:
- 1 x NetBackup Solaris x86 mestre / servidor de mídia
- 1 x VMware Backup Media Server;
- 45 x AIX Media Servers
- 10 x SPARC Solaris Media Servers;
- 1 x Biblioteca de discos Dell EMC Data Domain 4200 em modo VTL;
- 1 x Oracle SL3000 Tape Library com 8 unidades LTO6.
Para armazenar backups online, vários fluxos de backups de servidores de mídia e clientes corporativos foram gravados simultaneamente usando o protocolo FC para a biblioteca de disco. As cópias foram então submetidas a backup em mídia de fita da biblioteca Oracle SL3000 por meio do servidor mestre / de mídia NetBackup por meio do protocolo FC.
O banco tem 830 clientes SRK, incluindo cerca de 730 máquinas virtuais VMware, clientes corporativos em AIX e Solaris e servidores físicos x86. O volume original de uma cópia completa dos dados de backup foi de 115 TB.
Para encontrar o gargalo, examinamos as estatísticas de execução de trabalhos do NetBackup, a configuração de E / S do servidor de mídia, a configuração de SAN, a utilização da unidade da biblioteca de fitas e o desempenho da biblioteca de discos. Para isso, o cliente nos forneceu relatórios de diagnóstico:
- nbsu - Utilitário de suporte do Veritas NetBackup;
- NetBackup DeployUtil e especificação de licença de software;
- Brocade SAN Health na configuração de SAN;
- AutoSupport da Data Domain Disk Library.
O relatório nbsu - Veritas NetBackup Support Utility fornece informações abrangentes sobre a configuração do NetBackup, incluindo informações de desempenho para trabalhos de backup. Esta informação é apresentada no dump bpdbjobs - most_columns. Mas você precisa ser capaz de analisá-lo e converter datas e horas do formato de época para um formato legível.

A saída do comando bpdbjobs ajuda a avaliar o desempenho e a duração de cada trabalho. É assim que você pode ter uma ideia do descarte de unidades de biblioteca de fitas em uma escala de tempo :

O nbsu tem dados sobre a mídia usada, períodos de retenção e sua distribuição entre pools. Abaixo está um resumo dos tempos de retenção de mídia com base em NBU_available_media.txt do nbsu.

O relatório NetBackup DeployUtil estima o consumo real de licenças de software de backup para diferentes modelos de licenciamento - tradicional e capacidade. Gerado em MS Excel, contém uma lista completa de clientes de backup, informações sobre a plataforma de servidores redundantes, a versão do NetBackup utilizada e a quantidade de dados a serem copiados.
O relatório Brocade SAN Health descreve a topologia SAN, a configuração de zoneamento e a utilização de links ISL.
O Data Domain AutoSupport “fala” sobre a configuração da biblioteca de discos, eficiência de armazenamento e desempenho. Após a análise, identificamos os padrões e obtivemos o mapa de calor da carga:

Como resultado, descobriu-se que o "elo mais fraco" era a biblioteca de discos Dell EMC Data Domain 4200, que funcionava no modo VTL.
Comparamos os parâmetros reais e os requisitos formais para o volume de backups e sua frequência. Descobriu-se que a capacidade e o desempenho atuais da biblioteca de discos não fornecem armazenamento de CDs operacionais com o período necessário. Além disso, justamente por causa das limitações da velocidade de leitura do Dell EMC DD4200, a duplicação de informações nas fitas ocorria em um modo próximo ao limite. O desempenho inferior do DD para leitura se deve ao processo de reidratação da informação, que consome muitos recursos - restaurando a sequência de blocos à sua forma original antes da desduplicação.
Tudo apontava para a necessidade de substituir a biblioteca de discos desatualizada. O cliente precisava de hardware que pudesse suportar de 5 a 6 TB de dados por hora, com controladores adicionais para tolerância a falhas e capacidade aumentada.
Três candidatos para escolher
A sugestão mais óbvia neste caso foi substituir o Dell EMC Data Domain por uma versão mais recente. Ou o Veritas NetBackup Appliance pode ser uma alternativa. (Isso é amplamente análogo ao Data Domain e está na mesma categoria de preço). Mas ambas as opções levantaram preocupações sobre o orçamento.
A terceira opção é uma solução baseada em servidores de arquitetura padrão com desduplicação nativa Veritas NetBackup - Media Server Deduplication Pool (MSDP).
Quando chegamos ao cliente com uma proposta, descobrimos que ele já havia considerado soluções baseadas no Veritas NetBackup Appliance e no Dell EMC Data Domain de outros fornecedores, mas o cliente não tinha certeza de como eram ótimas em termos de relação preço / resultado. Em outras palavras, nossa versão em servidores padrão foi útil.
Enquanto o banco testava configurações com base no Veritas NetBackup Appliance, aconselhamos a equipe de TI do cliente sobre os detalhes do uso da desduplicação da Veritas, as nuances da tecnologia de transporte de fibra para transmitir tráfego SRK por SAN, mecanismos para criar cópias sintéticas com base na tecnologia NetBackup Accelerator e propusemos a verificação dessas tecnologias no programa de teste. Com base nos resultados dos testes, o cliente aprovou nossa solução baseada em dois servidores x86 padrão com armazenamento em bloco, já que toda a pilha de tecnologias testadas foi implementada nela.
Também preparamos uma proposta para substituir o Dell EMC Data Domain 4200 por uma biblioteca mais recente. Para este projeto, o modelo HA Dell EMC Data Domain 6800 foi escolhido - um modelo mais poderoso, espaçoso e produtivo. A vantagem da solução era a alta disponibilidade da biblioteca em uma configuração de controlador duplo. A biblioteca de discos nesta configuração não é mais um ponto único de falha. Se a controladora for perdida, a biblioteca permanecerá disponível por meio da tecnologia NPIV e as tarefas de backup continuarão automaticamente.
No caso de escolher uma solução baseada em Data Domain, o cliente não precisava substituir o software cliente do cliente SRK Enterprise por um cliente SAN, e a quantidade de trabalho para "incorporá-lo" ao cenário de TI era mínima. Essa foi outra vantagem para o Dell EMC Data Domain 6800 HA.
Mais potência + DD BOOST
A biblioteca de discos Dell EMC Data Domain 6800 oferece suporte ao modo de controlador duplo (alta disponibilidade) e pode funcionar não apenas com o protocolo VTL, mas também com DD BOOST. A nova biblioteca tem uma capacidade útil de 174 TB, excluindo desduplicação e compactação, enquanto o Dell EMC DD4200 foi limitado a 130 TB. Além disso, estimamos a velocidade esperada da biblioteca de discos e mostramos ao cliente que ela deveria ser de 5,3 a 8 TB por hora com gravação e leitura simultâneas, cobrindo totalmente suas necessidades de backup e transferência de dados para fitas.
O suporte simultâneo para DD Boost e VTL mostrou-se útil, pois foi possível combinar o uso de tecnologias em caso de problemas de compatibilidade. Os benefícios do DD Boost são óbvios:
- ;
- ( ) (image);
- DD Boost , - NetBackup;
- NetBackup ;
- .
Como o ecossistema do banco é baseado na virtualização VMware, o NetBackup Accelerator for Vmware também é um recurso útil do DD Boost. Essa tecnologia rastreia blocos VMware CBT alterados (Rastreamento de bloco alterado) e, com base na tecnologia de desduplicação, cria um backup completo sintético durante um incremental. Ao mesmo tempo, a possibilidade de recuperação granular de arquivos e aplicativos Microsoft (AD, SQL, Exchange, SharePoint) a partir de backups de máquinas virtuais é preservada.
Mais acessível, mas não melhor
Nossa equipe calculou os custos de mudança para várias opções de novas bibliotecas. Descobriu-se que reorganizar o SRC usando servidores padrão exigiria mais trabalho de integração. Mas o mais desagradável são os riscos adicionais para os negócios: substituição do software de backup do cliente, reconfiguração de políticas e, como resultado, possível paralisação dos servidores mais críticos (mais de 50 servidores AIX / Solaris).
Como resultado, o cliente optou por migrar para o Dell EMC Data Domain 6800.
Dell EMC Data Domain 6800 era a alternativa mais cara. Mas a sua utilização permitiu reduzir os custos de modernização em geral: não alterar a infraestrutura do RMS, minimizar o risco de perda de dados e indisponibilidade do serviço, e também não abandonar a antiga biblioteca. Portanto, adicionar outro DD ao sistema mais que dobrou a capacidade de armazenamento, nada me nos processos já depurados. A manutenção do suporte VTL não exigia configuração adicional nos servidores de mídia NetBackup e clientes corporativos. Também não houve necessidade de alterar o software de backup do cliente e as tarefas de backup foram facilmente redistribuídas entre as bibliotecas de disco - o DD4200 já instalado e o novo DD6800. As políticas SLP para transferência de backups para fitas também permanecem as mesmas de antes,agora apenas os dados vêm de duas bibliotecas de disco.
Transição para um novo sistema
Abaixo está o esquema de solução de destino:

Quando a nova biblioteca de disco foi introduzida, a necessidade de expandir a capacidade de backup era tão urgente que o banco estava pronto para fazer backup da produção até que todos os testes fossem concluídos. Conseguimos dissuadir o cliente dessa etapa. Realizamos todas as verificações no programa de teste, incluindo testes de failover destrutivos.
A implementação aconteceu rapidamente. Duas semanas depois, o banco estava executando uma nova biblioteca de disco. Como resultado, o cliente recebeu um sistema com maior capacidade e margem de desempenho suficiente para os próximos anos. Os indicadores de desempenho até superaram os calculados. O desempenho real do DD 6800 é de 8-9 TB por hora (calculado a partir de 5,3 TB) e a capacidade, levando em consideração a desduplicação e a compactação, é de cerca de 1 Petabyte.
Como simplesmente expandimos a capacidade de armazenamento em disco e não mudamos a arquitetura, o custo das licenças do NetBackup para o banco permaneceu o mesmo - nada mudou em termos de backup de dados e número de clientes. Agora, a nova biblioteca funciona em paralelo com o Dell EMC DD 4200, mas sua capacidade é suficiente para descomissionar sem problemas a biblioteca antiga, se necessário.
Um estudo aprofundado no início do projeto em termos de custos trabalhistas "superou" a introdução da nova biblioteca. Na verdade, concluímos um pequeno projeto de consultoria com um cálculo incorreto das opções possíveis para 0 rublos. Mas, como se viu, não foi em vão. Isso permitiu ao cliente obter uma justificativa para a modernização, minimizar riscos e tomar uma decisão informada.
Autor: Alexey Polyakov, engenheiro de design de sistemas de armazenamento de dados, Jet Infosystems