🤳🏽 🐭 🧘🏿 Sistema de armazenamento que não se torna obsoleto. Nunca 👨🏻‍💻 ⏪ ⛹🏾

A princípio, a história parece bastante simples: o sistema de armazenamento funciona bem por três anos com garantia estendida, o quarto é relativamente normal e é comprado um novo em vez do desatualizado no quinto. Os fornecedores arrancam dinheiro de você aumentando o custo do suporte e todos os tipos de recursos pagos, como o suporte VDI. Este esquema pode ser quebrado? Talvez sim.

A empresa entrou no mercado com uma proposta intrigante: um hardware sempre funciona, sempre funciona rápido, o custo do suporte é o mesmo ano a ano, todas as funcionalidades estão disponíveis imediatamente. Bem, isto é, eles apenas pegaram a caixa e de vez em quando trocaram os componentes nela para que se tornassem obsoletos na velocidade da substituição. Os controladores são atualizados a cada três anos, é possível substituir discos antigos por outros mais modernos, ou seja, o espaço ocupado pelo sistema de armazenamento no rack pode não só crescer, mas também diminuir, enquanto o volume e o desempenho aumentam.

Na verdade, a primeira coisa que você vê no rack são as alças com o nome do modelo, pelas quais você pode e deve retirar os controladores do array.

imagem

Isso é feito sem parar, sem ganhar dinheiro, e a margem de produtividade é tal que os sistemas bancários não diminuem a velocidade durante a substituição. Para fazer isso, você tinha que escrever seu próprio sistema de arquivos (mais precisamente, um análogo do RAID), montar um cluster interno e fazer algumas melhorias, ao mesmo tempo eliminando a sobrecarga herdada dos discos rígidos.

Vamos ver o que aconteceu e como ficou. Vamos começar com arquitetura.

Para começar, o procedimento para trabalhar com o array não inclui botões liga / desliga. Absolutamente. Não vai precisar. Para desligar, simplesmente retire os cabos da PDU.

imagem

Arquitetura pura de armazenamento

A empresa partiu do fato de ter desenvolvido do zero uma arquitetura muito boa, aprimorada para flash (desde 2017 - NVMe), e algoritmos eficazes para desduplicação e compressão de dados. O cálculo foi o seguinte: então, havia matrizes de discos rígidos, soluções híbridas e SSD all-flash no mercado. As unidades flash eram caras e as unidades de disco lentas. Conseqüentemente, eles invadiram o ambiente competitivo com matrizes de flash ao custo de possuir matrizes de disco.

imagem

Fizemos isso:

Escrevemos nosso próprio sistema operacional para discos. O principal recurso é a compressão rápida de dados antes da gravação e, em seguida, o pós-processamento com desduplicação poderosa, que permite compactá-los com ainda mais densidade e precisão.
Pegamos apenas drives flash (agora geralmente é estritamente NVMe) e hardware poderoso para computação.

As primeiras implementações foram para ambientes VDI, já que os dados ali se comprimiam muito bem. Algoritmos de desduplicação e compressão deram um ganho de seis a nove vezes no espaço utilizado, ou seja, com todas as vantagens do all-flash, baixaram os preços em cerca de uma ordem de magnitude. Além disso, o modelo econômico me subornou: um custo fixo para suporte e a capacidade de não trocar o hardware. Então eu vi as primeiras substituições de dois racks por versões de três ou seis unidades, mas ainda não acreditava que esse pedaço de ferro seria usado em algum lugar fora da VDI.

E então o LinkedIn começou a armazenar nessas peças de ferro. AT&T conectado. Os principais bancos e telecomunicações dos Estados Unidos também compraram na produção.

Descobriu-se que os algoritmos de compressão são bastante adequados para ambientes de desenvolvimento e teste. Após a substituição do SSD pelo NVME, a competição repentinamente começou nos bancos de dados transacionais convencionais no segmento bancário. Porque o array revelou-se rápido e confiável devido à sua arquitetura "a qualquer momento podemos perder dois módulos flash quaisquer". Então, um flash array em chips mais baratos (QLC) saiu com um tempo de resposta de 2 a 4 ms, e não 1 ms, como nos modelos top, e comecei a observar a remoção do mesmo VNX e Compellent. Ficou claro que o pedaço de ferro é bastante competitivo.

Naturalmente, o custo da TB continuará sendo alto onde houver dados incompressíveis: criptografia, arquivamento, streams de vídeo (vigilância por vídeo) e bibliotecas de imagens, mas às vezes essas implementações também acontecem quando o cliente exige alto desempenho. Conheço um caso em que um vídeo (dados aparentemente compactados) foi compactado em 10% a mais.

Mas mesmo para bancos de dados convencionais, acabou sendo bastante viável a um preço por gigabyte.

E foi aqui que o modelo de sistema de armazenamento "perene" começou a subornar.

Atualização constante

Por cinco anos, apenas o chassi e as fontes de alimentação permaneceram no pedaço de ferro do antigo, aliás. Você pode mover-se aos solavancos com as transferências ou pode alterar os componentes como em um cluster. Na verdade, este é o cluster, apenas montado em uma caixa de três unidades (ou seis unidades). O ferro foi feito do zero para eles próprios. Vamos examinar a arquitetura primeiro e, em seguida, ver por que é conveniente alterá-la peça por peça.

imagem

Soluções interessantes são:

O poder de computação é sempre o dobro: é necessário substituir o controlador sem degradar o desempenho. Ao mesmo tempo, os dois controladores funcionam na frente e um controlador é usado no backend para gravar em módulos flash.
RAID- , N + 2, . , — , . .
N + 2, , . , . RAID, , , , ( ) , .
! , , . , - .
, ! , , ( ), - . , , , . . , RAID 10.
— NVMe-, — NVRAM. Optane. — , ( SCM-), .
. - , , . , .
3:1, . 512 , 8 . — , . . HDD, .
( ). , .

Mas não foi suficiente para a empresa montar sua arquitetura e escrever um sistema operacional de servidor virtual para ela. Eles entraram no nível mais baixo dos chips flash e lançaram os seus próprios. Mas, ao mesmo tempo, são compatíveis com os padrões. Acima está uma interface NVMe, dentro estão chips de nosso próprio projeto.

imagem

O violino seguiu esse caminho, que antes lhes proporcionava arranjos cosmicamente rápidos. Somente eles fizeram seu próprio padrão, mas aqui eles usam um aberto e disponível publicamente. Para que serve? O firmware do chip é parte do firmware do controlador e, portanto, o sistema de armazenamento sabe exatamente o que está acontecendo em cada bloco individual.

imagem

Se em uma prateleira de disco normal cada módulo SSD ou NVMe for uma pequena caixa preta para um controlador, então aqui ele vê tudo. Foi necessário para resolver o problema de um grande volume endereçável, pois os problemas dos arrays flash são os mesmos: gerenciamento de desgaste, coleta de lixo, etc. Isso é feito pelo firmware dos controladores.

imagem

Ou seja, como você pode ver, o quebra-cabeça é o seguinte: um lugar barato se consegue trocando por performance. Alto desempenho significa redundância constante de processadores e RAID. O número excessivo de processadores significa pós-processamento de compactação poderoso e a capacidade de perder qualquer parte sem perder desempenho. RAID corresponde a essa ideia. Ou seja, todas essas vantagens dão ao chip quase que gratuitamente tirar qualquer parte do "lucro".

Em seguida, vem o marketing e oferece a grande declaração "armazenamento sem idade". Preço de suporte fixo, todo o software incluído, sem pacotes adicionais. Devido a um nível de serviço separado, você pode substituir os controladores gratuitamente a cada três anos (nível Evergreen GOLD). Há atualizações conforme os requisitos aumentam: Eu vi como o XR2 mudou para o XR3. Eu trabalhei por um ano, então uma empresa apareceu e disse que precisávamos de uma nova. O fornecedor tem a opção de negociar controladores antigos e obter novos com antecedência. Boa atualização. Os controladores apenas mudam um de cada vez.

Atualizar discos é mais interessante. Uma prateleira de serviço adicional com discos vem de fábrica. Os dados são migrados para a prateleira sem parar - todos os dados dessas mídias que devem ser substituídos. A prateleira funciona com os controladores principais (tem os seus próprios). Na verdade, esta é uma unidade de datapack, armazenamento temporário. Quando a migração termina, os discos são marcados como OK e o engenheiro os remove do chassi. No lugar dos antigos, ele insere novos e inicia a migração reversa. Demora um dia ou mais, mas os aplicativos e o servidor não são notados. Uma vez que esses sistemas de armazenamento são frequentemente disponibilizados por provedores de serviços, existe a possibilidade de substituição e atualização simultâneas: dentro da estrutura do Evergreen GOLD, você pode trocar discos antigos por vários novos espaçosos e rápidos, além de comprar os mesmos.

Então, é bom preencher, o ponto fraco é sempre a compressão!

Estamos acostumados a ouvir isso dos usuários de armazenamento em disco. Lá, a história é padrão - a funcionalidade não foi fornecida durante o desenvolvimento da arquitetura - eles ligaram a compressão, o aplicativo parou, então eles passaram muito tempo tentando restaurar tudo novamente sob o abuso do gerenciamento. Como já mencionado, o Pure Storage escolheu um caminho diferente - a desduplicação com compactação tornou-se uma funcionalidade básica não desconectável. O resultado é que o Pure Storage agora vale mais de 15.000 instalações. Durante a inicialização, você pode marcar a caixa "fornecer estatísticas anônimas", e então seu sistema de armazenamento enviará para o sistema de monitoramento Pure 1. A garantia para bancos de dados, por exemplo, é 3,5: 1. Existem recursos específicos - o mesmo VDI de 7: 1 e superior. As matrizes não são vendidas em local úmido, mas em um recipiente útil com garantia de entrega adicional,ou seja, se durante a migração seu nível de compactação for inferior ao garantido, o fornecedor colocará mais discos físicos gratuitamente. O fornecedor diz que as unidades são entregues em cerca de 9 a 10% dos casos e o erro raramente ultrapassa algumas unidades. Na Rússia, eu não tinha visto isso antes, os coeficientes eram os mesmos em todas as instalações, exceto no caso em que dados criptografados são "revelados", sobre os quais o cliente não disse que estavam criptografados.

Devido à natureza dos instantâneos, os ambientes de teste são muito eficientes. Há um exemplo de cliente que fez um dimensionamento 7: 1 no cálculo e recebeu 14 copeques para um.

O fornecedor afirma o seguinte:

Bancos de dados 3,5: 1 (Oracle, MS SQL).
4.2: 1 virtualização de servidor (VMware, Hyper-V).
7.1: 1 VDI (Citrix, VMware).
Proporção média de 5: 1 em toda a base instalada.

Também da funcionalidade interessante: automação e integração com peças jovens da moda como Kubernetes, bem como suporte total para VMware vvol. Tudo é simples aqui - a maioria dos clientes ocidentais da Pure Storage são provedores de nuvem como ServiceNow, o caso, a propósito, está postado no site. Eles estão acostumados a automatizar tudo tanto quanto possível.

Total

Acabou sendo uma coisa interessante, que a princípio parecia estranha, e depois cada vez mais alegre e alegre. Cinco anos no Gartner:

imagem

é claro, o modelo econômico do Evergreen não é tão barato e barato, mas evita várias hemorróidas e parece bastante competitivo ao calcular o custo de propriedade por vários anos.

PS Um encontro online está disponível abaixo: "Sistemas de armazenamento de dados por assinatura: verdade ou ficção."

Sistema de armazenamento que não se torna obsoleto. Nunca

Arquitetura pura de armazenamento

Atualização constante

Então, é bom preencher, o ponto fraco é sempre a compressão!

Total

More articles: