2.3. Como planejar configurações de hardware de nó

O Acronis Cyber Infrastructure funciona com um hardware comercial, ou seja, você pode criar um cluster de servidores, discos e placas de rede regulares. Mesmo assim, para alcançar o melhor desempenho, é necessário atender a vários requisitos e seguir várias recomendações.

Nota

Se você não tem certeza de qual hardware deve escolher, consulte seu representante de vendas. Você também pode usar a calculadora de hardware on-line. Se quiser evitar as complicações de teste, instalação e configuração de hardware e/ou software, considere usar o Aplicativo da Acronis. Pronto para uso, você terá uma solução de infraestrutura de cinco nós, tolerante a falhas e de nível empresarial, com excelente desempenho de armazenamento que é executada em um fator de formato 3U.

2.3.1. Limites de hardware

A tabela abaixo lista os limites de hardware atuais para servidores do Acronis Cyber Infrastructure:

Tabela 2.3.1.1 Limites de hardware do servidor
Hardware Teórico Certificado
RAM 64 TB 1 TB
CPU 5120 CPUs lógicas 384 CPUs lógicas

Uma CPU lógica é um núcleo (thread) de um processador multinúcleos (multithreading).

2.3.2. Requisitos de hardware

A tabela a seguir lista os requisitos de disco mínimos e recomendados de acordo com as funções de disco (confira Visão geral da arquitetura de armazenamento):

Tabela 2.3.2.1 Requisitos de disco
Função do disco Quantidade Mínimo Recomendado
Sistema Um disco por nó 100 GB HDD SATA/SAS 250 GB SSD SATA/SAS
Metadados

Um disco por nó

Cinco discos recomendados para um cluster

SSD de 100 GB de nível empresarial com proteção contra perda de energia, resistência mínima de 1 DWPD
Cache

Opcional

Um disco SSD por 4-12 HDDs

SSD de nível empresarial com mais de 100 GB e proteção contra perda de energia e desempenho de gravação sequencial de 75 MB/s por HDD atendido; resistência mínima de 1 DWPD, 10 DWPD recomendada
Armazenamento

Opcional

Pelo menos um por cluster

Mínimo de 100 GB, máximo de 16 TB recomendado

HDD SATA/SAS e SSD SATA/SAS/NVMe (de nível empresarial com proteção contra perda de energia, resistência mínima de 1 DWPD)

A tabela a seguir lista a quantidade recomendada de núcleos de RAM e CPU para um nó, de acordo com os serviços que você usará:

Tabela 2.3.2.2 Requisitos de CPU e RAM
Serviço RAM Núcleos de CPU*
Sistema 6 GB 2 núcleos
Serviços de armazenamento: cada disco com função de armazenamento ou função de cache (qualquer tamanho)** 1 GB 0,2 núcleo
Computação 8 GB 3 núcleos
Balanceador de carga Serviço 1 GB 1 núcleo
Cada balanceador de carga 1 GB 1 núcleo
Kubernetes 2 GB 2 núcleos
S3 4,5 GB 3 núcleos
Backup Gateway*** 1 GB 2 núcleos
NFS Serviço 4 GB 2 núcleos
Cada compartilhamento 0,5 GB 0,5 núcleo
iSCSI Serviço 1 GB 1 núcleo
Cada volume 0,1 GB 0,5 núcleo

* Processadores Intel VT e AMD-V x86 de 64 bits com extensões de virtualização de hardware habilitada. Para processadores Intel, habilitar “sem restrição de convidados” e VT-x com EPT (Tabelas de Página Estendida) na BIOS. É recomendável ter os mesmos modelos de CPU em cada nó para evitar problemas com a migração da VM em tempo real. Um núcleo de CPU aqui é um núcleo físico em um processador multinúcleos (o hyperthreading não é levado em consideração).

** Para clusters com mais de 1 PB de espaço físico, adicione 0,5 GB de RAM extras por serviço de metadados.

*** Ao trabalhar com nuvens públicas e NFS, o Backup Gateway consome tanta RAM e CPU quanto um armazenamento local.

Quanto às redes, são recomendadas pelo menos 2 interfaces de 10 GbE; 25 GbE, 40 GbE e 100 GbE são ainda melhores. A vinculação é recomendada. No entanto, você pode começar com links de 1 GbE, mas eles podem limitar a taxa de transferência do cluster em cargas modernas.

Vamos considerar alguns exemplos e calcular os requisitos para os casos específicos.

  • Se você possui 1 nó (1 disco do sistema e 4 discos de armazenamento) e deseja usá-lo no Backup Gateway, o nó deve atender aos seguintes requisitos: requisitos do sistema (6 GB, 2 núcleos) + serviços de armazenamento para 4 discos (4 GB, 0,8 núcleos) + Backup Gateway (1 GB, 2 núcleos). No total, são 11 GB de RAM e 5 núcleos para o nó.
  • Se você possui 3 nós (1 disco do sistema e 4 discos de armazenamento) e deseja usá-los para o serviço de Computação, cada nó do cluster deve atender aos seguintes requisitos: os requisitos do sistema (6 GB, 2 núcleos) + Computação (8 GB, 3 núcleos). No total, são 14 GB de RAM e 5 núcleos para cada nó. Se quiser habilitar, por exemplo, uma VM de Kubernetes e um balanceador de carga, adicione os seguintes requisitos ao nó de gerenciamento: Balanceador de carga (2 GB, 2 núcleos) + Kubernetes (2 GB, 2 núcleos). No total, são 18 GB de RAM e 9 núcleos para o nó de gerenciamento.
  • Se você possui 5 nós (2 discos do sistema e 10 discos de armazenamento) e deseja usá-los no Backup Gateway, cada nó do cluster deve atender aos seguintes requisitos: os requisitos do sistema (6 GB, 2 núcleos) + serviços de armazenamento para 10 discos (10 GB, 2 núcleos) + Backup Gateway (1 GB, 2 núcleos). No total, são 17 GB de RAM e 6 núcleos para cada nó.

Em geral, quanto mais recursos você fornece para seu cluster, melhor ele funciona. Toda RAM extra é usada para leituras de cache de disco. E núcleos de CPU extras aumentam o desempenho e reduzem a latência.

2.3.3. Recomendações de hardware

Em geral, o Acronis Cyber Infrastructure funciona no mesmo hardware recomendado para Red Hat Enterprise Linux 7, incluindo os processadores AMD EPYC: servidores, componentes.

As recomendações a seguir explicam melhor os benefícios trazidos pelo hardware especificado na tabela de requisitos de hardware. Use-as para configurar seu cluster da maneira ideal.

2.3.3.1. Recomendações de composição do cluster de armazenamento

A criação de um cluster de armazenamento eficiente significa um meio termo entre desempenho e custo que atenda às suas necessidades. Ao planejar, lembre-se de que um cluster com muitos nós e poucos discos por nó oferece desempenho superior, enquanto um cluster com o número mínimo de nós (3) e muitos discos por nó é mais barato. Consulte a tabela a seguir para ver mais detalhes.

Tabela 2.3.3.1.1 Recomendações de composição do cluster
Considerações de design Mínimo de nós (3), vários discos por nó Muitos nós, poucos discos por nó (configuração totalmente em flash)
Otimização Menor custo. Melhor desempenho.
Espaço em disco livre para reserva Mais espaço para reserva na recriação do cluster, já que menos nós íntegros terão que armazenar os dados de um nó com falha. Menos espaço para reserva na recriação do cluster, já que mais nós íntegros terão que armazenar os dados de um nó com falha.
Redundância Menos opções de código de correção de erros (erasure coding). Mais opções de código de correção de erros (erasure coding).
Desempenho de equilíbrio e recriação do cluster Pior equilíbrio e recriação mais lenta. Melhor equilíbrio e recriação mais rápida.
Capacidade da rede Maior largura de banda de rede exigida para manter o desempenho do cluster durante a recriação. Menor largura de banda de rede exigida para manter o desempenho do cluster durante a recriação.
Tipo de dados favorecidos Dados inativos (por exemplo, backups). Dados de uso frequente (por exemplo, ambientes virtuais).
Configuração simples do servidor Supermicro SSG-6047R-E1R36L (CPU Intel Xeon E5-2620 v1/v2, 32 GB de RAM, 36 x HDDs de 12 TB, um disco do sistema de 500 GB). Supermicro SYS-2028TP-HC0R-SIOM (4 x CPUs Intel E5-2620 v4, 4 x RAM de 16 GB, 24 x SSDs Samsung PM1643 de 1,9 TB).

Observe o seguinte:

  1. Essas considerações só se aplicam se o domínio de falha for o host.
  2. A velocidade de recriação no modo de replicação não depende do número de nós no cluster.
  3. O Acronis Cyber Infrastructure dá suporte a centenas de discos por nó. Se você planeja usar mais de 36 discos por nó, entre em contato com os técnicos de vendas que ajudarão você a criar um cluster mais eficiente.

2.3.3.2. Recomendações gerais de hardware

  • É necessário ter pelo menos cinco nós em um ambiente de produção. Isso serve para assegurar que o cluster pode sobreviver à falha de dois nós sem perder dados.
  • Um dos maiores recursos do Acronis Cyber Infrastructure é a escalabilidade. Quanto maior o cluster, melhor é o desempenho do Acronis Cyber Infrastructure. É recomendável criar clusters de produção com pelo menos dez nós para melhorar a resiliência, o desempenho e a tolerância a falhas nos cenários de produção.
  • Mesmo que um cluster possa ser criado com vários tipos de hardware, o uso de nós com hardware semelhante em cada nó trará melhor desempenho, capacidade e equilíbrio do cluster em geral.
  • Todas as infraestruturas do cluster precisam ser testadas extensivamente antes de sua implantação na produção. Os pontos de falha comuns, como drives SSD e vínculos de adaptadores de rede, precisam ser sempre minuciosamente verificados.
  • Para a produção, não é recomendável executar o Acronis Cyber Infrastructure em um hardware SAN/NAS que tenha seus próprios mecanismos de redundância. Isso pode afetar o desempenho e a disponibilidade dos dados negativamente.
  • Para alcançar o melhor desempenho, mantenha pelo menos 20% da capacidade do cluster livre.
  • Durante a recuperação de desastres, o Acronis Cyber Infrastructure poderá precisar de mais espaço em disco para replicação. Reserve pelo menos o espaço equivalente a um nó de armazenamento.
  • É recomendável ter os mesmos modelos de CPU em cada nó para evitar problemas com a migração da VM em tempo real. Para mais detalhes, confira o :doc: “Guia de linhas de comando do administrador <admins_cmd_guide:index>”.
  • Se você planeja usar o Backup Gateway para armazenar backups na nuvem, verifique se o cluster de armazenamento local tem bastante espaço lógico para armazenamento distribuído (manter backups localmente antes de enviá-los para a nuvem). Por exemplo, se você faz backups diariamente, forneça espaço suficiente para pelo menos 1 dia e meio de backups. Para mais detalhes, confira o :doc: “Guia do Administrador <admins_guide:index>”.
  • É recomendado usar UEFI em vez de BIOS, se o hardware oferecer suporte. Em particular, se você usar unidades NVMe.

2.3.3.3. Recomendações de hardware de armazenamento

  • É possível usar discos de tamanhos diferentes no mesmo cluster. No entanto, lembre-se que, com o mesmo IOPS, discos menores oferecerão melhor desempenho por terabyte de dados em comparação com discos maiores. É recomendável agrupar discos com a mesma proporção de IOPS por terabyte na mesma camada.
  • O uso dos modelos de SSD recomendados pode ajudar você a evitar a perda de dados. Nem todos os drives SSD podem aguentar cargas de trabalho de nível empresarial e podem quebrar nos primeiros meses de operação, o que resulta em picos de TCO.
    • As células de memória do SSD podem aguentar uma quantidade limitada de regravações. O drive SSD deve ser encarado como um bem consumível que você precisará substituir depois de algum tempo. Os drives SSD de nível doméstico podem aguentar uma quantidade bem baixa de regravações (tão baixa, na verdade, que esse número nem aparece nas suas especificações técnicas). Os drives SSD que serão usados em clusters de armazenamento precisam oferecer resistência mínima de 1 DWPD (10 DWPD é o recomendado). Quanto maior a resistência, menor será a necessidade de substituir os SSDs, o que melhora o TCO.
    • Vários drives SSD de nível doméstico podem ignorar liberações de disco e informar aos sistemas operacionais que os dados foram gravados quando, na verdade, não foram. Exemplos dessas unidades incluem o OCZ Vertex 3, o Intel 520, o Intel X25-E e o Intel X-25-M G2. Essas unidades são reconhecidas como não seguras em termos de confirmação de dados, não devem ser usadas com bancos de dados e podem corromper o sistema de arquivos facilmente em caso de falha de energia. Por isso, use unidades SSD de nível empresarial que seguem as regras de liberação (para mais informações, confira http://www.postgresql.org/docs/current/static/wal-reliability.html). Os drives SSD de nível empresarial que funcionam corretamente costumam ter a propriedade de proteção contra perda de energia nas suas especificações técnicas. Alguns dos nomes comerciais dessa tecnologia são Proteção avançada contra interrupção de energia (Enhanced Power Loss Data Protection – Intel), Proteção de cache (Cache Power Protection – Samsung), Suporte contra falha de energia (Power-Failure Support – Kingston), Proteção completa contra falha de energia (Complete Power Fail Protection – OCZ).
    • Recomendamos verificar a capacidade de liberação de dados de seus discos da maneira explicada em Como verificar a capacidade de liberação de dados do disco.
    • Os drives SSD de nível doméstico costumam ter desempenho instável e não são ideais para lidar com cargas de trabalho de nível empresarial de maneira sustentável. Por isso, verifique os testes de carga sustentável na hora de escolher os SSDs. Recomendamos os seguintes drives SSD de nível empresarial, que são as melhores em termos de desempenho, resistência e investimento: Intel S3710, Intel P3700, Huawei ES3000 V2, Samsung SM1635 e Sandisk Lightning.
    • O desempenho dos discos SSD pode depender de seu tamanho. As unidades com menor capacidade (100 a 400 GB) podem ter um desempenho muito mais lento (às vezes até dez vezes mais lento) do que as unidades de maior capacidade (1,9 a 3,8 TB). Verifique as especificações de desempenho e resistência da unidade antes de comprar o hardware.
  • O uso de SSDs NVMe ou SAS para armazenamento em cache de gravação melhora o desempenho de E/S aleatória e é altamente recomendado para todas as cargas de trabalho com acesso aleatório pesado (por exemplo, volumes iSCSI). Por sua vez, os discos SATA são mais adequados para configurações apenas de SSD, mas não para cache de gravação.
  • Não é recomendável usar HDDs com gravação magnética sobreposta (SMR), mesmo em cenários de backup. Esses discos têm latência imprevisível que pode causar interrupções temporárias imprevistas no serviço e degradações de desempenho inesperadas.
  • A execução de serviços de metadados nos SSDs melhora o desempenho do cluster. Para minimizar também o CAPEX, as mesmas unidades SSD podem ser usadas para gravar cache.
  • Se o objetivo principal for a capacidade e você precisar armazenar dados acessados com menor frequência, escolha discos SATA em vez de SAS. Se o objetivo principal for o desempenho, escolha discos NVMe ou SAS em vez de SATA.
  • Quanto mais discos por nó, mais baixo é o CAPEX. Por exemplo, um cluster criado a partir de dez nós com dois discos em cada será mais barato do que um cluster criado a partir de vinte nós com um disco em cada.
  • O uso de HDDs SATA com um SSD para cache é mais econômico que usar apenas HDDs SAS sem esse SSD.
  • Crie volumes de hardware ou software RAID1 para o discos do sistema com controladores RAID ou HBA, respectivamente, para garantir sua disponibilidade e seu alto desempenho.
  • Use controladores HBA já que são mais baratos e mais fáceis de gerenciar que os controladores RAID.
  • Desabilite todos os caches de controlador RAID para drives SSD. Os SSDs modernos têm um bom desempenho que pode ser reduzido pelo cache de leitura e gravação de um controlador RAID. É recomendável desabilitar o cache para drives SSD e deixá-lo habilitado somente para unidades HDD.
  • Se você usa controladores RAID, não crie volumes RAID de HDDs usados para armazenamento. Cada HDD de armazenamento precisa ser reconhecido pelo Acronis Cyber Infrastructure como um dispositivo separado.
  • Se você usar controladores RAID com cache, equipe-os com unidades de bateria de backup (BBUs) para protegê-los contra perda de cache durante interrupções de energia.
  • O tamanho do bloco de discos (por exemplo, 512 b ou 4 K) não é importante e não afeta o desempenho.

2.3.3.4. Recomendações de hardware de rede

  • Use redes separadas (e, idealmente, embora opcionalmente, adaptadores de rede) para tráfegos interno e público. Isso evitará que o tráfego público afete o desempenho de E/S do cluster e também evitará possíveis ataques de negação de serviço externos.
  • A latência de rede reduz drasticamente o desempenho do cluster. Use equipamentos de rede de qualidade com links de baixa latência. Não use comutadores de rede de nível doméstico.
  • Não use adaptadores de rede de ambiente de trabalho como o Intel EXPI9301CTBLK ou o Realtek 8129 já que eles não foram projetados para carga pesada e podem não aguentar links full duplex. Evite também usar comutadores Ethernet não bloqueadores.
  • Para evitar invasões, o Acronis Cyber Infrastructure deverá estar em uma rede interna dedicada que não pode ser acessada de fora.
  • Use um link de 1 Gbit/s para cada dois HDDs no nó (arredondado para cima). Para cada um ou dois HDDs em um nó, recomendamos duas interfaces de rede vinculadas para uma alta disponibilidade da rede. O motivo dessa recomendação é que as redes Ethernet de 1 Gbit/s podem alcançar taxas de transferência de 110 a 120 MB/s, próximas do desempenho de E/S sequencial de um único disco. Como vários discos em um servidor podem alcançar maior taxa de transferência que um único link Ethernet de 1 Gbit/s, a rede pode se tornar um gargalo.
  • Para um desempenho de E/S sequencial máximo, use um link de 1 Gbit/s para cada disco rígido ou um link de 10 Gbit/s por nó. Embora as operações de E/S sejam mais aleatórias em cenários reais, a E/S sequencial é importante nos cenários de backup.
  • Para um desempenho geral máximo, use um link de 10 Gbit/s para cada nó (ou dois vinculados para alta disponibilidade da rede).
  • Não é recomendável configurar adaptadores de rede de 1 Gbit para usarem MTUs não padrão (por exemplo, quadros jumbo de 9000 bytes). Essas configurações exigem outras configurações de comutadores e costumam causar erro humano. Por outro lado, os adaptadores de rede de mais de 10 Gbit/s precisam ser configurados para usar quadros jumbo para alcançar seu desempenho total.
  • Os adaptadores de barramento de host (HBAs) de canal de fibra com suporte no momento são QLogic QLE2562-CK e QLogic ISP2532.
  • É recomendável usar os adaptadores Mellanox ConnectX-4 e ConnectX-5 InfiniBand. Não há suporte para as placas Mellanox ConnectX-2 e ConnectX-3.
  • Adaptadores que usam o driver BNX2X, como Broadcom Limited BCM57840 NetXtreme II 10/20-Gigabit Ethernet/adaptador HPE FlexFabric 10Gb 2-port 536FLB, não são recomendados. Eles limitam o MTU a 3616, o que afeta o desempenho do cluster.

2.3.4. Limitações de hardware e software

Limitações de hardware:

  • Cada nó de gerenciamento precisa ter pelo menos dois discos (um para sistema + metadados, um para armazenamento).
  • Cada nó de computação ou armazenamento precisa ter pelo menos três discos (um para sistema, um para metadados e um para armazenamento).
  • É necessário ter três servidores para testar todos os recursos do produto.
  • O disco do sistema precisa ter pelo menos 100 GB de espaço.
  • O painel de administração exige um monitor Full HD para ser exibido corretamente.
  • O tamanho máximo da partição física com suporte é 254 TiB.

Limitações de software:

  • Cada nó só pode ser parte de um cluster.
  • Somente um cluster S3 pode ser criado sobre um cluster de armazenamento.
  • Somente os modos de redundância predefinidos estão disponíveis no painel de administração.
  • O provisionamento dinâmico está sempre habilitado para todos os dados e não pode ser configurado de outra forma.
  • O painel de administração foi testado e funciona nas resoluções 1280 X 720 e superior nas versões mais recentes dos seguintes navegadores da Web: Firefox, Chrome e Safari.

Para ver as limitações de rede, consulte Limitações de rede.

2.3.5. Configuração mínima de armazenamento

A configuração mínima descrita na tabela permitirá a você avaliar os recursos do cluster de armazenamento. Ela não serve para produção.

Tabela 2.3.5.1 Configuração mínima do cluster
Nº do nó Função do primeiro disco Função do segundo disco Função do terceiro disco e seguintes Pontos de acesso
1 Sistema Metadados Armazenamento iSCSI, S3 privado, S3 público, NFS, Backup Gateway
2 Sistema Metadados Armazenamento iSCSI, S3 privado, S3 público, NFS, Backup Gateway
3 Sistema Metadados Armazenamento iSCSI, S3 privado, S3 público, NFS, Backup Gateway
3 nós no total   3 MDSs no total Mais de 3 CSs no total Os serviços de ponto de acesso são executados em três nós no total.

Nota

Os discos podem receber funções de Sistema, Metadados e Cache ao mesmo tempo, o que libera mais discos para a função de armazenamento.

Mesmo que três nós sejam recomendados até na configuração mínima, você pode começar a avaliar o Acronis Cyber Infrastructure com apenas um nó e adicionar outros mais tarde. Um cluster de armazenamento precisa ter, no mínimo, um serviço de metadados e um serviço de fragmento em execução. Uma instalação de nó único permitirá que você avalie serviços como iSCSI, Backup Gateway, etc. No entanto, essa configuração terá duas limitações principais:

  1. Somente um MDS será um ponto único de falha. Se ele falhar, todo o cluster parará de funcionar.
  2. O CS poderá armazenar apenas uma réplica de fragmento. Se ele falhar, os dados serão perdidos.

Importante

Se você implantar o Acronis Cyber Infrastructure em um único nó, precisará tornar seu armazenamento persistente e redundante para evitar a perda de dados. Se o nó é físico, ele precisa ter vários discos para você poder replicar os dados entre eles. Se o nó é uma máquina virtual, torne essa VM altamente disponível pela solução na qual ela é executada.

Nota

O Backup Gateway funciona com o armazenamento de objeto local no modo de armazenamento distribuído. Isso significa que, para replicar, migrar ou carregar os dados para uma nuvem pública, eles primeiro serão armazenados localmente para depois serem enviados ao destino. É essencial que o armazenamento de objeto local seja persistente e redundante para que os dados locais não sejam perdidos. Existem várias maneiras de garantir a persistência e a redundância do armazenamento local. Você pode implantar seu Backup Gateway em vários nós e escolher um bom modo de redundância. Se seu gateway estiver implantado em um nó único no Acronis Cyber Infrastructure, você poderá tornar seu armazenamento redundante replicando-o entre vários discos locais. Se toda a sua instalação do Acronis Cyber Infrastructure estiver implantada em uma única máquina virtual com o único objetivo de criar um gateway, torne essa VM altamente disponível pela solução na qual ela é executada.

2.3.7. Considerações para espaço em disco bruto

Ao planejar a infraestrutura, lembre-se do seguinte para evitar confusões:

  • A capacidade de HDD e SSD é medida e especificada em prefixos decimais, não binários, ou seja, “TB” nas especificações do disco normalmente significam “terabyte”. O sistema operacional, no entanto, mostra a capacidade da unidade usando prefixos binários, o que significa que “TB” é “tebibyte”, que é um número bem maior. Por conta disso, os discos podem mostrar uma capacidade menor do que a anunciada pelo comerciante. Por exemplo, um disco com 6 TB nas especificações pode aparecer como tendo 5,45 TB de espaço real em disco no Acronis Cyber Infrastructure.
  • 5% do espaço em disco é reservado para questões de emergência.

Assim, se você adicionar um disco de 6 TB a um cluster, o espaço físico disponível deverá aumentar cerca de 5,2 TB.

2.3.8. Como verificar a capacidade de liberação de dados do disco

É altamente recomendável verificar se todos os dispositivos de armazenamento que você planeja incluir no cluster podem liberar dados do cache para o disco com êxito em caso de uma interrupção inesperada de energia no servidor. Assim, você encontrará dispositivos que podem perder dados em uma falha de energia.

O Acronis Cyber Infrastructure vem com uma ferramenta vstorage-hwflush-check que verifica como um dispositivo de armazenamento libera dados enviando-os para o disco em caso de emergência. A ferramenta é implementada como um utilitário de cliente/servidor:

  • O cliente grava blocos de dados no dispositivo de armazenamento continuamente. Quando um bloco de dados é gravado, o cliente inclui incrementos ao contador especial e o envia-o ao servidor para ser guardado.
  • O servidor controla os contadores que vêm do cliente e sempre sabe qual será o número seguinte. Se o servidor receber um contador com valor abaixo do que ele possui (por exemplo, porque houve interrupção de energia e o dispositivo de armazenamento não liberou os dados em cache enviando-os para o disco), ele indicará um erro.

Para verificar se um dispositivo de armazenamento pode liberar dados enviando-os para o disco com êxito em caso de interrupção de energia, siga o procedimento abaixo:

  1. Em um nó, execute o servidor:

    # vstorage-hwflush-check -l
    
  2. Em outro nó que hospeda o dispositivo de armazenamento que você deseja testar, execute o cliente, por exemplo:

    # vstorage-hwflush-check -s vstorage1.example.com -d /vstorage/stor1-ssd/test -t 50
    

    em que

    • vstorage1.example.com é o nome do host do servidor.
    • /vstorage/stor1-ssd/test é o diretório a ser usado para testes de liberação de dados. Durante a execução, o cliente cria um arquivo nesse diretório e grava blocos de dados nele.
    • 50 é o número de threads que o cliente tem para gravar dados no disco. Cada thread tem seu próprio arquivo e contador. Você pode aumentar a quantidade de threads (máximo de 200) para testar seu sistema em situações de maior pressão. Também é possível especificar outras opções durante a execução do cliente. Para mais informações sobre as opções disponíveis, consulte a página principal de vstorage-hwflush-check.
  3. Aguarde pelo menos 10 a 15 segundos, desligue a energia do nó do cliente (pressione o botão Energia ou desligue o cabo de alimentação) e ligue novamente.

  4. Reinicie o cliente:

    # vstorage-hwflush-check -s vstorage1.example.com -d /vstorlage/stor1-ssd/test -t 50
    

Depois de iniciado, o cliente lerá todos os dados gravados anteriormente, determinará a versão dos dados no disco e reiniciará o teste a partir do último contador válido. Em seguida, ele enviará esse contador válido ao servidor e este vai compará-lo com o último contador em seu poder. Você poderá ver uma saída assim:

id<N>:<counter_on_disk> -> <counter_on_server>

o que significa uma das duas opções abaixo:

  • Se o contador no disco for menor que o contador no servidor, o dispositivo de armazenamento não foi capaz de liberar os dados para o disco. Evite usar esse dispositivo de armazenamento na produção, especialmente para CS ou diários já que você corre o risco de perder os dados.
  • Se o contador no disco for maior que o contador no servidor, o dispositivo de armazenamento liberou os dados para o disco, mas o cliente não informou isso ao servidor. A rede pode estar muito lenta ou o dispositivo de armazenamento pode ser muito rápido para o número definido de threads de carregamento, ou seja, talvez seja melhor aumentar esse número. Esse dispositivo de armazenamento pode ser usado na produção.
  • Se os dois contadores forem iguais, o dispositivo de armazenamento liberou os dados para o disco e o cliente informou ao servidor. Esse dispositivo de armazenamento pode ser usado na produção.

Para se precaver, repita o procedimento várias vezes. Depois de verificar seu primeiro dispositivo de armazenamento, faça o mesmo com todos os outros dispositivos que você planeja usar no cluster. Você precisa testar todos os dispositivos que planeja usar no cluster: discos SSD usados para diários de CS, discos usados para diários de MDS e servidores de fragmentos.