Quando, mais uma vez, disse a um amigo sobre por que as leituras SMART não devem ser incondicionalmente confiáveis e por que é melhor não usar os clássicos "monitores SMART" o tempo todo, me veio a ideia de escrever as palavras faladas na forma de um conjunto de teses com explicações. Para fornecer links, em vez de recontar a cada vez. E para familiarizar um grande público.
1) Programas para monitoramento automático de atributos SMART devem ser usados com muito cuidado.
O que você conhece como atributos SMART não é armazenado na prateleira, mas gerado no momento em que você os solicita. Eles são calculados com base nas estatísticas internas acumuladas e usadas pelo firmware do inversor durante a operação.
Alguns desses dados não são necessários para o dispositivo fornecer a funcionalidade básica. E não é armazenado, mas gerado sempre que necessário. Portanto, quando ocorre uma solicitação de atributos SMART, o firmware inicia um grande número de processos que são necessários para recuperar os dados ausentes.
Mas esses processos são pouco compatíveis com os procedimentos executados quando a unidade é carregada com operações de leitura e gravação.
Em um mundo ideal, isso não deveria causar problemas. Mas, na realidade, as pessoas comuns escrevem firmware para discos rígidos. O que pode estar errado e está errado. Portanto, se você consultar os atributos SMART enquanto o dispositivo está executando ativamente as operações de leitura / gravação, as chances de algo dar errado aumentam drasticamente. Por exemplo, os dados em um buffer de leitura ou gravação do usuário serão corrompidos.
A afirmação sobre o aumento dos riscos não é uma conclusão teórica, mas uma observação prática. Por exemplo, há um bug conhecido que ocorreu no firmware do HDD Samsung 103UI, onde os dados do usuário foram danificados durante a execução de uma solicitação de atributos SMART.
Portanto, não configure a verificação automática de atributos SMART. A menos que você tenha certeza de que o comando Flush Cache foi emitido antes disso. Ou, se você não pode fazer sem ele, configure a execução da verificação tão raramente quanto possível. Em muitos programas de monitoramento, o tempo padrão entre as varreduras é de cerca de 10 minutos. É muito comum. De qualquer forma, essas verificações não são uma panacéia para falhas inesperadas de disco (uma panacéia é apenas redundância). Uma vez por dia - acho que é o suficiente.
A solicitação de temperatura não leva ao início dos processos de cálculo de atributos e pode ser realizada com frequência. Porque se implementado corretamente, isso é feito através do protocolo SCT. Somente o que já é conhecido é dado por meio do SCT. Esses dados são atualizados automaticamente em segundo plano.
2) Os dados de atributos SMART geralmente não são confiáveis.
O firmware do disco rígido mostra o que acha adequado, não o que realmente está acontecendo. O exemplo mais óbvio é o quinto atributo, o número de setores reatribuídos. É bem conhecido dos especialistas em recuperação de dados que um disco rígido pode apresentar um número zero de realokates no quinto atributo, apesar de eles existirem e continuarem a aparecer.
Fiz uma pergunta a um especialista que estuda discos rígidos e examina seu firmware. Perguntei qual é o princípio pelo qual o firmware do aparelho decide que agora é necessário esconder o fato de reatribuir setores, e agora você pode falar sobre isso através dos atributos SMART.
Ele respondeu que não existe uma regra geral para que os dispositivos mostrem ou ocultem a imagem real. E a lógica dos programadores que escrevem firmware para discos rígidos parece muito estranha às vezes. Estudando o firmware de diferentes modelos, ele viu que muitas vezes a decisão de "ocultar ou mostrar" é feita com base em um conjunto de parâmetros que geralmente não são claros como se relacionam entre si e com o recurso restante do disco rígido.
3) A interpretação das métricas SMART é específica do fornecedor.
Por exemplo, em Seagates, você não deve prestar atenção aos valores brutos "ruins" dos atributos 1 e 7, enquanto o resto é normal. Em discos deste fabricante, seus valores absolutos podem aumentar durante o uso normal.

Para avaliar a condição e o recurso residual do disco rígido, em primeiro lugar, é recomendado prestar atenção aos parâmetros 5, 196, 197, 198. Além disso, faz sentido focar nos valores absolutos, brutos (brutos), e não nos dados. A conversão de atributos pode ser realizada de maneiras não óbvias, que são diferentes em diferentes algoritmos e firmware.
Em geral, entre os especialistas em mídia, quando falam sobre o valor de um atributo, geralmente é o valor absoluto que se quer dizer.