Devo preoccuparmi di un elevato valore SMART Hardware_ECC_Recovered?

Ho ricevuto un messaggio in /var/log/messages :

 Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47 

#smartctl -a /dev/sda :

 smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 110 088 006 Pre-fail Always - 28526210 3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 24 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 087 060 030 Pre-fail Always - 471723621 9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 2520 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 41 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 068 052 045 Old_age Always - 32 (Lifetime Min/Max 31/35) 194 Temperature_Celsius 0x0022 032 048 000 Old_age Always - 32 (0 27 0 0) 195 Hardware_ECC_Recovered 0x001a 047 045 000 Old_age Always - 105036390 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0 202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0 

Significa che il disco non funziona e devo sostituirlo? Dove posso leggere l'interpretazione dei risultati dei test SMART?

  • Come faccio a estrarre la cronologia di accesso?
  • Problema semplice Multihomed Linux Server
  • TC class Linux / numero di filter
  • gruppo di volumi fuori spazio. Come posso recuperare?
  • installazione di router Linux
  • Linux è leggermente all'avanguardia
  • Disfarsi di un buffer di riproduzione di console Linux?
  • Come posso impostare IP su FC?
  • 6 Solutions collect form web for “Devo preoccuparmi di un elevato valore SMART Hardware_ECC_Recovered?”

    Secondo Steve Gibson della fama di Spinrite , i valori SMART devono essere assunti nel tempo, non come letture istantanee. Ciò significa che un valore di 47 non è necessariamente male se il valore è stato 47 per mesi. Tuttavia, se il valore è stato di 42 ore fa, e la sua scalata rapida, allora ciò significa che l'unità sta avendo difficoltà ad accedere a una parte dei dati e potrebbe presto essere in grado di leggere il settore affatto. A seconda del valore dei dati su tale unità, è ansible sostituirlo.

    In primo luogo, i valori più bassi sono peggiori per SMART, non i valori più alti (notate come la colonna di soglia è sempre inferiore al valore corrente). Quindi, un valore che aumenta non è causa di preoccupazione. (Questa regola non si applica tuttavia ai valori grezzi.)

    I valori SMART tendono a oscillare un po '(il tuo potrebbe essere nel margine tra 46 e 47, per esempio, per cui anche piccole modifiche potrebbero causare il passaggio all'altro valore).

    L'output di smartctl -a mostra il peggio questo valore è stato 45, quindi oscillare leggermente sopra di esso è normale.

    Per ulteriori informazioni, dare un'occhiata a Wikipedia: attributi ATA SMART .

    Tieni presente che anche lo studio esteso condotto da Google ha rilevato che molti errori di unità non sono stati predetti da errori SMART. È ansible che ciò che vedete sia perfettamente normale, ma poiché each produttore dispone di metriche diverse per convertire i valori grezzi nei valori riportti, è difficile dirlo se l'unità sta sperimentando un sacco di errori o less. Tuttavia, un numero grezzo che grande mi colpisce come strano.

    Vorrei raccomandare di leggere tutto l'azionamento (dd o rsync'ing su una nuova unità) e controllare i valori SMART mentre va avanti. Se vedi che il numero raw, o i valori riportti, cambia molto che iniziavo a cercare di sostituire l'unità.

    IIRC Hardware ECC recuperato è la correzione degli errori sui lettori del disco, che non è inusuale per un disco e codifica i dati con i meccanismi di correzione degli errori proprio per questo motivo. Alcuni controllori supportno anche informazioni ridondanti nei settori disco e aggiungono un altro livello di correzione degli errori.

    Come Dave Cheney afferma che le cifre dovrebbero essere monitorate nel tempo. Le modifiche radicali in queste statistiche indicano un'unità in errore. Inoltre, tenere d'occhio gli elenchi di difetti cresciuti – se la list dei difetti cresce, o le statistiche SMART iniziano a cambiare significativamente, è necessario sostituire l'unità in modo proattivo.

    Un valore elevato per questo attributo è in realtà abbastanza buono:

    Hardware ECC Recovered Il parametro SMART indica il tempo tra errori corretti da ECC.

    https://kb.acronis.com/content/9131

    Niente di sbagliato.

    È sempre ansible eseguire

     smartctl -t long /dev/yourdrive 

    Poi dopo qualche ora interroga il suo risultato

     smartctl -a /dev/yourdrive 

    giusto per essere sicuro.

    Suggerimenti per Linux e Windows Server, quali Ubuntu, Centos, Apache, Nginx, Debian e argomenti di rete.