S.M.A.R.T. Überwachung

Parent Previous Next


Überblick

Der Zweck von S.M.A.R.T. ist es, den Nutzer bzw. Systemadministrator mit Informationen zu versorgen, die einen unmittelbar bevorstehenden Ausfall einer Festplatte voraussagen können, so dass die betroffenen Daten möglichst noch gesichert werden können bzw. ein Austausch der Hardware erfolgt, bevor die Festplatte vollständig ausfällt.

Mechanische Ausfälle machen einen Anteil von ca. 60% aller Festplattenschäden aus (1). Obwohl ein Totalversagen einer Festplatte für den betroffenen Nutzer möglichweise den Verlust wertvoller Daten bedeutet, können die meisten dieser Ausfälle bereits im Vorfeld erkannt und mit einer Zuverlässigkeit von 70% vorhergesagt werden.

Argus Monitor überwacht die S.M.A.R.T. Daten der Festplatten in einem vom Nutzer gewählten Zeitintervall. Relevant für die Überwachung sind die sogenannten kritischen Attribute.

Generell werden dabei in Argus Monitor 3 S.M.A.R.T. Kategorien unterschieden:


Alle 3 Kategorien können in den erweiterten Einstellungen der S.M.A.R.T. Warnungen individuell konfiguriert werden, eine ausführliche Beschreibung dazu finden Sie weiter unten im Abschnitt Konfiguration. Das folgenden Bild gibt einen Überblick über die in Argus Monitor umgesetzte S.M.A.R.T. Technologie, um dem Anwender eine bestmögliche Warnung vor Festplatten Ausfällen zu liefern.


Argus Monitor S.M.A.R.T. Überwachung


Beschreibung der einzelnen Kategorien

Kategorie Fehler

Ein S.M.A.R.T. Fehler im Rahmen der Standard-Ausfallwarnung liegt immer dann vor, wenn der Wert eines kritischen Attributes seinen vom Hersteller definierten Grenzwert erreicht hat. Die Werte und Grenzwerte der Attribute sind normiert.

Im Bild “Beispiele für S.M.A.R.T. Ereignisse“ ist dies für das kritische Attribut 5 “Reallocated Sector Count“ der Fall, sein Wert von 140 hat den Grenzwert erreicht. Laut Definition ist diese Festplatte dann bereits ausgefallen oder wird innerhalb der nächsten 24 Stunden ausfallen.


Beispiele für S.M.A.R.T. Ereignisse


Kategorie Vorsicht

Die erweiterte Ausfallwarnung von Argus Monitor überwacht die Datenwerte von bestimmten kritischen Attributen. Diese Datenwerte sind herstellerspezifisch und nicht normiert. Zahlreiche Untersuchungen bei Anbietern großer Online-Datenspeicher, u.a. bei Google (2) und Backblaze (3) zeigen jedoch, dass sich die Datenwerte der kritischen Attribute 5, 187, 196, 197 und 198 besonders gut zur Frühwarnung vor kommenden Festplattenschäden eignen.

Im Bild ist das beim Attribut 196 “Reallocated Event Count“ der Fall. Argus Monitor kennzeichnet dies mit dem Ausdruck “Vorsicht“. Dies ist noch kein Festplattenfehler, der Anwender sollte jedoch in diesen Fällen den Datenträger im Auge behalten und sicherheitshalber ein Backup dieses Datenträgers machen. Weitergehende Erläuterungen hierzu finden Sie am Ende dieser Seite.


Kategorie Information

Unter die Kategorie „Information“ fallen Hinweise, die den Anwender informieren, falls sich der Werts eines kritischen Attributs ändert. Im Bild ist das beim Attribut 198 “Offline Uncorrectable“ der Fall. Dies wird mit “Änderung“ gekennzeichnet.

Diese Kategorie ist nur zur Information für Experten gedacht. Die Änderung eines kritischen Attributes an sich ist kein Festplattenfehler solange der Grenzwert noch nicht erreicht wird (siehe oben). Es wird nur der Hinweis  gegeben, dass sich etwas an einem kritischen Attribut “getan hat“.

Bei Attributen wie z.B. Nr. 3 “Spin Up Time“ passiert das ständig und ist normal, dort macht die Information auch für den Experten in der Regel keinen Sinn. Bei einer SSD und einem Attribut wie “SSD Life Left“ andererseits kann man so beobachten, in welchen Zeitabständen die Flash-Schreibvorgänge dieses Attribut ändern, nützlich z.B. für eine Abschätzung der spezifizierten verbleibenden Lebensdauer für diese SSD.



Konfiguration

Die erweiterten Einstellungen für die S.M.A.R.T. Warnungen erreicht man über Einstellungen/ S.M.A.R.T./Konfiguration. Dabei wird ein neues Fenster für die Konfiguration geöffnet.

Generell kann man die Warnungen für alle Festplatten identisch oder individuell für jede einzelne von Argus Monitor erkannte Festplatte konfigurieren. Die Auswahl geschieht im oberen Bereich des Fensters.


Konfiguration der S.M.A.R.T. Warnungen


Weiterhin kann man jede der 3 Kategorien separat aktivieren sowie für die Kategorien “Vorsicht“ und “Information“ festlegen, welche kritischen Attribute dafür im Einzelnen verwendet werden sollen. Bei der Installation setzt Argus Monitor diese auf eine empfohlene Voreinstellung, die man auch später über den Knopf “Standard“ jederzeit wiederherstellen kann.

Im unteren Bereich werden die gewünschten Aktionen beim Auftreten eines S.M.A.R.T. Ereignisses eingestellt. Neben einem Meldungsfenster, welches auf dem Desktop verbleibt und mit OK bestätigt werden muss gibt es auch einen kleineres Desktophinweis, welcher nach einigen Sekunden wieder ausgeblendet wird. Weiterhin kann eine E-Mail versendet werden, ein Eintrag in die Protokolldatei erfolgen, ein Programm ausgeführt oder ein Ton abgespielt werden.



Weitergehende Erläuterungen zur Kategorie “Vorsicht“

Zitat aus den Untersuchungen bei Google (2)

“Untersuchungen bei Google bei über 100.000 Festplatten über einen 9-Monats-Zeitraum haben Korrelationen zwischen bestimmten S.M.A.R.T. Informationen und tatsächlichen Ausfallraten ergeben.

In den 60 Tagen nach dem ersten Auftreten eines Ereignisses beim S.M.A.R.T. Attribut 198 “Offline Uncorrectable“ war die Wahrscheinlichkeit des späteren Ausfalls dieser Festplatte 39-mal höher als ohne ein solches Ereignis.

Ebenso korrelierten S.M.A.R.T.T Ereignisse bei den Attributen 5, 196 und 197 (“Reallocated Sector Count“, “ Reallocated Event Count“, “Offline Uncorrectable“) stark mit einer erhöhten Ausfallwahrscheinlichkeiten bei diesen Datenträger.

Umgekehrt wurde eine geringe Korrelation zu erhöhter Temperatur und keine Korrelation zum Grad der Nutzung der Festplatte festgestellt. Außerdem zeigten die Untersuchungen, dass ein Großteil (56%) der ausgefallenen Laufwerke ausfielen, ohne ein S.M.A.R.T. Ereignis in den 4 “starken“ S.M.A.R.T. Warnungen (Attribute 5, 196, 197, 198) zu erzeugen.

Weiterhin fielen 36% der Festplatten aus, ohne irgendeinen S.M.A.R.T. Fehler zu generieren. Dies bedeutet dass durch S.M.A.R.T. Überwachung allein nicht bei jedem auftretenden Ausfall eines Datenträgers eine Warnung möglich ist.“


Zitat aus den Untersuchungen bei Backblaze (3)

“Es gibt mehr als 70 S.M.A.R.T.-Statistiken, aber wir benutzen nur 5. Die erste, S.M.A.R.T. Attribut 187 "Reported Uncorrectable Errors" verwenden wir um zu entscheiden wann wir ein Laufwerk ersetzen. Das Attribut 187 beinhaltet die Anzahl der Lesevorgänge, die nicht durch die Hardware-Fehlerkorrektur (ECC) des Laufwerks korrigiert werden konnten.

Laufwerke mit einem Datenwert von 0 in diesem Attribut fallen fast nie aus. Wenn der Datenwert bei diesem Attribut über 0 ansteigt, planen wir einen Austausch dieses Laufwerks.

Das Diagramm zeigt die jährliche Ausfallraten unserer Laufwerke in Abhängigkeit von der Anzahl der S.M.A.R.T. Ereignisse (Datenwert) im Attribut 187.“





Die Meinung der Entwickler von Argus Monitor

S.M.A.R.T. kann nicht vor jedem Fehlerfall eine Warnung ausgeben; z.B. bei einem Defekt in der Elektronik der Festplatte ist S.M.A.R.T. per Design wirkungslos.

Dennoch kann für Fehler, die direkt mit dem Medium des Datenträgers (magnetischer Speicher oder Flash-Speicher) zu tun haben, eine gute Ausfallvorhersage erreicht werden.

Durch die Überwachung der 5 “starken“ S.M.A.R.T. Attribute realisiert Argus Monitor eine Frühwarnung, die es in vielen Fällen dem Anwender ermöglicht, rechtzeitig ein Backup seiner wichtigen Daten zu machen und die entsprechende Festplatte kritischer im Auge zu behalten als er es sonst ohne eine Warnung tun würde.


(1) Statement on enhanced smart attributes by Seagate Technology, Inc.

(2) Failure Trends in a Large Disk Drive Population by Google Inc.

(3) Hard Drive SMART Stats by Backblaze