SSDs mit 0% Restlebensdauer/TBW Erreicht - Ein Erfahrungsbericht, Intel X25-M G2 Postville, Samsung PM9A1 (eine Art 980 Pro) Diskussion erwünscht

Herr Moehre

Rather active member
Themenstarter
Registriert
17 Dez. 2013
Beiträge
2.648
Hallo liebes Forum,

einige von euch werden sich vielleicht noch an das "SSD Endurance Experiment" von Techreport erinnern, der vor ca. 10 Jahren gestartet ist und - deutlich länger als erwartet - nach über einem Jahr und über 2,5 PBW endete, was einen Meilenstein gegen die landläufige Meinung "um Gottes Willen nicht zu viel auf eine SSD schreiben und am besten temporäre Dateien etc. auf HDD oder RamDisk auslagern, die gehen so schnell kaputt" darstelle.

Wohlgemerkt geschah dies bei einer 256 GB MLC SSD, wir reden hier nicht von mittlerweile geläufigen 4 oder gar 8 TB.
Die damals "neuen" TLC SSDs haben auch eine extrem hohe Schreibbelastung überstanden.


Irgendwie ist danach ziemlich ruhig um das Thema geworden, jedenfalls meinen Recherchen nach, was ja eigentlich ein gutes Omen ist, wenn die Dinger nicht aufgrund degradierten Flash Zellen Probleme machen oder ganz ausfallen.
Mal abgesehen von Bitrotting-Serienfehlern, wie damals bei der 840 EVO / PM841 & PM851 oder vereinzelte Meldungen zum aktuellen YMTC Flash.

Verschlissene Flash Zellen können ggfls. schwerer ausgelesen werden, sodass sich dies auf die Leseperformance auswirken kann.

Deshalb möchte ich meine Erfahrungen einmal hier dokumentieren, falls sich jemand anschließen möchte oder Fragen hat, gerne tun.
Ich schiele an der Stelle zu @cuco rüber, lebt deine SSD noch? Mein letzter Stand waren rd. 2200 TBW im März diesen Jahres?

Crucial V4 32 GB:

Eine absolut langsame (Schrott) SSD aus der späteren Frühphase des SSD Zeitalters, Cacheless und schnarchlahm. Diese habe ich bereits ~2014 rum zum Spaß totgeschrieben.
Angegeben war diese mit 36 TBW (egal bei welcher Größe, gab es bis 256 GB).
Diese 36 TBW habe ich bei einer halbvollen SSD dann mal drauf geschrieben, kam am Ende auf 40 TBW.

Hatte keine Schreibfehler, S.M.A.R.T. war auch noch nicht auffällig, aber ein Test mit Badblocks war schon ziemlich sehr fehlerhaft.
Wurde dann von mir in der Firma als Anschauungsobjekt für Praktikanten verwendet.

Intel X25-M G2 Postville 160GB:

Die erfahrenen Rotknubbel-Hasen hier im Forum werden sich bei dem Gedanken an dieses Stück Blech mit einem 10x16GiB Flash Zellen "Raid" nostalgisch erinnern.
Ich glaube das war die erste MLC SSD von Intel, als Nachfolger der X25-E mit SLC Zellen (bei 64 GB mit 2 PWB ! angegeben) in einigen Thinkpads zu finden.

Zwei Exemplare sind in meinen Händen, eine im Einsatz, eine wechselt den Besitzer, kommen ursprünglich aus dem Serverumfeld.

Angegeben sind die SSDs mit 15 TBW, Beide SSDs haben rund 90 Terabyte geschrieben, also rund das Sechsfache der damals (ängstlichen) Herstellerangabe.

Mit einer Restgesundheit von 86% bei über 15 Jahren auf dem Buckel und davon über 7,5 Jahren Betrieb lässt sich das gut sehen.
Fehler sind bei beiden SSDs - bis auf ein paar Reallocated Sectors - nicht vorhanden, h2testw ist unauffällig, auch nach einigen Tagen Haltedauer.
Diese Lese- und Schreibperformance würde ich als "wie neu" bezeichnen.

Postville_V2.png

Samsung PM9A1 - die OEM Version der 980 Pro - NVMe PCI-E 4.0 1024 GB Restgesundheit 0%:

Ich habe hier mehrere SSDs dieser Art, stammen aus Farming-Systemen und haben alle etwa 850 TBW (+/- 10 TB) bei angegebenen 600 TBW.
Diese große Belastung ist ohne nennenswerte Zyklung der SSDs geschehen, zu den Folgeproblemen später mehr.

Die SSDs sind relativ neu, zum Zeitpunkt (Dezember 2024) meines Posts 13 bzw. 18 Monate lt. aufgeklebtem Sticker.
Alle SSDs sind soweit bis auf vereinzelte "Critical Warning" und dem Erreichen der bis zu über 200% der prozentualen Lebensdauert noch fehlerfrei.
Selbst von den Reservesektoren wurde noch kein einziger verwendet.

Bei allen war H2testw mit mehreren Durchläufen fehlerfrei ohne Auffälligkeiten oder langsamer Leseperformance.

Ich habe hier vor, diese SSDs einem längerfristigen Test zu unterziehen, sodass ich eine in mein X390 als Ersatz meiner WD Black SN750 1 TB gepackt habe und alltäglich als Zweitrechner zum Surfen verwende.
Die Dinger sind echt schnell.. das Betanken ging im Nu.. Gut, sind auch mit etwa 2000 MB/s (980 Pro ca. 2200 MB/s) Dauerschreibleistung nach erschöpftem SLC Cache angegeben^^

II.png

Dadurch, dass die SSDs praktisch 850 Terabyte lang ohne Pause liefen hatten die Teile keiner 5 Einschaltzyklen hinter sich.
Die im Forum, die sich damit auskennen, wissen, dass durch die Einschaltzyklen und u.a. den verbundenen Temperaturänderungen sich die Bauteile ausdehnen bzw. zusammenziehen, was zu Defekten führen kann. Ich hatte eine SSD dabei, die wurde später erkannt, als die anderen.. oder (beim X390) an dem USB-C Anschluss gar nicht, nur am Thunderbolt 3 Anschluss. Mit gleichem Gehäuse und einer anderen SSD war das nicht so.

Es musste also kommen, wie es kommen musste. Die ursprünglich geplante SSD, die ins X390 sollte wurde:

- per USB-C Gehäuse stundenlang mittels h2testw getestet ohne Fehler
- war bis auf die 0% Restlebensdauer fehlerfrei in S.M.A.R.T.
- wurde umgebaut
- mit den Daten betankt
- mit mehreren Neustarts wieder lauffähig gemacht (Grub-Install, Windows etc.)...

...und startete dann nicht mehr mit der SSD.
Konnte ich noch ich glaube 2 Mal im X390 reaktivieren, startete und lief ohne Probleme, danach bliebt das X390 im BIOS hängen mit der SSD.
Auch im Gehäuse etc. ist diese seither tot.

Das waren die Daten (sorry für die schlechte Qualität, war noch ganz zu Beginn meines Tests):

I.jpeg


Ich bin derzeit am überlegen, was ich mit den restlichen SSDs anstelle. Derzeit liegt eine hier erst einmal herum und darf ihre Daten altern, bis ich dann wieder per h2testw einen Integritätstest durchführe.

Die Lesegeschwindigkeit kann ich mangels PCI-E4.0 nicht korrekt testen, allerdings habe ich bei keinen der SSDs bisher überhaupt Einbrüche in der Lese- oder Schreibperformance sehen können.

Wie ist eure Meinung zu dem Thema, würdet ihr diese SSDs (mit Backup) noch einsetzen oder wäre es euch zu heikel?
Gebt mir gerne Feedback dazu, auch wie ihr das Thema an sich findet.
 
Zuletzt bearbeitet:
Kurzes Update von meinen beiden PM9A1, sie laufen einwandfrei.
1x im X13 als Surfgerät und 1x im T15g Gen 2 als Steam Bibliothek.

Hier die Daten aus der im T15g Gen 2:
Smart Log for NVME device:nvme1n1 namespace-id:ffffffff
critical_warning : 0x4
temperature : 29 °C (302 K)
available_spare : 100%
available_spare_threshold : 10%
percentage_used : 202%
endurance group critical warning summary: 0x4
Data Units Read : 141195388 (72.29 TB)
Data Units Written : 1789723730 (916.34 TB)
host_read_commands : 1826223254
host_write_commands : 5418659456
controller_busy_time : 144777
power_cycles : 750
power_on_hours : 4018
unsafe_shutdowns : 157
media_errors : 0
num_err_log_entries : 0
Warning Temperature Time : 8
Critical Composite Temperature Time : 0
Temperature Sensor 1 : 29 °C (302 K)
Temperature Sensor 2 : 28 °C (301 K)
Thermal Management T1 Trans Count : 3
Thermal Management T2 Trans Count : 2
Thermal Management T1 Total Time : 351
Thermal Management T2 Total Time : 115


Ggfls. hat @Csf noch die Dritte, die ich Anfang 2025 als Spendenaktion angeboten hab? Falls ja, wie geht es der?
 
Ach komm, die hat das Petabyte noch nicht mal voll. Die ist doch noch wie neu! :D Sprechen wir uns in zwei weiteren Petabytes wieder ;)

Status hier:
Code:
SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x04
Temperature:                        58 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    115%
Data Units Read:                    4,119,265,025 [2.10 PB]
Data Units Written:                 5,636,550,808 [2.88 PB]
Host Read Commands:                 35,624,104,189
Host Write Commands:                33,744,825,188
Controller Busy Time:               56,607,598
Power Cycles:                       79
Power On Hours:                     31,372
Unsafe Shutdowns:                   52
Media and Data Integrity Errors:    0
Error Information Log Entries:      159
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               58 Celsius
Temperature Sensor 2:               72 Celsius
Die 3PB knacke ich also wohl noch ;)
 
Was ich witzig finde.. du hast nur 115% used, ich schon über 200%, woher kommt das, war das bei dir eine 2 TB?

Deine SSD ist auch noch zu 100% gesund, also wieso austauschen?
Der W123er fährt auch noch in Afrika oder Griechenland..
 
Ja, ist eine 2TB. Die 100% available spare sorgen dafür, dass ich mir bisher wirklich keine großen Sorgen mache. Na gut, etwas nervig wäre es schon, die SSD ist in meinem Heimserver ohne RAID verbaut. Aber es gibt halt regelmäßige Backups und eine Doku zur Neueinrichtung. Bei einem Ausfall habe ich sicherlich einige Stunden was zu tun mit Neuaufsetzen anhand der Doku und Zurückspielen der Backups, aber weg sind höchstens die letzten Dinge seit dem letzten Backup (das wird alle paar Tage gemacht).
 
Mal gucken was zuerst ausfällt, das Backup System oder die SSD.

Jedenfalls scheint bei dir auch mehr Overprovisioning Space da zu sein als bei mir. Schon ordentlich der Unterschied der Percent Used Werte.
 
Das Thema "available spare" ist so ne Sache und die Möglichkeit besteht, dass der Wert nicht richtig aktualisiert wird. Das gilt für andere Werte ebenfalls. Hier ist ein lesenswerter Thread aus dem ProxMox Forum. Dort wird u.a. mal ein Refresh durch komplettes Herunterfahren und wieder hochfahren vorgeschlagen.
Ansonsten habt ihr beide bei media (integrity) errors: 0 stehen. Das ist ein wichitger Indikator.
Power On Hours zeigt den Unterschied in der Nutzungszeit wie -art aber deutlich. Ich glaub du @Herr Moehre nutzt die nur für Benchmarking und derlei Art und nicht für Backups oder?

Ich habe neulich eine totgeglaubte mSATA wieder beleben können. Die wurde nicht mehr initialisiert und hat auch sonst keine Rauchzeichen von sich gegeben, hab sie mal aus Spaß dann mit Nullen beschrieben (ich kann mich gerade nicht an den Befehl im Terminal erinnern) und dann funktionierte sie auf einmal wieder. Neu formatiert, und ein Linux drüber gebügelt. Kann es mir zwar auch nicht so recht erklären, aber die Zellen mal alle komplett zu refreshen scheints gebracht zu haben. Die ist natürlich voller Fehler, links und rechts. Aber zum Dauerbeschreiben könnte es ein guter Kandidat sein. Ist halt ne ziemlich alte MLC SSD, deswegen kann das auch einen Einfluss darauf haben.
 
@Ambrosius ich habe die SSD schon so bekommen, ich denke die waren zum Chia Farming verwendet worden.
Meine SSDs bekommen täglich Zyklen, sind im normalen Clientbetrieb.

Bei media integritry errors != 0 gibt es schon erstmal einen Grund zu handeln, definitiv.

Alte SSDs haben öfters halt auch das Problem von Bitrotting, v.a. wenn sie länger unbenutzt rumliegen.
Mehrfach mittels shred zu überschreiben hilft da Wunder, jeder Bit, der zwar "frei" ist, aber lange nicht mehr angepackt wurde, kann bei einem lesetest fehlerhaft sein.
So habe ich eine Samsung 830 wieder reaktiviert.
 
Genau, das wars. Habs mit shred gemacht. Ist streng genommen kein Nullen, aber hat einen ähnlichen Effekt!
 
Durch Überschreiben erreicht man aber nicht alle Zellen. Vielleicht wäre ein Secure Erase, der alles Blöcke als ungültig markiert schneller und schonender 🤔.
 
Nee, ein Secure Erase fasst die Zellen ja nicht an, die müssen ja 1x refreshed werden.
Korrekt ist, dass durch Wear Leveling und Overprovisioning nicht alle Zellen erreicht werden, aber meistens reicht es.

Btw. mit
Code:
shred -n 0 -vz /dev/sdX
kann man auch nur nullen.
Bringt bei SSDs aber oft nichts, wenn sie klug sind, tun sie nix und das ganz schnell.
 
Zuletzt bearbeitet:
Ich wollt auch ursprünglich mit Secure Erase drüber gehen, aber das muss die SSD bzw der Hersteller unterstützen. Deswegen hab ich hinterher einfach shred ausgeführt. Ging auch fast 3 st bei ner 512er
 
Ja aber wie soll man dann bei einem Lesetest einer komplett ungenutzten SSD diesen durchführen?
 
Wozu alles lesen? Es ging dir doch um Zellen, die durch lange Lagerung an Spannung verloren haben und deren Wert sich nicht mehr fehlerfrei auslesen läßt. Jeglicher Schreibvorgang auf einen ungenutzten Block stellt doch definierte, korrekt auslesbare Zellenspannungen her (für den gesamten Block).
 
Weil diese Zellen bei einem Selbsttest gelesen werden, wenn diese vorher nicht einmal neu beschrieben wurden, sind diese halt weiterhin fehlerhaft.

Hast du sie nur als frei markiert für den nächsten Schreibvorgang, sind ja weiterhin die Informationen in der Zelle ungültig, für den Fall, dass ein Test sie liest.
 
Ist es nicht so, dass sich der Controller merkt, welche Zellen benutzt sind - er könnte (müsste?) also hier nur Nullen zurückliefern, wenn man eine SSD mit Secure Erase gelöscht hat und danach ausliest. Ohne dabei wirklich im Flash nachzuschauen. So die Theorie. Keine Ahnung, ob die SSDs bzw. Controller in der Praxis dann wirklich so arbeiten?
 
Danke, das meinte ich. Nach einem Secure Erase ist die Pointer-Tabelle, die logischen Blöcken physische Blöcke zuordnet, mit Nullpointern gefüllt. Wird ein logischer Block (mit Nullpointer) gelesen, wird gar nicht auf den phys. Block zugegriffen, sondern es werden einfach Nullbytes zurückgeliefert.

Erst wenn ein zuvor ungenutzter logischer Block geschrieben wird, bekommt er flugs einen phys. Block zugeordnet und dieser wird beschrieben, d.h. die Zellen bekommen definierte Spannungen.

In nicht zugewiesenen phys. Blöcken können die Zellen "rotten" soviel sie wollen. Es spielt keine Rolle.

Soweit die (vereinfachte) Theorie ...
 
Hm, das ist gut möglich.. ich glaub das hilft aber wenig bei alten ssds, die so neumodische Features noch nicht hatten.
Bei meiner 830er Samsung ging das nicht.

Aber guter Hinweis
 
  • ok1.de
  • IT Refresh - IT Teile & mehr
  • thinkstore24.de
  • Preiswerte-IT - Gebrauchte Lenovo Notebooks kaufen
  • ok2.de - Notebook Computer Server

Werbung

Zurück
Oben