Du vergleichst hier Äpfel mit Birnen. Um die Größe eines aufzusetzenden RAIDs zu bestimmen ist die benötigte Nettospeicherkapazität ausschlaggebend.
... oder die Frage, wie ich bei fixem Budget das Maximum für "mich" rausholen kann. Und dieses Maximum definiert jeder anders - je nachdem, wie wichtig Speicherkapazität, Datenverfügbarkeit, sequentielle Geschwindigkeit, IOPS, usw., sowie ggf. halt der Preis sind. Denn die unterscheiden sich je nach RAID-Level deutlich und man muss immer einzelne davon priorisieren, weil andere dann darunter leiden.
Hier im Thread geht's um ein RAID mit 8TB Nettokapazität aus 4TB-HDDs. Mit RAID1 brauchst du dafür 4 HDDs, mit RAID5 nur 3. Nur deshalb ist RAID5 hier überhaupt attraktiv, weil man eine HDD spart. Du musst also auch die Ausfallwahrscheinlichkeit des RAID1 aus 4 HDDs mit der Ausfallwahrscheinlichkeit des RAID5 aus 3 HDDs vergleichen, denn beide bieten die gleiche Nettospeicherkapazität.
RAID10, nicht RAID1, wie qwali korrekt angemerkt hat. Bei einem RAID1 bräuchtest du immer nur (mindestens) zwei Platten, die aber in diesem Fall 8TB haben müssten. Ich könnte also 2x8TB im RAID1, 4x4TB im RAID10, 3x4TB im RAID5 oder 4x4TB im RAID6 nehmen. Bei einem RAID aus vier Platten habe ich natürlich eine doppelt so hohe Ausfallwahrscheinlichkeit einer Einzelplatte und bei einem RAID aus drei Platten eine um 50% höhere Wahrscheinlichkeit wie bei einem aus zwei Platten. Dafür kann aber z.B. das RAID6 auch den Ausfall von zwei beliebigen Platten ab, das RAID10 nur ein bis zwei, RAID5 und RAID1 nur eine.
Doch, eben das ist der entscheidende Unterschied. Ziel einer Datensicherung ist nicht, beim Russisch Roulette zu gewinnen, sondern die Daten zu sichern, also gar nicht erst die Pistole in die Hand zu nehmen.
Klar. Aber der Fall tritt mehr oder weniger auch dann auf, wenn du z.B. im RAID1 aus zwei Platten oder im RAID5 einen HDD-Ausfall hast. Keine Redundanz mehr übrig. Ab jetzt spielen wir vielleicht kein russisch Roulette, sondern haben eine tickende Bombe, um bei den Analogien zu bleiben. Der Unterschied: Beim russisch Roulette kann ich durch Glück überleben. Bei der tickenden Bombe nur durch Entschärfen bevor die Zeit abgelaufen ist. Problem: Ich kenne die Zeit leider nicht.
Aber Achtung noch: Datensicherung = Backup. Und ein RAID ist kein Backup. Ein RAID ist kein Backup! Das kann man nicht oft genug sagen. Ein RAID erhöht nur die Datenverfügbarkeit, nicht aber die Datensicherheit!
Bei einem intakten RAID1 aus 4 HDDs und einem RAID5 aus 3 HDDs darf jeweils eine beliebige HDD ausfallen. Ist das geschehen, dann ist die Datensicherheit bei einem weiteren HDD-Ausfall nicht mehr gegeben. Dass die Wahrscheinlichkeit für einen Datenverlust beim RAID1 nur 33% beträgt statt 100% beim RAID5 andert nichts daran. Die Daten sind nicht mehr sicher.
Ich kann mich nicht mehr darauf verlassen, korrekt. Was "sicher" bedeutet, ist halt immer die Frage. Die Daten sind nie 100%ig sicher. Es können auch immer zwei Platten oder auch noch mehr gleichzeitig ausfallen. Von daher bringt die Argumentation nichts, da müssen wir schon bei der Wahrscheinlichkeitsrechnung bleiben und die sagt nun mal, dass das RADI10 aus vier HDDs mehr Ausfall tolerieren
kann (aber nicht muss) als das RAID5. Ein RAID1 aus vier HDDs würde übrigens den Ausfall von drei Platten schaffen.
Die entscheidende Frage ist, was wir betrachten. Dein Krankheitsbeispiel betrachtet eine einzelne Person. Die ist unabhängig von den Wahrscheinlichkeiten hinterher entweder zu 100% lebendig oder zu 100% tot. Wenn du aber 100 Personen betrachtest, dann sind hinterher 12 Personen tot und 88 Personen lebendig. Das "Betrachtungsatom" ist in beiden Fällen je eine Person, denn jede einzelne Person ist hinterher entweder 100% tot oder 100% lebendig.
Sehr gut, genau das wollte ich damit aussagen, aber du argumentierst die ganze Zeit immer mit der Einzelplatte wie mit der Einzelperson. Und genau so, wie du hier korrekt beschreibst, verhält es sich auch mit dem RAID10 aus vier Platten. Nehmen wir an, wir haben drei solcher RAID10 aus vier Platten. In allen dreien ist jeweils eine HDD ausgefallen. Wir warten jetzt ab, was passiert, wenn eine zweite HDD ausfällt. Und stellen fest: in zwei Fällen sind auch beim zweiten Ausfall noch alle Daten da. Nur in einem der drei Fälle sind beim zweiten Ausfall alle Daten weg. Machen wir den gleichen Versuch mit einem RAID5 stellen wir fest: in allen drei Fällen sind beim Ausfall der zweiten HDD alle Daten weg. Die Statistik sagt also, dass ein RAID10 sicherer ist als ein RAID5.
Bei Daten auf einer HDD ist das Betrachtungsatom nicht die HDD selbst, sondern es sind die darauf gespeicherten Daten. Im einfachsten Fall sind das einzelne, voneinander unabhängige Dateien, alle mit der selben Größe. Hier kannst du zwar angeben, wie viele Dateien nach N HDD-Ausfällen noch wiederherzustellen sind, aber N ist immer eine natürliche Zahl. Daher kannst du nicht mit rationalen Zahlen für N arbeiten.
Klar geht das, du hast es doch in dem Beispiel mit den Toten genau so erkannt. Ich kann für jede HDD Ausfallwahrscheinlichkeiten in nicht natürlichen Zahlen angeben, genau so auch für das gesamte RAID und ebenso für die darauf gespeicherten Daten. Im Einzelfall gibt's natürlich nur tot oder lebendig. Daten weg oder noch da. Aber wenn man die Gesamtheit betrachtet, kann man eben auch mit rationalen Zahlen arbeiten. Und zum Vergleichen der RAID-Modi an sich zieht man nun mal eben diese rationalen Zahlen heran, macht man ja bei den einzelnen HDDs und eben für das Krankheitsbeispiel auch, um ein Maß dafür zu haben, wie sicher/unsicher/tödlich/... es ist.
Bei einem RAID5 aus drei HDDs ist nach zwei Ausfällen gar nichts mehr zu retten. Bei RAID1 würde immerhin noch "Russisch Roulette" gelten. (Was aber nichts zu der Betrachtung von oben zu dem Spiel ändert.)
RAID10. Aber ja.
Ich denke aus dem Kontext des Threads sollte hervorgehen, das wir hier von einfacher Spiegelung reden, denn wenn schon die Anschaffung einer vierten HDD für einfache RAID1-Spiegelung oder RAID6 das Budget strapaziert, braucht über mehrfache Speiegelung gar nicht diskutiert werden. Ich hatte weiter oben auch schon explizit Einfachspiegelung angesprochen.
Das ist klar. Aber das kommt hängt auch vom Preis pro TB ab. Eine Zeit lang waren Platten mit 4TB beim Preis pro TB günstiger als 8TB-Platten. Wenn ich also 2x8TB kaufe und im RAID1 verschalte, gebe ich dann mehr aus als bei 4x4TB im RAID6. Letzteres wäre in dem Beispiel günstiger bei gleicher Kapazität aber höherer Datenverfügbarkeit. Daher lohnt es sich, das im Hinterkopf zu haben und bei HDDs durchaus nicht nur nach dem absoluten Preis, sondern auch nach dem Preis pro TB zu schauen.
Vor diesem Hintergrund kann man aus vier HDDs auf drei Arten RAID1 bauen:
1. RAID0 aus 2xRAID1 = RAID10
2. RAID1 aus 2x RAID0 = RAID01
3. 2 voneinander unabhängige RAID1
Nein, ein RAID1 kann man nur auf eine Art bauen. Und keines deiner genannten Beispiel ist am Ende ein klassisches RAID1 - am ehesten aber noch Fall 3.
Aber mal genauer. Nehmen wir im Beispiel 4x 4TB-HDDs.
- RAID0 aus 2xRAID1 = RAID10: Kapazität 8TB, Geschwindigkeit sequentiell schreibend doppelt so hoch wie eine Einzelplatte, IOPS ebenfalls, lesend in der Regel auch doppelt so hoch, bei geschickten Algorithmen ist lesend sogar Faktor 4 drin. Toleriert den Ausfall von einer HDD, mit einer Wahrscheinlichkeit von 2/3 auch den Ausfall einer zweiten HDD, sonst ist alles weg.
- RAID1 aus 2xRAID0 = RAID0+1/RAID01: Kapazität und Geschwindigkeit wie beim RAID10. Verträgt auch den Ausfall einer HDD, aber nur mit einer Wahrscheinlichkeit von 1/3 den Ausfall von einer zweiten HDD. Hat also keinen Vorteil, nur Nachteile gegenüber Variante 1.
- zwei unabhängige RAID1 = JBOD aus 2x RAID1: Kapazität 8TB, Geschwindigkeit schreibend wie Einzelplatte, IOPS auch, lesend in der Regel auch, bei geschickten Algorithmen ist Faktor 2 möglich. Toleriert den Ausfall einer HDD. Mit einer Wahrscheinlichkeit von 1/3 toleriert es auch den Ausfall einer zweiten HDD. Ist also noch schlechter als Variante 2, da gleiches Risiko eines Datenverlusts aber nur noch halbe Geschwindigkeit. Einziger Vorteil: Wenn die zweit HDD ausfällt und es nicht die eine der drei, die tolerierbar gewesen wäre, dann sind immer noch nur die halben Daten weg, nicht alle. Je nachdem, wie die Daten aufgeteilt sind, ist dann also vielleicht noch bis zu 50% rettbar. Aber ein schwacher Trost.
- RAID5: Kapazität 12TB, Geschwindigkeit beim sequentiellen Lesen und Schreiben 3x so hoch wie eine Einzelplatte, IOPS lesend und schreibend aber nur so hoch wie bei einer Einzelplatte. Verträgt den Ausfall einer HDD, beim Ausfall der zweiten ist alles weg. Verglichen mit den anderen Methoden sind die IOs pro Sekunde (IOPS) also schlecht, die sequentiellen Schreibraten aber am besten, die sequentiellen Leseraten oben mit dabei. Außerdem gibt's am meisten Kapazität, dafür aber auch die höchste Gefahr des Datenverlusts. Man könnte hier aber halt auf 3 HDDs runtergehen, um die Ausfallrate leicht zu senken (nur noch drei statt vier beteiligte HDDs) und ebenso die Kosten.
- RAID6: Kapazität 8TB, Geschwindigkeit beim sequentiellen Lesen und Schreiben doppelt so hoch wie die Einzelplatte, IOPS aber nur wie Einzelplatte. Verträgt dafür den Ausfall von zwei beliebigen HDDs. Geschwindigkeitsmäßig also eher im Mittelfeld, dafür die höchste Datenverfügbarkeit bzw. Sicherheit vor Datenverlust.
Die Betrachtungen zu allen drei Varianten bezüglich der Ausfallsicherheit sind die gleichen.
Nein, siehe oben. Hier übrigens noch ein Link zum Vergleich der Ausfallsicherheit von RAID10 vs. RAID01:
https://www.starline.de/technical-articles/raid01-vs-raid10/
Edit:
Streng genommen gibt es fünf Varianten. Man könnte die RAID0 aus 1. und 2. alternativ auch als JBOD aufsetzen, also ohne Striping aber anders als in 3. nicht unabhängig.
Wenn man bei Variante 1 statt RAID0 ein JBOD nimmt, kommt die schon genannte Variante 3 heraus. Wenn man das RAID1 durch JBOD ersetzt, hat man keinerlei Redundanz mehr und kann die Platten gleich alle als Einzelplatten oder JBOD betreiben. Den Fall brauchen wir nicht zu betrachten, da sonst schon beim Ausfall der ersten HDD ein Datenverlust die Folge ist.
Ähnlich sieht es bei Variante 2 aus. Nehmen wir statt des RAID1 ein JBOD haben wir keinerlei Redundanz mehr, ein Datenverlust ist beim ersten HDD-Ausfall die Folge. Nehmen wir statt des RAID0 ein JBOD bekommen wir theoretisch gesehen tatsächlich eine neue Variante (kämen also in deinem Beispiel auf vier Varianten), aber technisch dürfte das schwer oder zumindest nervig umzusetzen sein. Da muss man sich schon verrenken, um das zu schaffen, ohne dass am Ende doch wieder aus Versehen Variante 3 konfiguriert wurde
Die Grundidee bleibt: "RAID1" ist hier als Sammelbegriff für alle Varianten einer einfachen Spiegelung zu betrachten. RAID10 ist eine dieser Varianten.
Jein. RAID1 ist die Spiegelung auf
allen Datenträgern.
Einfache Spiegelung haben wir nur bei einem RAID1 aus zwei HDDs. In allen anderen Fällen haben wir einen anderen RAID-Modus.
Also da momentan 4 Festplatten meinen monetären Rahmen sprengen, wenn es nicht wirklich unabdingbar wäre, würde ich ein RAID 6 erst einmal hinten anstellen. Oder seht ihr RAID 5 so kritisch, dass ihr mir wirklich die Investition in die 4. Festplatte empfehlen würdet?
Siehe oben. Von den genannten RAID-Modi hat RAID5 die höchste Wahrscheinlichkeit für einen Datenverlust, da maximal eine Platte ausfallen darf. Sobald die "weg" ist, sind deine Daten "nackt". Da man sich auf das russische Roulette der anderen Kombinationen aber in der Regel auch nicht verlassen möchte, wäre wirklich nur RAID6 die Alternative (und keine der Kombinationen aus RAID1 und anderen Modi). Von daher bleibt, wenn man nur RAID-Modi betrachtet, die eine Erhöhung der Datenverfügbarkeit beinhalten, sinnvoll übrig:
- reicht das Geld nur für zwei HDDs: RAID1
- reicht es nur für drei HDDs: RAID5/RAID-Z1
- reichts es für vier HDDs: RAID5/RAID-Z1, RAID6/RAID-Z2 oder RAID10, je nachdem ob Geschwindigkeit oder Datenverfügbarkeit mehr im Vordergrund steht
- fünf bis sieben HDDs: RAID5/RAID-Z1, RAID6/RAID-Z2 oder "Sondervarianten" wie RAID-Z3 (verkraftet den Ausfall von bis zu 3 HDDs, gibt's in den klassischen RAID-Nummerierungen nicht AFAIK) oder RAID50 (ab sechs HDDs)
- acht oder mehr HDDs: RAID6/RAID-Z2, RAID-Z3, RAID60/RAID0 aus RAID-Z2, bei Vielfachen von 4: RAID10. Grundsätzlich würde ich hier spätestens empfehlen, nicht mehr auf RAID5 und deren Abwandlungen zu setzen, aber möglich wären RAID5, RAID-Z1 oder RAID50 natürlich weiterhin. Ebenso sieht's bei RAID10-Varianten aus.
Wie steht ihr den zum Mischen mehrerer Hersteller?
Grundsätzlich eine gute Idee. Oder zumindest mehrere unterschiedliche Modelle/Modellreihen des einen Herstellers. Dann ist man vor Serienfehlern geschützt, die dafür sorgen könnten, dass die Platten zeitnah ausfallen, wo dann auch kein RAID mehr schützt. Beispielsweise gab es mal SSDs von HP Enterprise, die nach 40.000 Betriebsstunden wegen eines Firmware-Bugs den Dienst quittierten:
https://www.golem.de/news/firmware-...iert-nach-40-000-stunden-aus-2003-147481.html Dann fallen alle Datenträger gleichzeitig aus, wenn man sie gleichzeitig gekauft hat. Deswegen sind unterschiedliche Platten aus unterschiedlichen Serien von unterschiedlichen Herstellern, am besten unterschiedlichen Alters, immer eine gute Idee. In der Praxis würde ich aber sagen, dass es nicht ganz so wichtig ist, wie es oft dargestellt wird. Solche Bugs, wo alle HDDs mehr oder weniger gleichzeitig ausfallen, sind extrem selten. Im professionellen Umfeld achten daher die wenigsten auf das genannte Problem. Je mehr Server und HDDs im Spiel sind, desto weniger wird auf sowas geachtet, so zumindest meine Erfahrung. Wenn du also alle Platten vom gleichen Hersteller aus der gleichen Serie kaufst, spricht auch erstmal nichts dagegen. Denn: Ein Backup solltest du sowieso haben.
Eine Spiegelung.... im NAS ist keine Datensicherung!
Richtig, Datensicherungen macht man externen. Möglichst nicht im gleichen Gerät. Und erst Recht nicht in Form eines RAIDs! Ein RAID ist kein Backup!
Mein Ansatz bei 8GB Daten wäre eine 8GB oder 2*4TB im NAS und die identische Kapazität in einem 2. NAS oder in einem externen USB-HD-Gehäuse. Auf NAS 2 bzw. USB-HD würde ich sehr regelmässig ein Backup machen. Ein RAID in einem NAS schützt einzig vor Festplattenausfällen, aber nicht vor Feuer, Diebstahl, Unvermögen, versehentlichem Löschen.....
Ganz genau! :thumbup:
Doch, ein RAID ist eine Datensicherung. Es ist eine Sicherung vor Online-Ausfall der Daten. Auch ein degradiertes RAID kann nach wie vor Daten liefern.
Was ein RAID nicht ist (und was du menst), ist ein Backup. Ein RAID schützt nicht vor Datenverlust (abgesehen vom Speziallfall des im Rahmen des RAID-Levels akzeptablen HDD-Ausfalls).
Ein RAID ist kein Backup. Und eine Datensicherung ist ein Backup. Ein RAID ist also keine Datensicherung, sondern nur dafür da, die Datenverfügbarkeit zu erhöhen!
Davor schützt auch ein On-Site-Backup nicht. Wenn deine Wohnung abbrennt oder ausgeräumt wird ist die Backup-HDD neben dem Schreibtisch oder im Nachbarzimmer genauso hinfällig wie die Online-Daten.
Daher gehört zu einer soliden Backupstrategie auch mindestens ein Off-Site-Backup.
Richtig. Aber eine Backup-HDD im Schrank ist immerhin schon mal sicher vor Blitzschlag, Überspannung, Ransomware, versehentliches Löschen, ... Die Backup-HDD im Schrank kann daher ein wichtiger Teil der Backup-Strategie sein, weil sie vermutlich regelmäßiger aktualisiert wird (und wichtig bei einem Backup ist nun mal auch, dass es aktuell ist). Aber eine
zusätzliche Sicherung an einem anderen Ort gehört zu einer guten Strategie auch dazu. Daher auch die 3-2-1-Regel. Mindestens 3 Kopien der Daten sollten vorgehalten werden, auf mindestens 2 verschiedenen Medien(-typen), mindestens 1 davon an einem externen Ort.