Hintergrund zum Ceph-Totalausfall - Management Summary
Daniel Baumann
daniel.baumann at bfh.ch
Sun Apr 18 21:52:52 CEST 2021
Hallo zusammen
Hier das Management Summary zum Ceph Totalausfall der vergangenen Woche.
Es folgt spaeter eine technische Kurz- und Langfassung. Diese erstellen
wir sowieso fuers interne Knowhow-Teilen/Sicherstellen im Team und
teilen diese hier gerne mit allen anderen, interessierten Personen.
1. Summary
==========
* Der Ceph-Cluster, das zentrale Software-defined Storage-System
der Science DMZ, fiel aufgrund einer Verkettung von mehreren
ungluecklichen Umstaenden am Donnerstag, 08:35 Uhr aus.
* Obwohl nur die Summe aller vier gleichzeitig eingetretenen Umstaende
zu einem Totalausfall fuehren konnte (jede beliebige Kombination aus
drei Umstaenden waere kein Problem gewesen), so liegt der Hauptgrund
in der aktuell nur vorhandenen halben Kapazitaet/halben Redundanz:
Im Mai 2020 haben wir den Cluster temporaer halbiert um den
physikalischen Umzug im Rechenzentrum in den neuen Cage durchfuehren
zu koennen. Durch die seither im uebernommenen Gesamtnetzwerk
dringend notwendigen Notfallarbeiten zur Betriebssicherung des LAN
und WLAN, musste der Rechenzentrums-Umzug mittendrin abgebrochen
werden. Aus seither andauernden Ressourcenmangel und
Priorisierungsgruenden konnte der Cluster nicht wieder vergroessert
werden.
* Nach den durchgefuehrten Arbeiten und Ueberpruefung aller Daten und
Services standen am Samstag ab 8 Uhr alle Systeme der Science DMZ
wieder vollstaendig und uneingeschraenkt zur Verfuegung, Nextcloud
ab Sonntag 11 Uhr.
* Die Datensicherheit und -integritaet war zu keinem Zeitpunkt
gefaehrdet und war jederzeit gewaehrleistet.
2. Massnahmen
=============
* Um die Betriebssicherheit des Ceph-Clusters in Zukunft wieder
gewaehrleisten zu koennen, braucht es mindestens eine der drei
folgenden Massnahmen:
- Kapazitaetserhoehung des Gesamtclusters durch Hinzufuegen mind.
eines neuen Storage Nodes (braucht ausserordentliches Budget,
sowie Risikoakzeptanz waehrend Lieferzeit von ~8 Wochen)
- Kapazitaetserhoehung des Clusters durch Hinzufuegen der fuer den
Umzug abgeschalteten Storage Nodes mit der Konsequenz, dass der
Cluster mit dadurch >50% benutzen Storage Nodes nicht mehr im
Rechenzentrum umgezogen werden kann (strategisches No-Go).
- Rechenzentrums-Umzug kann schnellstmoeglichsts und mit hoechster
Prioritaet abgeschlossen werden (braucht trotzdem Risikoakzeptanz
bis dahin).
3. Lessons Learned
==================
* Internes Ceph-Knowhow ist vorhanden und zahlt sich aus.
* Unsere regelmaessigen, geplanten Desastery-Recovery Uebungen die wir
selber durchfuehren (fuer Ceph im 2015, 2017 und 2019) haben sich
bewaehrt.
Nach Abschluss des Rechenzentrum-Umzuges sollte auch dieses Jahr
wieder eine solche 2-taegige Uebung fuer Ceph durchgefuehrt werden.
* Der konstante Raubbau der letzten 15 Monate an den Linux-Diensten
was Mensch/Maschinen/Zeit angeht hat ein bedenkliches Ausmass
erreicht, faengt an sich zu raechen und droht den kritischen
Point-of-no-Return in Kuerze zu ueberschreiten.
Alle vier der eingetretenen Umstaende haben sich nur aufgrund des
Ressourcenmangels realisiert. Im Normalfall waehren die Ursachen bei
der ersten Feststellung vor 2 Monaten bearbeitet worden und nicht
ins Backlog fuer "irgendwann spaeter mal" verschoben worden. Dadurch
waere, im Nachhinein gesehen, der Totalausfall in der vergangenen
Woche gar nicht erst eingetreten.
Gruesse,
Daniel
--
Berner Fachhochschule / Bern University of Applied Sciences
Services / IT-Services
Daniel Baumann
Teamleiter Linux & Infrastructure Services
___________________________________________________________
Dammweg 3, CH-3013 Bern
Telefon direkt +41 31 848 48 22
Telefon Servicedesk +41 31 848 48 48
daniel.baumann at bfh.ch
https://bfh.ch
https://bfh.science
More information about the bfh-linux-announce
mailing list