Hintergrund zum Ceph-Totalausfall - Management Summary

Sun Apr 18 21:52:52 CEST 2021

Hallo zusammen

Hier das Management Summary zum Ceph Totalausfall der vergangenen Woche.

Es folgt spaeter eine technische Kurz- und Langfassung. Diese erstellen
wir sowieso fuers interne Knowhow-Teilen/Sicherstellen im Team und
teilen diese hier gerne mit allen anderen, interessierten Personen.

1. Summary
==========

  * Der Ceph-Cluster, das zentrale Software-defined Storage-System
    der Science DMZ, fiel aufgrund einer Verkettung von mehreren
    ungluecklichen Umstaenden am Donnerstag, 08:35 Uhr aus.

  * Obwohl nur die Summe aller vier gleichzeitig eingetretenen Umstaende
    zu einem Totalausfall fuehren konnte (jede beliebige Kombination aus
    drei Umstaenden waere kein Problem gewesen), so liegt der Hauptgrund
    in der aktuell nur vorhandenen halben Kapazitaet/halben Redundanz:

    Im Mai 2020 haben wir den Cluster temporaer halbiert um den
    physikalischen Umzug im Rechenzentrum in den neuen Cage durchfuehren
    zu koennen. Durch die seither im uebernommenen Gesamtnetzwerk
    dringend notwendigen Notfallarbeiten zur Betriebssicherung des LAN
    und WLAN, musste der Rechenzentrums-Umzug mittendrin abgebrochen
    werden. Aus seither andauernden Ressourcenmangel und
    Priorisierungsgruenden konnte der Cluster nicht wieder vergroessert
    werden.

  * Nach den durchgefuehrten Arbeiten und Ueberpruefung aller Daten und
    Services standen am Samstag ab 8 Uhr alle Systeme der Science DMZ
    wieder vollstaendig und uneingeschraenkt zur Verfuegung, Nextcloud
    ab Sonntag 11 Uhr.

  * Die Datensicherheit und -integritaet war zu keinem Zeitpunkt
    gefaehrdet und war jederzeit gewaehrleistet.

2. Massnahmen
=============

  * Um die Betriebssicherheit des Ceph-Clusters in Zukunft wieder
    gewaehrleisten zu koennen, braucht es mindestens eine der drei
    folgenden Massnahmen:

    - Kapazitaetserhoehung des Gesamtclusters durch Hinzufuegen mind.
      eines neuen Storage Nodes (braucht ausserordentliches Budget,
      sowie Risikoakzeptanz waehrend Lieferzeit von ~8 Wochen)

    - Kapazitaetserhoehung des Clusters durch Hinzufuegen der fuer den
      Umzug abgeschalteten Storage Nodes mit der Konsequenz, dass der
      Cluster mit dadurch >50% benutzen Storage Nodes nicht mehr im
      Rechenzentrum umgezogen werden kann (strategisches No-Go).

    - Rechenzentrums-Umzug kann schnellstmoeglichsts und mit hoechster
      Prioritaet abgeschlossen werden (braucht trotzdem Risikoakzeptanz
      bis dahin).

3. Lessons Learned
==================

  * Internes Ceph-Knowhow ist vorhanden und zahlt sich aus.

  * Unsere regelmaessigen, geplanten Desastery-Recovery Uebungen die wir
    selber durchfuehren (fuer Ceph im 2015, 2017 und 2019) haben sich
    bewaehrt.

    Nach Abschluss des Rechenzentrum-Umzuges sollte auch dieses Jahr
    wieder eine solche 2-taegige Uebung fuer Ceph durchgefuehrt werden.

  * Der konstante Raubbau der letzten 15 Monate an den Linux-Diensten
    was Mensch/Maschinen/Zeit angeht hat ein bedenkliches Ausmass
    erreicht, faengt an sich zu raechen und droht den kritischen
    Point-of-no-Return in Kuerze zu ueberschreiten.

    Alle vier der eingetretenen Umstaende haben sich nur aufgrund des
    Ressourcenmangels realisiert. Im Normalfall waehren die Ursachen bei
    der ersten Feststellung vor 2 Monaten bearbeitet worden und nicht
    ins Backlog fuer "irgendwann spaeter mal" verschoben worden. Dadurch
    waere, im Nachhinein gesehen, der Totalausfall in der vergangenen
    Woche gar nicht erst eingetreten.

Gruesse,
Daniel

-- 
Berner Fachhochschule / Bern University of Applied Sciences
Services / IT-Services
Daniel Baumann
Teamleiter Linux & Infrastructure Services
___________________________________________________________
Dammweg 3, CH-3013 Bern
Telefon direkt +41 31 848 48 22
Telefon Servicedesk +41 31 848 48 48
daniel.baumann at bfh.ch
https://bfh.ch
https://bfh.science