Desaster-Recovery Uebung fuer BFH.science

Daniel Baumann daniel.baumann at bfh.ch
Thu May 9 13:15:14 CEST 2019


Hallo zusammen

Service Announcement
====================

Am Freitag, 10. Mai 2019 von 08:00 bis 18:00 werden alle Dienste der
Science DMZ offline sein, betroffen sind benutzerseitig:

  * alle Webserver *.bfh.science
  * alle Web-Redirects von externen (nicht-bfh.ch) Domains
  * Ceph (P:\LFE resp. smb://bfh.ch/data/LFE)

Grund: Wegen des Einbaus von zusaetzlichen Routern zwischen bfh.ch und
bfh.science gibt es so oder so einen Unterbruch (siehe unten), wir
nutzen die einmalige Gelegenheit um eine "Desaster Recovery"-Uebung
durchzufuehren.



Hintergrund
===========

  * Die Hardware fuer die Science DMZ (*.bfh.science) mit Ceph, Number
    Crunchern und Linux Servern befindet sich in 2 Racks im BFH
    Rechenzentrum in Bern.

  * Der Netzwerk-Anschluss der Science DMZ geht direkt auf die BFH
    Border Router.

  * Da beide Linux Racks aus Performance und Redundanz Gruenden
    unabhaengig voneinander (active-active) ans Internet und
    ans BFH.ch Netz angeschlossen sein sollen, muss die Anbindung
    von jedem Linux Rack an die BFH Border Router ueber ein dynamisches
    Routing Protokoll (OSPF oder BGB) erfolgen.

  * Die BFH Border Router sind "nach oben" via OSPF zur Uni Bern
    erschlossen. Weil die BFH Border Router "nach unten" fuer die
    Science DMZ kein OSPF machen sollen, mussten wir zwei zusaetzliche
    Arista SDN Switches beschaffen welche als vorgelagerte Science DMZ
    Router agieren und den OSPF-Teil selbst uebernehmen.

  * Der Einbau der 2 zusaetzlichen Arista Switches zu den bestehenden 8
    Aristas bedingt einen Topologie-Aenderung. Theoretisch koennten wir
    dies mit ueberproportional hohem Aufwand online, d.h. ohne
    Verbindungsunterbruch, vornehmen.

  * Einerseits zur Aufwandsminimierung und andererseits zur Uebung eines
    "Desasters" (resp. dessen Recovery), werden wir die Topologie-
    Aenderung allerdings offline vornehmen:

    - Wir schalten zuerst die Ceph-Gateways fuer den Zugriff aus dem
      BFH.ch-Netz ab, damit waerend der Uebung keine produktiven
      User-Daten mehr geschrieben werden koennen.

    - Danach schalten wir alle Linux Server und die Haelfte aller
      Switches nacheinander ab und testen gleichzeitig Redundanz von
      Netzwerk, Server-Hardware und Software/Services.

    - Schlussendlich verkleinern wir den Ceph Cluster zuerst auf ein
      Minimum (1 von 12 Servern) und schalten ihn aus. Danach
      trennen wir das Netz komplett durch Ausschalten aller Switches.

    - Nach Einbau der 2 neuen und Umkonfiguration der bestehen 8
      Switches machen wir nochmals intensive Redundanz- und
      Konfigurationstests des BFH.science Netzes.

    - Wenn alles gut ist, schalten wir alle Server wieder an und
      fahren einen Service nach dem anderen wieder hoch.

    - Sobald alles wieder da ist, werden wir ueber unsere Mailingliste
      Informieren. Dies wird spaetestens um 18:00 sein.


Beim initialen Aufbau der Science DMZ Anfang Jahr haben wir immer
schrittweise Recovery und Resilience Tests einzelner Services/Systeme
gemacht, aber keine vollstaendigen Infrastruktur "Reboot".

Die "alte" Linux Infrastruktur mit dem vorherigen Ceph Cluster haben
wir, abgesehen von den Netzwerk-Komponenten, im 2017 aehnlichen Tests
unterworfen und sind daher schon geuebt.

Nur durch solche konkreten Tests koennen wir sicherstellen, dass wir
eine stabile, verlaessliche und robuste Infrastruktur haben. Jetzt ist
der "letzte" Moment wo wir dies noch sinnvoll tun koennen, weil erst
wenige Dienste in die Science DMZ migriert wurden.

Bevor wir also im weiteren Verlauf des Jahres alle unsere "alten" Linux
Dienste in die Science DMZ migrieren und weitere, neue Dienste darauf
bereitstellen, ist es besonders wichtig, dass wir uns nicht nur "sicher
fuehlen" dass unsere Infrastruktur funktioniert, sonder dass wir dies
auch verifiziert haben und Gewissheit haben, dass sie funktioniert.

Gruesse,
Daniel

-- 
Berner Fachhochschule / Bern University of Applied Sciences
Services / IT-Services
Daniel Baumann
Teamleiter Linux Services
___________________________________________________________
Dammweg 3, CH-3013 Bern
Telefon direkt +41 31 848 48 22
Telefon Servicedesk +41 31 848 48 48
daniel.baumann at bfh.ch
https://bfh.ch
https://bfh.science



More information about the bfh-linux-announce mailing list