Desaster-Recovery Uebung fuer BFH.science
Daniel Baumann
daniel.baumann at bfh.ch
Thu May 9 13:15:14 CEST 2019
Hallo zusammen
Service Announcement
====================
Am Freitag, 10. Mai 2019 von 08:00 bis 18:00 werden alle Dienste der
Science DMZ offline sein, betroffen sind benutzerseitig:
* alle Webserver *.bfh.science
* alle Web-Redirects von externen (nicht-bfh.ch) Domains
* Ceph (P:\LFE resp. smb://bfh.ch/data/LFE)
Grund: Wegen des Einbaus von zusaetzlichen Routern zwischen bfh.ch und
bfh.science gibt es so oder so einen Unterbruch (siehe unten), wir
nutzen die einmalige Gelegenheit um eine "Desaster Recovery"-Uebung
durchzufuehren.
Hintergrund
===========
* Die Hardware fuer die Science DMZ (*.bfh.science) mit Ceph, Number
Crunchern und Linux Servern befindet sich in 2 Racks im BFH
Rechenzentrum in Bern.
* Der Netzwerk-Anschluss der Science DMZ geht direkt auf die BFH
Border Router.
* Da beide Linux Racks aus Performance und Redundanz Gruenden
unabhaengig voneinander (active-active) ans Internet und
ans BFH.ch Netz angeschlossen sein sollen, muss die Anbindung
von jedem Linux Rack an die BFH Border Router ueber ein dynamisches
Routing Protokoll (OSPF oder BGB) erfolgen.
* Die BFH Border Router sind "nach oben" via OSPF zur Uni Bern
erschlossen. Weil die BFH Border Router "nach unten" fuer die
Science DMZ kein OSPF machen sollen, mussten wir zwei zusaetzliche
Arista SDN Switches beschaffen welche als vorgelagerte Science DMZ
Router agieren und den OSPF-Teil selbst uebernehmen.
* Der Einbau der 2 zusaetzlichen Arista Switches zu den bestehenden 8
Aristas bedingt einen Topologie-Aenderung. Theoretisch koennten wir
dies mit ueberproportional hohem Aufwand online, d.h. ohne
Verbindungsunterbruch, vornehmen.
* Einerseits zur Aufwandsminimierung und andererseits zur Uebung eines
"Desasters" (resp. dessen Recovery), werden wir die Topologie-
Aenderung allerdings offline vornehmen:
- Wir schalten zuerst die Ceph-Gateways fuer den Zugriff aus dem
BFH.ch-Netz ab, damit waerend der Uebung keine produktiven
User-Daten mehr geschrieben werden koennen.
- Danach schalten wir alle Linux Server und die Haelfte aller
Switches nacheinander ab und testen gleichzeitig Redundanz von
Netzwerk, Server-Hardware und Software/Services.
- Schlussendlich verkleinern wir den Ceph Cluster zuerst auf ein
Minimum (1 von 12 Servern) und schalten ihn aus. Danach
trennen wir das Netz komplett durch Ausschalten aller Switches.
- Nach Einbau der 2 neuen und Umkonfiguration der bestehen 8
Switches machen wir nochmals intensive Redundanz- und
Konfigurationstests des BFH.science Netzes.
- Wenn alles gut ist, schalten wir alle Server wieder an und
fahren einen Service nach dem anderen wieder hoch.
- Sobald alles wieder da ist, werden wir ueber unsere Mailingliste
Informieren. Dies wird spaetestens um 18:00 sein.
Beim initialen Aufbau der Science DMZ Anfang Jahr haben wir immer
schrittweise Recovery und Resilience Tests einzelner Services/Systeme
gemacht, aber keine vollstaendigen Infrastruktur "Reboot".
Die "alte" Linux Infrastruktur mit dem vorherigen Ceph Cluster haben
wir, abgesehen von den Netzwerk-Komponenten, im 2017 aehnlichen Tests
unterworfen und sind daher schon geuebt.
Nur durch solche konkreten Tests koennen wir sicherstellen, dass wir
eine stabile, verlaessliche und robuste Infrastruktur haben. Jetzt ist
der "letzte" Moment wo wir dies noch sinnvoll tun koennen, weil erst
wenige Dienste in die Science DMZ migriert wurden.
Bevor wir also im weiteren Verlauf des Jahres alle unsere "alten" Linux
Dienste in die Science DMZ migrieren und weitere, neue Dienste darauf
bereitstellen, ist es besonders wichtig, dass wir uns nicht nur "sicher
fuehlen" dass unsere Infrastruktur funktioniert, sonder dass wir dies
auch verifiziert haben und Gewissheit haben, dass sie funktioniert.
Gruesse,
Daniel
--
Berner Fachhochschule / Bern University of Applied Sciences
Services / IT-Services
Daniel Baumann
Teamleiter Linux Services
___________________________________________________________
Dammweg 3, CH-3013 Bern
Telefon direkt +41 31 848 48 22
Telefon Servicedesk +41 31 848 48 48
daniel.baumann at bfh.ch
https://bfh.ch
https://bfh.science
More information about the bfh-linux-announce
mailing list