VPN Ausfall heute morgen
Daniel Baumann
daniel.baumann at bfh.ch
Thu Oct 6 14:47:12 CEST 2022
On 10/6/22 09:57, Daniel Baumann wrote:
> Heute Nacht wurden die alten dns1.bfh.ch und dns2.bfh.ch Container (auf
> dem gleichen Host) automatisch gestoppt (warum ist noch nicht
> anschliessend klar).
War ein Hardware-Defekt - ein in die Jahre gekommenes RAM Modul
produziert(e) Fehler.
Hintergrund
===========
* Bei ECC-RAM koennen dank Pruefsummen 1bit Fehler (= "Erdstrahlen")
in Hardware korrigiert werden, 2bit Fehler (= "defekt") koennen
nicht korrigiert werden.
* Zum Verhindern von stiller Datenkorruption bei 2bit Fehlern sind
unsere Systeme absichtlich praeventiv auf "reset" konfiguriert, d.h.
die Hardware triggert eine Machine-Check-Exception (MCE) und macht
ein Power-Cycle.
* Ein (unfreiwilliger) Reboot per-se wuerde nicht zum Service-
Unterbruch fuehren. Allerdings sind bei uns die Container
absichtlich (und das ist auch gut so) nicht auf automatisch starten
gestellt, so dass im Falle eines ungeplanten Reboots (Stromausfall
oder aehnliches) zuerst Datenintegritaet auf den Disks verifiziert
werden kann und erst dann die Services fuer die User wieder
gestartet werden.
* So koennen wir jeweils sicherstellen, dass alle Services entweder
vollstaendig da sind und von allen uneingeschraenkt benutzt werden
koennen, oder sie sind nicht da (= determiniertes Verhalten und
User-/Service-Datenintegritaet jederzeit gewaehrleistet).
* Deshalb waren die erwaehnten DNS Container nicht automatisch wieder
da (bis zum naechsten unfreiwilligen Reboot). Da wirs nun gemerkt
haben, ist defektes RAM-Modul entfernt und wir erwarten keine
weiteren Unterbrueche bei den alten DNS Servern.
Gruesse,
Daniel
More information about the bfh-linux-announce
mailing list