VPN Ausfall heute morgen

Daniel Baumann daniel.baumann at bfh.ch
Thu Oct 6 14:47:12 CEST 2022


On 10/6/22 09:57, Daniel Baumann wrote:
> Heute Nacht wurden die alten dns1.bfh.ch und dns2.bfh.ch Container (auf
> dem gleichen Host) automatisch gestoppt (warum ist noch nicht
> anschliessend klar).

War ein Hardware-Defekt - ein in die Jahre gekommenes RAM Modul
produziert(e) Fehler.

Hintergrund
===========

  * Bei ECC-RAM koennen dank Pruefsummen 1bit Fehler (= "Erdstrahlen")
    in Hardware korrigiert werden, 2bit Fehler (= "defekt") koennen
    nicht korrigiert werden.

  * Zum Verhindern von stiller Datenkorruption bei 2bit Fehlern sind
    unsere Systeme absichtlich praeventiv auf "reset" konfiguriert, d.h.
    die Hardware triggert eine Machine-Check-Exception (MCE) und macht
    ein Power-Cycle.

  * Ein (unfreiwilliger) Reboot per-se wuerde nicht zum Service-
    Unterbruch fuehren. Allerdings sind bei uns die Container
    absichtlich (und das ist auch gut so) nicht auf automatisch starten
    gestellt, so dass im Falle eines ungeplanten Reboots (Stromausfall
    oder aehnliches) zuerst Datenintegritaet auf den Disks verifiziert
    werden kann und erst dann die Services fuer die User wieder
    gestartet werden.

  * So koennen wir jeweils sicherstellen, dass alle Services entweder
    vollstaendig da sind und von allen uneingeschraenkt benutzt werden
    koennen, oder sie sind nicht da (= determiniertes Verhalten und
    User-/Service-Datenintegritaet jederzeit gewaehrleistet).

  * Deshalb waren die erwaehnten DNS Container nicht automatisch wieder
    da (bis zum naechsten unfreiwilligen Reboot). Da wirs nun gemerkt
    haben, ist defektes RAM-Modul entfernt und wir erwarten keine
    weiteren Unterbrueche bei den alten DNS Servern.

Gruesse,
Daniel


More information about the bfh-linux-announce mailing list