Hintergrund: RZ Bern Ausfall von gestern

Daniel Baumann daniel.baumann at bfh.ch
Wed Mar 30 14:25:49 CEST 2022


On 3/30/22 13:44, Daniel Baumann wrote:
> Hier unser Bericht zum RZ Ausfall von gestern fuer die technisch
> Interessierten und fuer uns zur Dokumentation.

Hier noch zwei Ergaenzungen zu aktuellen Meldungen von Nutzenden..


1. "schlechte *allgemeine* Netzwerk-Performance seit Ausfall"
=============================================================

Seit gestern gibts Meldungen zu "schlechte Netzwerkperformance" oder
"langsames Internet":

  * dies hat nichts *direkt* mit dem Netzwerk-Ausfall zu tun

  * Grund ist ein haengender DNS1 welcher (indirekt) wegen des
    gestrigen Netzwerk-Ausfalls ein Reload benoetigte um alte/
    haengende Queries und Caches zu droppen

  * Seit heute 13:00 ist dies behoben.


Randbemerkung #1
----------------
Warum DNS1 "speziell" ist (weil Client Betriebssysteme
standartmaessig erst nach 25(!) Sekunden den Failover auf DNS2 oder DNS3
machen) und was wir dagegen machen, erklaeren wir dann mal in einem
spaeteren Bericht zum neuen Netz.

Randbemerkung #2
----------------
Dieser Umstand ist insbesondere fuer alle Microsoft Cloud Services
fatal, weil diese eine sehr tiefe TTL verwenden (60s), so dass jede
Minute neue DNS Queries abgesetzt werden (die dann mind. 25s benoetigen).


2. "schlechte *WLAN*-Performance seit Ausfall"
==============================================

Ebenfalls haben wir einige Meldungen zu "schlechter WLAN-Empfang" erhalten.

Es ist im Einzelfall schwierig, diese nachzustellen und nachtraeglich
vom viel gewichtigeren Einfluss von Problem 1 (DNS) abzugrenzen.

Trotzdem:

  * Die Cisco WLAN Accesspoints werden zentral ueber einen Wireless-
    Controler gesteuert, der die Frequenz-Konfiguration/Optimierungen
    zentral zuweist. Diese ist abhaengig von "Umwelteinfluessen", d.h.
    je nach der lokalen Benutzung des Frequenz-Spektrums durch andere
    WLAN-Nutzenden in den Nachbargebaeuden und "pegelt" sich "langsam"
    ein.

  * Durch den vollstaendigen LAN Unterbruch von gestern haben alle
    Accesspoints auf einmal rebootet und werden durch den Controller
    wieder neu eingepegelt. Dies kann 24 bis max. 48h in Anspruch nehmen
    und kann weder beschleunigt noch beinflusst werden.

Gruesse,
Daniel

-- 
Berner Fachhochschule / Bern University of Applied Sciences
Services / IT-Services
Daniel Baumann
Teamleiter Linux & Infrastructure Services
___________________________________________________________
Dammweg 3, CH-3013 Bern
Telefon direkt +41 31 848 48 22
Telefon Servicedesk +41 31 848 48 48
daniel.baumann at bfh.ch
https://bfh.ch
https://bfh.science


More information about the bfh-linux-announce mailing list