WLAN Controller wieder redundant
Daniel Baumann
daniel.baumann at bfh.ch
Fri Apr 15 01:38:33 CEST 2022
Hallo zusammen
Wir haben heute Abend mit einem externen Partner die beiden Cisco WLAN
Controller wieder so zusammengefuegt, dass diese wieder redundant sind
(active-passive).
Hintergrund
===========
* Ein Cisco WLAN-Controller ist im wesentlichen ein normaler 19"
Server. Wenn man zwecks Redundanz z.B. zwei Controller hat,
sind diese via einen Peerlink (normales Netzwerkabel von einem
Controll zum anderen Controller) miteinander verbunden. Ueber
diesen Peerlink wird dann der jeweilige andere Controller
gepingt, so dass der passive Controller weis wenn der aktive
nicht mehr da ist und sich dann selber aktiv schaltet.
* Optional kann man die Verbindung ueber den Peerlink verschluesseln
(TLS), das waere zum Beispiel dann sinnvoll wenn der eine Controller
in Bern stehen wuerde und der andere in Biel und der Peerlink z.B.
ueber eine normale (oeffentliche) Internet-Leitung gehen wuerde.
* Eine Verschluesselung des Peerlink-Traffics erfolgt via ein X509
Zertifikat (das ist ein normales "Web-Zertifikat" wie man es z.B.
von Webseiten via https kennt). Diese Zertikate haben eine endliche
Laufzeit und muessen periodisch ersetzt werden. Bei unseren WLAN-
Controller ist ein Zertifikat vorhanden, es ist irgendwann frueher
abgelaufen, wird aber eh nicht benutzt und hatte fuer unsere
Problematik aber absolut keine Auswirkung - ist aber trotzdem
suboptimal.
* Fuer den Fall das der passive WLAN-Controller den aktiven sieht,
aber seinen default-Gateway nicht mehr erreicht, rebootet sich der
passive WLAN-Controller selbststaendig in der Hoffnung, dadurch
das Problem zu loesen, siehe Matrix auf:
https://www.cisco.com/c/en/us/td/docs/wireless/controller/technotes/8-7/High_Availability_DG.html#pgfId-52090
* Als der Leih-Nexus die VLANs auf dem bestehenden Nexus geloescht
hatte (siehe https://lists.bfh.science/pipermail/bfh-linux-announce
/2022-March/000165.html), trat bei den WLAN-Controllern genau dieses
Szenario ein: ueber den Peerlink sehen sich beide, aber der passive
kann (auch) kein Gateway mehr erreichen und rebootet daher
selbststaendig.
* Normalerweise wuerde nach dem Reboot (dauert knapp 15min) sich der
passive Controller wieder mit dem aktiven zusammenfinden und, sofern
das Default-Gateway erreichbar ist, waere alles wieder gut.
* Mit genau der Software-Version die wir einsetzen, gibt es in genau
diesem Szenario einen (bei Cisco bekannter und dokumentierter) Bug
(URL koennen wir spaeter noch nachreichen wenn sinvoll):
- tritt ein Reboot des passiven Controllers wegen Verbindungsabbruch
zum Default-Gateway ein, wird faelschlicherweise einseitig auf dem
passiven Controller die Verschluesselung des Peerlinks
eingeschaltet.
- sind danach beide Controller wieder gestartet, werden sich diese
beiden Controller nie mehr finden - der eine Controller erwartet
eine verschluesselte Verbindung und der andere Controller erwartet
keine Verschluesselung.
- Abhilfe schafft das manuelle Abschalten der Verschluesselung plus
Reboot.. und schon sind die WLAN-Controller wieder redundant.
Gruesse,
Daniel
--
Berner Fachhochschule / Bern University of Applied Sciences
Services / IT-Services
Daniel Baumann
Teamleiter Linux & Infrastructure Services
___________________________________________________________
Dammweg 3, CH-3013 Bern
Telefon direkt +41 31 848 48 22
Telefon Servicedesk +41 31 848 48 48
daniel.baumann at bfh.ch
https://bfh.ch
https://bfh.science
More information about the bfh-linux-announce
mailing list