WLAN Controller wieder redundant

Daniel Baumann daniel.baumann at bfh.ch
Fri Apr 15 01:38:33 CEST 2022


Hallo zusammen

Wir haben heute Abend mit einem externen Partner die beiden Cisco WLAN
Controller wieder so zusammengefuegt, dass diese wieder redundant sind
(active-passive).


Hintergrund
===========

  * Ein Cisco WLAN-Controller ist im wesentlichen ein normaler 19"
    Server. Wenn man zwecks Redundanz z.B. zwei Controller hat,
    sind diese via einen Peerlink (normales Netzwerkabel von einem
    Controll zum anderen Controller) miteinander verbunden. Ueber
    diesen Peerlink wird dann der jeweilige andere Controller
    gepingt, so dass der passive Controller weis wenn der aktive
    nicht mehr da ist und sich dann selber aktiv schaltet.

  * Optional kann man die Verbindung ueber den Peerlink verschluesseln
    (TLS), das waere zum Beispiel dann sinnvoll wenn der eine Controller
    in Bern stehen wuerde und der andere in Biel und der Peerlink z.B.
    ueber eine normale (oeffentliche) Internet-Leitung gehen wuerde.

  * Eine Verschluesselung des Peerlink-Traffics erfolgt via ein X509
    Zertifikat (das ist ein normales "Web-Zertifikat" wie man es z.B.
    von Webseiten via https kennt). Diese Zertikate haben eine endliche
    Laufzeit und muessen periodisch ersetzt werden. Bei unseren WLAN-
    Controller ist ein Zertifikat vorhanden, es ist irgendwann frueher
    abgelaufen, wird aber eh nicht benutzt und hatte fuer unsere
    Problematik aber absolut keine Auswirkung - ist aber trotzdem
    suboptimal.

  * Fuer den Fall das der passive WLAN-Controller den aktiven sieht,
    aber seinen default-Gateway nicht mehr erreicht, rebootet sich der
    passive WLAN-Controller selbststaendig in der Hoffnung, dadurch
    das Problem zu loesen, siehe Matrix auf:


https://www.cisco.com/c/en/us/td/docs/wireless/controller/technotes/8-7/High_Availability_DG.html#pgfId-52090

  * Als der Leih-Nexus die VLANs auf dem bestehenden Nexus geloescht
    hatte (siehe https://lists.bfh.science/pipermail/bfh-linux-announce
    /2022-March/000165.html), trat bei den WLAN-Controllern genau dieses
    Szenario ein: ueber den Peerlink sehen sich beide, aber der passive
    kann (auch) kein Gateway mehr erreichen und rebootet daher
    selbststaendig.

  * Normalerweise wuerde nach dem Reboot (dauert knapp 15min) sich der
    passive Controller wieder mit dem aktiven zusammenfinden und, sofern
    das Default-Gateway erreichbar ist, waere alles wieder gut.

  * Mit genau der Software-Version die wir einsetzen, gibt es in genau
    diesem Szenario einen (bei Cisco bekannter und dokumentierter) Bug
    (URL koennen wir spaeter noch nachreichen wenn sinvoll):

    - tritt ein Reboot des passiven Controllers wegen Verbindungsabbruch
      zum Default-Gateway ein, wird faelschlicherweise einseitig auf dem
      passiven Controller die Verschluesselung des Peerlinks
      eingeschaltet.

    - sind danach beide Controller wieder gestartet, werden sich diese
      beiden Controller nie mehr finden - der eine Controller erwartet
      eine verschluesselte Verbindung und der andere Controller erwartet
      keine Verschluesselung.

    - Abhilfe schafft das manuelle Abschalten der Verschluesselung plus
      Reboot.. und schon sind die WLAN-Controller wieder redundant.

Gruesse,
Daniel

-- 
Berner Fachhochschule / Bern University of Applied Sciences
Services / IT-Services
Daniel Baumann
Teamleiter Linux & Infrastructure Services
___________________________________________________________
Dammweg 3, CH-3013 Bern
Telefon direkt +41 31 848 48 22
Telefon Servicedesk +41 31 848 48 48
daniel.baumann at bfh.ch
https://bfh.ch
https://bfh.science


More information about the bfh-linux-announce mailing list