Loesungen und Stand zur "WLAN Problematik"
Daniel Baumann
daniel.baumann at bfh.ch
Fri Jun 5 07:57:07 CEST 2020
Hallo zusammen
Nachdem wir in den vergangen Wochen uns primaer um die Beseitigung der
dringensten Notfallarbeiten bei Firewall und Hardware bei Moodle und
Basis-Diensten gekuemmert haben, gehen wir jetzt weiter zu WLAN fuer
welches wir im Rahmen der organisatorischen Anpassungen per 1. Mai die
Verantwortung uebernommen haben.
1. Kurzfassung
==============
Wir haben in der letzten Zeit vermehrt Problemmeldungen bzgl. WLAN
erhalten. Diese lassen sich auf vier jeweils voneinander
unterschiedliche Problemkreise zurueckfuehren:
* ab Mitte Maerz: "Verbindungsaufbau Android 10":
- betrifft nur wenige Geraete-Modelle und nicht alle Android 10
Geraete (Inkompatibilitaet in der Implementierung von WPA3
zwischen Cisco und bisher 2 Handy-Herstellern)
- bliebt schwierig, entweder schliesst man die einen oder die
anderen aus
- Problemloesung gehen wir naechste Woche an und werden u.U.
WPA3 bis auf Weiteres abschalten muessen und erst nach
vorgaengigen Kompatibilitaetstests wieder anschalten koennen
* ab Ende April: "Signalstaerke HAFL Wohnheim":
- alle WLAN-Netze (SSIDs) betroffen
- nur Standort HAFL Wohnheim in Zollikofen betroffen
- geloest seit 12. Mai durch Reduzierung der maximalen
Kanalbreite pro Client
* seit 12. Mai: "Allgemeine Verbindungsabbrueche/Signalqualitaet"
- vorallem bei MS-Teams und anderer Video-Telefonie gibt es
an allen Standorten BFH-weit immer wieder Verbindungsabbrueche
- es sind nur die WLAN-Netze bfh, eduroam und bfh-things betroffen
- werden wir heute loesen durch Abschalten von "Langsame Datenrate
erlauben"
* seit 27. Mai: "bfh-open funktioniert nicht"
- ist noch auf TODO, sind wir noch nicht dazu gekommen. Hat im
Rahmen aller anderen Notfaelle, weil es "nur" das Gaestenetz
Betrifft, die tiefste Prioritaet innerhalb der Prio 1 Dinge
- wir werden morgen Samstag das Problem anschauen und loesen
2. Hintergrund
==============
2.1 "Verbindungsaufbau Android 10"
----------------------------------
* Bei WLAN koennen die Netzwerkpakete entweder unverschluesselt oder
verschluesselt uebertragen werden. Zur Verschluesselung wurde
frueher WEP, heute WPA benutzt und findet zwischen Layer 1 und Layer
2 statt.
* WPA gibts in mehreren Versionen, die meisten verwenden noch WPA2
welches aus Security Gruenden eigentlich nicht mehr verwendet werden
sollte. WPA3 ist generell noch kaum verbreitet, weder bei Clients
(erst ab Android 10) noch bei Infrastruktur.
* WPA gibts in mehreren Varianten, Pre Shared Key (PSK) das man als
"wie lautet das Passwort fuers Wifi" aus dem Heimbereich kennt und
Enterprise bei welchem man sich inviduell mit User und Passwort
authentisieren muss. Die "bfh" und "eduroam" Netze setzen auf
WPA2-Enteprise.
* Innerhalb einer jeden WPA Variante gibts dann noch unterschiedliche
kryptographische Algorithmen und Kombinationen fuer die
Verschluesselung/Uebertragung der Login-Daten und der danach
folgenden Netzwerkpakete. Allen gemeinsam ist, dass bei WPA der
Client sich mit dem Accesspoint ueber die jeweiligen verfuegbaren
Parameter zuerst austauschen und ggf. einigen muss, damit eine
Netzwerk-Verbindung zustandekommt.
* Dazu werden sogenannte Beacons vom Client versendet, auf die ein
Accesspoint antwortet und so den initialen Verbindungsaufbau zur
Authentisierung ausloest. Versendet der Client keine Beacons,
passiert nichts und der Client wird sich nie verbinden koennen.
* Da WPA3 noch relativ neu ist, ist die Implementierung davon sowohl
in den Geraeten wie auch in der Infrastruktur noch "im Fluss" und
es werden laufend Bugs gefunden und geschlossen.
* Fuer Android 10 hat Google WPA2 und WPA3 Support als zwingend
definiert. Trotzdem gibt es zwei Hersteller (Xiaomi und Nokia),
bei welchen *einzelne* Modelle kein WPA2 (dafuer aber WEP, sic!)
unterstuetzen, oder "falsche" Beacons aussenden, so dass je nach je
eine WPA2 oder WPA3 Initialisierung nicht ausgeloest wird. Aufgrund
des Designs von WPA ist, fuer diese Problematik, konzeptionell ein
Workaround auf Accesspoint-Seite ausgeschlossen.
* Die Situation koennte aus Sicht Infrastruktur nicht schlimmer sein,
da bei z.B. Xiaomi neuere Steppings *desselben* Modells mit Bugfixes
ausgestattet wurden, welche aelter Steppings nicht haben und auch
nicht per Update erhalten. D.h. fuer User bedeutet das, dass
Kollegen mit dem scheinbar identischem Telefon eine Verbindung
haben koennen, man selber aber nicht, was nicht offensichtlich und
fuer alle frustrierend ist.
NB: Bei Nokia sind auch unterschiedliche Modelle betroffen,
allerdings gibt es jeweils zeitnahe Updates so dass alle Steppings
eines Modelles gleichauf sind, sofern die User diese einspielen.
* Es gibt hunderte Berichte im Internet zu diesem Thema, es gibt ganz
viele "hilfreiche" Tipps auf Kombination die mit einzelnen
Geraeten/Steppings funktionieren und mit anderen nicht (z.B. soll
angeblich AES statt TKIP helfen, nicht aber AES-GCM was erstmal
keinen Sinn ergibt; bei wieder anderen funktioniert offenbar
wenn man Bluetooth waehrend des WLAN-Verbindens ausschaltet...).
Da einige dieser "hilfreichen" Tipps Parameter auf Infrastruktur-
Seite betreffen die global gelten, werden wir zum Wohle aller nicht
leichtfertig und uebereilt Settings aendern und ggf. fuer alle das
Netz unbenutzbar machen, auch wenn das bedeutet dass Personen mit
bestimmten Xiaomi oder Nokia Geraeten kein WLAN Zugriff haben.
* Wir werden uns WPA3 im Zusammenhang mit Android 10 naechste Woche
widmen, halten euch auf dem Laufenden und bedanken uns bei den
(wenigen) Betroffenen fuer eure Geduld.
* Als Workaround kann auf "bfh-open" ausgewichen werden, welches
weil Gaestenetz kein WPA macht sondern auf "Layer 1.5"
unverschluesselt ist (im HTTPS Zeitalter weniger relevant als auch
schon). Dieses bietet allerdings "nur" Internet-Zugang
und kein Zugriff auf Dienste im internen BFH-Netz.
2.2 "Signalstaerke HAFL Wohnheim"
---------------------------------
* WLAN nach IEEE 802.11 gibt es in drei Frequenzbereichen:
2.4GHz, 5GHz und 60GHz. Bei uns stehen 2.4GHz und 5GHz zur
Verfuegung, wovon hauptsaechlich das 5GHz Band benutzt wird.
Dabei sind Datenraten bei uns von bis zu 600 Mbit/s (802.11n) und
936 Mbit/s (802.11ac) nutzbar.
* WLAN ist ein shared Medium, deshalb wird der jeweilige
Frequenzbereich in Kanaele eingeteilt. Im 5GHz Bereich koennen diese
20, 40, 80 oder sogar 160MHz breit sein. Je breiter der Kanal den
ein Client benutzen kann, umso hoeher die Bandbreite.
Theoretisch waere so bei 802.11ac eine maximale Bandbreite von
3466.7 Mbit/s herstellerunabhaengig erreichbar (geht bei uns
allerdings nicht, weil die Accesspoints grundsaetzlich nur mit
1Gbit/s angeschlossen sind).
* Im HAFL Wohnheim haben wir die Situation, dass im Vergleich zur
Rest-BFH ueberdurchschnittlich viele und aktuelle(!) WLAN-Gerate auf
engstem Raum vorhanden sind. Jedes Geraet versucht, zu Recht und
je neuer je aggressiver, fuer sich beim Verbindungsaufbau mit dem
Accesspoint den moeglichst breitesten Kanal zu belegen (NB: auch
wenn sies gar nicht benutzen/sinnvoll ist wie z.B. eigene
Drucker von Studierenden, welche 24/7 mit dem WLAN verbunden sind
damit man "selten" mal vom Handy/Notebook ohne Kabel drucken kann).
Ein einmal belegter Kanal ist solange das Geraet mit dem WLAN
verbunden ist, besetzt und kann nicht von einem anderen Geraet
benutzt werden.
* Bisher waren bei uns pro Client bis zu 80MHz Kanalbreite moeglich.
Im Wohnheim hat das aufgrund der vielen Geraete dazu gefuehrt, dass
wer zu "spaet" kam keine oder nur sehr wenig Bandbreite mehr
erhalten konnte.
* Durch ein Reduzieren der maximalen durch den Client belegbaren
Kanalbreite von 80MHz auf 40MHz am 12. Mai kann eine hoehere Anzahl
von Geraeten pro Accesspoint bedient werden. Diese Reduzierung gilt
Global und macht das gesamte WLAN-Netz besser wo besonders viele
WLAN-Geraete dicht auf engem Raum sind, ueberall sonst
schadet/aendert es nichts. Dadurch werden insbesondere auch bei
Online-Pruefungen die Vorort durchgefuehrt werden (Stichwort Moodle
oder Safe Exam Browser) nicht mehr zur besonderen Herausforderung
wie das bisher oft der Fall war.
* Weil, unabhaengig von der Kanalbreite, unterschiedliche Modulationen
fuer die Datenuebertragung verwendet werden koennen, sinkt die bei
40MHz Kanaelen maximal zur Verfuegung stehende Bandbreite
nur geringfuegig von bei uns 936 Mbit/s auf 800 Mbit/s (vergl.
https://en.wikipedia.org/wiki/IEEE_802.11ac#Data_rates_and_speed).
* Uebrigens: Zwar hat das 5GHz deutlich mehr Kanaele zur Verfuegung
als das 2.4GHz Band, allerdings wird die moeglich Anzahl Kanaele
durch zwei Gruende massiv limitiert:
- regional unterschiedliche regulatorische Bestimmungen erlauben
generell nur das Benutzen eines Teilbereiches
- grundsaetzlich sind nur die ersten 48 Kanaele ueberhaupt fuer WLAN
exklusiv reserviert. Kanal 49 bis 165(!) ueberschneitet sich mit
Wetterradar und kann nur benutzt werden, wenn ein aufwaendiges
"Kollisionsverhinderungsprotokoll" umgesetzt wird (dabei muss
jeder Client periodisch pruefen, ob der gewuenschte Kanal
zufaellig vorort und in dem Moment gerade durch einen Wetterradar
benutzt wird und falls ja, diesen sofort freigeben, Stichwort
Dynamic Frequency Selection (DFS)). Da die meisten Hersteller in
ihren WLAN-Geraeten dies aus Komplexitaets- oder schlicht
Kostengruenden nicht implementieren, sind also nur weniger als ein
Drittel(!) aller Kanaele ueberhaupt benutzbar.
* Der Vorschlag zur Reduzierung der Kanalbreite kam von einem
Mitarbeiter unseres Externen Partner der das Cisco Netz an der BFH
betreut, besten Dank dafuer.
* Seit dieser Reduzierung am 12.5. gibt es keine bei uns bekannten
WLAN-Probleme mehr im HAFL Wohnheim.
2.3 "Allgemeine Verbindungsabbrueche/Signalqualitaet"
-----------------------------------------------------
* Die BFH hat wie fuer die Schweiz typisch was WLAN angeht,
relativ moderne und ueberwiegend einheitliche Client-Hardware im
Einsatz. D.h. praktisch alle Notebooks benutzen das 5GHz Band
und machen entweder 802.11n oder 802.11ac.
* Neben der oben erwaehnten Kanalbreite und Modulation, ist beim 5GHz
Frequenzband zusaetzlich auch noch die Anzahl der verwendeten
Antennen massgeblich fuer die zur Verfuegung stehende Bandbreite.
* Je mehr Antennen gleichzeitig benutzt werden koennen (bis zu 4 mit
jeweils einem Stream welche hardware-technisch zu einer einzigen
Verbindungen auf Layer 1 logisch zusammengefasst werden), umso mehr
Bandbreite ist nutzbar.
* Je besser die Verbindung vom Client zum Accesspoint ist (sprich:
je naeher und mit weniger raeumlichen Hindernissen wie
Waenden/Baeumen sich der Client zum Accesspoint befindet), umso mehr
Antennen/Streams koennen benutzt werden.
* Je schlechter die Verbindung (Distanz/Hindernisse), umso weniger
Antennen koennen benutzt werden und umso enger sind auch die
Kanalbreiten die benutzt werden koennen. Dadurch reduziert sich
automatisch die Bandbreite die benutzt werden kann.
* Beim Design von WLAN Netzen muss man sich zwischen zwei Paradigmen
entscheiden:
1. entweder setzt man auf maximale Reichweite einzelner
Accesspoints und erlaubt auch, dass von "weit weg" noch langsame
Verbindungen aufgebaut werden koennen:
-> Vorteil: braucht insgesamt weniger Accesspoints
-> Nachteil: es sind auch "schlechte" Verbindungen moeglich
2. oder man setzt auf maximale Bandbreite:
-> Vorteil: es sind nur "schnelle" Verbindungen ab einer gewissen
Qualitaet moeglich oder gar keine, d.h. Nutzende haben ein
diskretes Verhalten: entweder die Verbindung zum Accesspoint
klappt und ist gut, oder man man hat gar keine Verbindung und
man muss naeher an den Accesspoint ran
-> Nachteil: es braucht insgesamt mehr Accesspoints damit WLAN
flaechendeckend zur Verfuegung steht
("Abdeckungsproblem")
* Wir gehen davon aus, dass beim BFH-WLAN Netz man auf die 2. Variante
fuer maximale Bandbreite gesetzt hat (was unserer Meinung die
richtige Variante ist; die maximale Reichweite-Variante empfiehlt
sich primaer fuer den Heimbereich, nicht fuer den professionellen
Einsatz).
* Der Unterschied zwischen Variante 1 und Variante 2 wird durch eine
Einstellung von "Langsamere Datenraten erlauben: ja/nein" Setting
auf den Cisco Wireless-Controllern gesteuert. Werden langsame
Datenraten von 6.5 resp. 13 Mbit/s erlaubt (enspricht 1 Stream mit
tiefster Modulation und 40Mhz resp. 80Mhz Kanalbreite), sind wir im
Variante 1 Modus. Bisher war dieses Setting auf "nein", d.h.
langsame Datenraten waren *nicht* erlaubt.
NB: 6.5 resp. 13 Mbit/s erlauben heisst nicht, dass dann "nur"
diese Datenraten zur mindestens zur Verfuegung stehen muessen,
dies betrifft nur die Anzahl Streams, Kanalbreite und Modulation
Kombination welche eine *maximal* Bandbreite von 6.5 resp. 13 Mbit/s
haben. D.h. wenn eine solche Kombination von einem Client
ausgewaehlt wird weil anderst keine Verbindung mehr moeglich waere,
sind in der Regel diese maximalen Bandbreiten trotzdem nicht
erreichbar und ein Client bewegt sich zwischen 0 und 1 Mbit/s
(spich: reicht knapp zum Versenden von einfachen E-Mails, mehr geht
nicht in sinnvoll).
* Am 12.5. wurde durch einen Mitarbeiter unseres Externen Partner der
das Cisco Netz betreibt, auf den Wireless Controllern dieses Setting
angeschaltet (d.h. langsame Datenraten waren neu erlaubt). Seither
haben wir Probleme ueberall im WLAN-Netz.
Schlimmer noch: durch diese Aenderung verbinden sich WLAN-Geraete
auch mit entfernten/schlecht erreichbaren Accesspoints und bleiben
dann, aufgrund eines anderen Settings das aggressiveres Roaming
unterdrueckt (Review Roaming Settings steht fuer ein andermal an),
auf diesen "schlechten" Accesspoint auch wenn durch Verschieben des
Geraetes ein besser erreichbarer Accesspoint verfuegbar waere. Dies
hat dazu gefuehrt dass bei Bandbreiten-sensitiven Diensten wie
MS-Teams und generell Video-Telefonie dies Verbindungsabbruechen und
schlechte Video/Audio Qualitaet zur Folge hat.
* Diese Aenderung wurde unter dem Titel "wir optimieren mal euer
WLAN-Netz und setzen allgemeine Best Practise um" stillschweigend
durchgefuehrt, wovon uns nur die oben erwaehnte Kanalbreiten-
Reduzierung kommuniziert wurde. Ueber alle anderen Aenderungen
wurden wir nicht informiert (ja, im Nachhinein haetten wir
micro-manageing-maessig nachfragen muessen und dem "handwaveing"
nicht vertrauen duerfen - das ist mein persoenlicher Fehler, sorry).
* Durch Verlangen aller Konfigurationsdateien und dem manuellen Review
aller Aenderungen haben wir gestern vormittag dies entdeckt. Wir
werden diese Einstellung heute in einem ausserordentlichen
Wartungsfenster umgehend rueckgaengig machen lassen (Groessenbereich
5min WLAN Unterbruch im Zeitraum voraussichtlich 12:00 bis 13:00),
damit sofort wieder wie gewohnt und ueberall ein gutes und stabiles
WLAN-Netz zur Verfuegung steht.
* Aufgrund der Notfallarbeiten an Firewall, Moodle und Basis-Dienste
Hardware in den vergangen Wochen welche wir zusaetzlich zum vollen
Pensum in Ueberstunden umgesetzt haben, konnten wir uns erst jetzt
dem Thema WLAN annehmen. Wir entschuldigen uns fuer die daraus
entstandenen Umstaende und danken fuer euer Verstaendnis.
* Uebrigens: der Wechsel auf "eduroam" welches in den letzten Tagen
von einigen Seiten als Workaround empfohlen wurde, hat je nach
je darum geholfen, weil dadurch ein Client sich neu mit einem
(inzwischen) "besser erreichbaren" Accesspoint verbunden hat und das
"Anti-Roaming Feature" unterbrochen hat. Ein Neuverbinden mit dem
"bfh" Netz haette allerdings den selben Effekt gehabt.
* Last but not least, Lessons learned: Micro-Managing des Externen
Partners notwendig.
Gruesse,
Daniel
--
Berner Fachhochschule / Bern University of Applied Sciences
Services / IT-Services
Daniel Baumann
Teamleiter Linux & Infrastructure Services
___________________________________________________________
Dammweg 3, CH-3013 Bern
Telefon direkt +41 31 848 48 22
Telefon Servicedesk +41 31 848 48 48
daniel.baumann at bfh.ch
https://bfh.ch
https://bfh.science
More information about the bfh-linux-announce
mailing list