Verbindungsprobleme mit Exchange Online geloest

Patric Eichelberger patric.eichelberger at bfh.ch
Wed Sep 1 08:28:19 CEST 2021


Lieber Daniel

Herzlichen Dank fürs kompetente und umfangreiche Aufklären. Ich hatte
mich etliche male darüber genervt die letzten beiden Tage und
beschuldigte schon MS...

LG
Patric

On 9/1/21 5:06 AM, Daniel Baumann wrote:
> Hallo zusammen
> 
> In den letzten Tagen gab es zunehmend Verbindungsprobleme aus dem BFH
> Netzwerk zu den Exchange Mailservern in der Microsoft Cloud. Dies hat
> sich von einzelnen Verbindungsproblemen bis hin zur vollstaendigen
> Unbenutzbarkeit der E-Mail Dienste entwickelt.
> 
> Ursache war dass die Universitaet Bern, ueber welche wir ans schweizer
> Hochschulnetz (SWITCH) und ans Internet angebunden sind, die Microsoft
> Mailserver auf unserer Netzwerk-Anbindung gesperrt hat.
> 
> Seit gestern Dienstag, 11:45 Uhr ist diese Sperre wieder entfernt und
> E-Mail ist uneingeschraenkt verfuegbar.
> 
> Im Folgenden die Hintergrund-Informationen und weiteren Massnahmen.
> 
> 
> 1. DNS Round Robin
> ==================
> 
> Wenn ein Mailclient (egal ob Thunderbird, Outlook oder was anderes;
> betrifft alle die auf Exchange Online migriert worden sind) sich mit den
> Microsoft Mailservern verbindet, so tut er das mit outlook.office356.com
> und/oder outlook.office.com.
> 
> Diese DNS Eintraege sind sogenannte Round-Robin, d.h. es gibt mehre IP
> Adressen die fuer diesen Eintrag zwecks Load Balancing zu Performance
> und Redundanz hinterlegt sind:
> 
> ---schnip---
> $ kdig outlook.office365.com
> outlook.ha.office365.com.	10	IN	A	52.97.201.194
> outlook.ha.office365.com.	10	IN	A	52.97.201.242
> outlook.ha.office365.com.	10	IN	A	52.97.186.146
> outlook.ha.office365.com.	10	IN	A	52.97.201.210
> outlook.ha.office365.com.	10	IN	A	52.98.168.178
> outlook.ha.office365.com.	10	IN	A	52.98.163.18
> outlook.ha.office365.com.	10	IN	A	52.97.232.194
> outlook.ha.office365.com.	10	IN	A	52.97.201.226
> ---schnap---
> 
> Ein Client kann sich dann frei auswaehlen, welche der Adressen er
> verwenden moechte, in der Regel wird einfach die erste Antwort genommen
> (die in aller Regel von den antwortenden DNS Servern immer rotiert wird,
> damit nicht immer die gleiche Adresse zuoberst steht).
> 
> 
> 2. Internet Anbindung via Universitaet Bern
> ===========================================
> 
> Die BFH verfuegt ueber keinen direkten Anschluss ans Internet, sondern
> ueber eine redundante Anbindung (2x 10gbit) ans schweizer Hochschulnetz
> (SWITCH) und damit ans Internet via die Universitaet Bern.
> 
> D.h. in unserem Rechenzentrum in Bern gehen zwei Glasfaserkabel zur
> unibe, und von da weiter nach Zuerich. Der gesamte Traffic passiert
> dabei den unibe Border-Router. Das ist fuer uns oekonomischer weil
> dadurch die Anschlussgebuehren fuer SWITCH signifikant tiefer sind.
> 
> Als zusaetzlicher Service verhindert die Universitaet Bern so indirekt
> einen Teil der Attacken (DoS, DDoS) aus dem Internet gegen unsere
> Systeme weil wir denselben Uplink benutzen. Solche legitimen Sperrungen
> von Adressen oder Adressbereichen sind nur jeweils kurzfristig fuer ein
> paar Stunden notwendig und kommen insgesamt sehr selten vor (ein, zwei
> mal pro Jahr). Das macht die unibe seit vielen Jahren unaufgefordert so
> und dafuer sind wir sehr dankbar, das hat in den letzten 10 Jahren ein
> paar mal groesseren Schaden/Ausfaelle auf unserer Seite verhindert.
> 
> 
> 3. Aktuelle Sperrung der Microsoft Server
> =========================================
> 
> Die Netzwerkverantwortlichen der unibe haben in den letzten Tagen ein
> erhoehtes Traffic-Aufkommen zu den Microsoft Mailservern bemerkt.
> 
> Das ist einerseits erklaerbar durch die weitere Migration unserer User
> auf Exchange Online, andererseits durch Ende der Ferienzeit und
> vermehrter Vorort-Praesenz der Mitarbeitenden.
> 
> Leider hat unibe selbststaendig entschieden, immer mehr Mailserver von
> Microsoft zu blockieren. Schlussendlich waren gestern so 8 von den 10
> verfuegbaren Mailservern geblockt.
> 
> Der Effekt war dass ein Client fuer jede Verbindung jeweils sich
> "durchprobieren" musste, bis er einen der 2 noch funktionierenden Server
> erwischt hat. Das aeusserte sich in extrem langsamem Zugriff oder keinem
> Zugriff auf Mails, und ebenso eingeschraenkten Mailversand.
> 
> Allerdings war das Verhalten jederzeit diskret, d.h. wenn eine Mail
> versendet werden konnte, wurde sie auch versendet. Ansonsten gab es auf
> dem Client eine entsprechende Fehlermeldung dass der Mailserver nicht
> erreicht werden kann und man konnte es nochmal probieren.
> 
> Verstaerkt wird der Effekt dadurch dass die DNS Records eine
> Time-to-Life (TTL) von nur 5 Sekunden haben, d.h. ein Client fragt bei
> praktisch jeder Verbindung nochmal neu nach Adressen an. Somit konnte
> ein Client nicht davon profitieren, einmal einen funktionierenden
> Mailserver erwischt zu haben, sondern das "2 aus 10"-Durchprobieren
> faengt (spaetestens) alle 5 Sekunden wieder von vorne an.
> 
> Die Sperrung dieser Server wurde durch die unibe manuell (also nicht
> aufgrund oder Teil eines automatischen Systems) und ohne Kommunikation
> zur BFH vorgenommen. Wir haben darauf ensprechend reagiert, siehe unten.
> 
> 
> 4. Debugging (Drop vs. Reject, resp. Inbound vs. Outbound)
> ==========================================================
> 
> Grundsaetzlich kann man Traffic auf zwei Arten sperren - man kann
> entweder still die Netzwerkpakete verwerfen (drop) oder aktiv
> zurueckweisen (reject).
> 
> In konventionellen Netzen wird haeufig noch gedropt, was dazufuehrt dass
> Netzwerk-Clients in (lange) Timeouts laufen. Dafuer werden die
> Netzwerkgeraete minimal weniger belastet weil ein Verwerfen weniger
> Prozessierungs-Aufwand generiert als ein aktives Zurueckweisen.
> 
> In der heutigen Zeit ist ein drop, ausser in Nischenfaellen von sehr
> grossen Distributed-Denial-of-Service (DDoS) Attacken, nicht mehr
> empfehlenswert und auch nicht mehr noetig. Aktuelle Systeme koennen
> Rejects problemlos abarbeiten. Ein aktives Reject ist daher immer zu
> bevorzugen, weil dadurch unmittelbar die Netzwerkteilnehmer die
> Verbindung abbrechen und Fehler sich sofort bemerkbar machen. Dies
> insbesondere dann wenn mehrere Systeme hintereinander arbeiten, so dass
> sich keine langen Timeout-Ketten bilden koennen.
> 
> Wuerden alle "reject statt drop" machen, waere das Internet (oder das
> jeweilige Teilnetz) fuer alle besser/schneller. Im neuen BFH Netzwerk
> machen wir grundsaetzlich ueberall reject, im alten Netzwerk haben wirs
> seit der Uebernahme im Mai 2020 ueberall dort wo sinnvoll moeglich und
> an den neuralgischen Punkten ebenfalls auf reject umgestellt.
> 
> Analog zu "reject statt drop" wird konventionell leider haeufig auch nur
> eingehender Traffic (inbound) gesperrt, statt beide Richtungen zu
> sperren. Weil dadurch ausgehender Traffic (outbound) zu den gesperrten
> Adressen immer noch moeglich ist, verhaelt es sich fuer alle
> Netzwerkteilnehmer wie bei einem Drop: sie laufen in ein Timeout rein
> weil sie auf die (nicht eintreffende) Antwort warten muessen.
> 
> Wuerden Sperrungen auf Router-Ebene auf inbound und outbound Traffic
> gemacht (auch hier sind heutigen Systeme mehr als nur performant genug,
> Traffic in beide Richtungen sperren zu koennen), waere der Effekt der
> Sperrung der Mailserver gewesen, dass gar kein Mail mehr funktioniert
> haette.
> 
> Das waere zum Debuggen wesentlich einfacher gewesen. Zusammen mit der
> Erwartungshaltung dass wir komplett ungefiltertes Internet von der unibe
> erhalten, haben wir zuerst doppelt-und-dreifach unsere eigenen Systeme
> ausgeschlossen (Firewall, Border, etc.), ein "Rueckwaertskanal"-Problem
> im Peering zwischen Microsoft und SWITCH vermutet (das ist auch das was
> man per traceroute sieht: traffic hin zu MS funktioniert, aber zwischen
> MS und SWITCH kommt nichts mehr zurueck weil MS via SWITCH nicht
> zustellen kann weil unibe nicht annimmt).
> 
> Dashalb haben wir erst als Letztes mit der unibe im Verlauf des Dienstag
> Vormittags Kontakt aufgenommen. Diese haben dann schlussendlich schnell
> reagiert und die Sperrung ensprechend wieder entfernt.
> 
> 
> 5. Massnahmen
> =============
> 
>   * Wir haben der unibe unsere Erwartungshaltung zu ungefiltertem
>     Internet kommuniziert, ebenso die Anforderung nach zeitnaher
>     Kommunikation bei Eingriffen und dem Wunsch nach mehr Feingefuehl
>     bei (vermeintlich legitimen) Sperrungen - die gesperrten Adressen
>     waren klar ersichtlich aus dem Microsoft SaaS Bereich.
> 
>     Wir haben gleichzeitig der unibe auch unseren Dank ausgesprochen
>     fuer die legitimen, temporaeren Sperrung in Notfall-Situationen in
>     den letzten Jahren (DoS, DDoS) und den ansonsten bisher immer sehr
>     guten Service und Zusammenarbeit.
> 
>     unibe wird nun die internen Prozesse ueberarbeiten und uns
>     informieren.
> 
>   * Wir haben die vollstaendige Liste aller gesperrten Adressen und
>     Ports verlangt und erhalten. Wir werden diese in den naechsten Tagen
>     bereinigen (d.h. alles entsperren lassen was nicht gesperrt sein
>     muss; wir haben bereits einige weitere illegitime Sperrungen von
>     Systemen gefunden).
> 
>   * Langfristig: in Hinblick auf den Campus Biel ist eine
>     Diversifizierung der Internet-Anbindung durch einen eigenen,
>     separaten Internet-Aufgang im dort neu aufzubauenden Rechenzentrum
>     in Biel vorgesehen.
> 
>     Dadurch kann nicht nur eine Performance-Verbesserung fuer die
>     Standorte in Biel erreicht werden, sondern auch eine Verbesserung
>     fuer die Gesamt-BFH durch Provider-Unabhaengigkeit und oertliche
>     Redundanz geschaffen werden.
> 
> 
> 6. Fun Fact
> ===========
> 
> Die Sperrung der Microsoft Mailserver hat nich nur die BFH betroffen,
> sondern neben der unibe (definitiv) selbst auch (vermutlich) alle der
> unibe Internet-anbindungstechnisch angehaengten Institutionen wie PH
> Bern und das Insel Spital.
> 
> Die Einschraenkung war fuer alle Teilnehmenden gleichermassen
> verheerend. Trotzdem waren wir offenbar die ersten die den Effekt der
> Sperrung bemerkt haben. Ob wir die Ersten sind die grossflaechig auf
> Exchange Online setzen, oder ob alle in den Ferien oder im Homeoffice
> sind, oder einfach keine E-Mails lesen/verschicken.. wissen wir
> natuerlich nicht :)
> 
> 
> Wir danken fuer euer Verstaendnis.
> 
> Gruesse,
> Daniel
> 


More information about the bfh-linux-users mailing list