Informationen zum Teilausfall Netzwerk Biel
Daniel Baumann
daniel.baumann at bfh.ch
Tue Jan 19 17:59:21 CET 2021
Hallo zusammen
Hier der aktuelle Stand zum Teilausfall Netzwerk in Biel.
Kurzfassung
===========
* HKB - Burggasse 27 (JAKO): Gesamtstandort ist weiterhin offline
(LAN und WLAN), wird im Verlauf vom Mittwoch wieder online sein.
* TI/SIP - Aarbergstrasse 5 (AARB): Halbes Erdgeschoss ist weiterhin
offline, betrifft ca. die Haelfte der Bueros, wird im Verlauf vom
Mittwoch wieder online sein.
Hintergrund
===========
1. Ausgangslage
---------------
* Der Netzwerk-Corerouter (Cisco 6500er) im Rechenzentrum Biel hat ein
End-of-Sale (EOS) 2013-07 und End-of-Life (EOL) 2016-01. Der Router
hat zwei Linecards mit je 16x 10gb/s Anschluessen.
* Auf diesen Linecards (vergleichbar mit einer "Netzwerkkarte") sind
alle Standorte in Biel sowie die Verbindungen nach Bern redundant
angeschlossen, ausgenommen:
- HKB - Burggasse 27 (JAKO): Gesamtstandort ist nur mit einem Link
auf einer Linecard angeschlossen
- TI/SIP - Aarbergstrasse 5 (AARB): Im Erdgeschoss hats zwei
Switches, davon ist je einer mit nur einem Link auf eine der
Linecards angeschlossen
* Am vergangenen Sonntag ist um 21:03 eine Linecard ausgefallen.
Die Linecards haben ein EOS 2015-07 und EOL 2018-07.
* Da das ensprechende System als Ganzes und die Linecards im
speziellen also schon lange nicht mehr verfuegbar sind, haben
wir ein Problem. :)
* Irrtuemlicherweise wurde die Linecard im letzten Inventar-
Auszug unseres Cisco-Hardware-Partners noch als "unter Wartung"
gelistet, weshalb wir am Montag davon ausgegangen sind, einen
"normalen" Garantieaustausch machen zu koennen.
2. Einschraenkungen und Auswirkungen
------------------------------------
* Solange die Linecard nicht ersetzt ist, sind alle Standorte in Biel
nur mit maximal einem Link angeschlossen, d.h.:
- halbe Bandbreite
- hoehere Latenz
- keine Redundanz (es haengt jetzt alles an einer EOL-Netzwerkkarte)
* Ausserdem sind mind. ein Link nach Bern (der nicht redundant ist)
und fuers off-site Backup der NetApp Snapshots von Bern nach Biel
benutzt wird, offline. D.h. das fuer den Disastery-Fall gibts keine
Backups fuer diesen Zeitraum in Biel vorliegend (letzter Stand
fuer ein Recovery im Disastery-Fall duerfte also letzter Samstag
sein).
3. Varianten
------------
* wir haben gestern morgen die RMA fuer die kaputte Linecard beantragt
und heute morgen die tatsaechliche EOS/EOL Situation mitgeteilt
bekommen.
* da der ordentliche Garantieaustausch nicht moeglich ist, haben wir
seither alle moeglichen Varianten durchgeprueft...
- irgendwelche anderen verwendbaren Ersatzteile im BFH Lager:
-> negativ
- kompatible 1:1 Ersatzbeschaffung:
-> nur "ohne Garantie/Gewaehr" ab 300.- bis 1'000.-
-> Lieferzeiten mind. 4-5 Arbeitstage
- kompatible nicht-1:1 Ersatzbeschaffung der Nachfolge Linecard
(auch schon lange EOS/EOL):
-> nur "ohne Garantie/Gewaehr" ab 1'000.-
-> Lieferzeiten mind. 4-5 Arbeitstage
- Leihgabe:
-> durch Privatkontakte kann uns eine Uni aus Norddeutschland
helfen und leiht uns eine 1:1 Ersatzkarte kostenlos aus,
Lieferzeit 1-2 Arbeitstage
* ...sowie:
- Umhaengen aller Anschluesse vom Core auf den Datacenter-Switch
(Nexus):
-> waere moeglich, allerdings muesste dann der Nexus an die
einzige verbliebene Linecard auf dem Core angeschlossen werden,
bringt also bzgl. Redundanz nichts.
- sofortiger funktionaler Ersatz des Cores durch zwei Arista
Switches die wir im neuen Cage in Bern ausbauen koennten:
-> waere theoretisch moeglich, wuerde aber aufgrund der
Lieferfristen den gesamten Umbau des Rechenzentrums in Bern um
3 bis 6 Monate nach hinten schieben weil wir dann dort dann auf
die Lieferung der "Ersatzbestellung" warten muessten.
-> dadurch wuerde der Life Cycle der gesamten Linux Server-
Hardware (welcher im 2020 faellig war, aber wegen Netz/WLAN-
Arbeiten auf 2021 verschoben werden musste), gefaehrlich
nochmal weiter nach hinten verschoben, und, wir fahren im
Moment aufgrund des RZ-Umbaus eh schon nur noch mit 2/3
Kapazitaet der Linux-Server und muessten noch mehr Services
runterfahren/einschraenken).
4. Plan
-------
* alle obigen Varianten sind schlecht weil in keinem ein stabiler
Gesamtzustand erreicht werden kann.
* wir haben uns fuer das am wenigsten Schlechteste entschieden:
- Leihgabe der Ersatzkarte der Uni aus Deutschland weil schnell
- Ersatzbeschaffung einer zusaetzlichen Karte damit wir eine Reserve
haben (die andere, jetzt noch funktionierende Karte machts u.U. ja
auch nicht mehr lange), der alte Core Biel muss aber bis zur
Abloesung im Juni/Juli noch weiterlaufen.
- gleichzeitiges, sofortige "fruehzeitige" Ausloesen der Bestellung
von zwei Arista Switches aus der Tranche "Ersatz Core Biel"-
Bestellung.
- da fuer die beiden Standorte welche offline sind, wir nicht bis
zum Eintreffen der Leihgabe warten wollen, werden wir morgen
im Verlauf des Tages nur diese beiden Standorte auf den Nexus
umhaengen und umrouten.
* so koennen wir mit der alten Hardware, die hoffentlich bis zur
Abschaltung im Sommer noch haelt, die Verbindungen wieder aufbauen
und es sind ab Morgen vorlaeufig alle Standorte wieder online.
* sollten beide Karten und die Ersatzkarte vor der Abloesung des Cores
kaputt gehen, koennten wir mit den zwei "fruehzeitigen" Arista
Switches die dann hoffentlich schnell(er) geliefert werden koennen
als der Rest der "Ersatz Core Biel"-Tranche, eine "Notfallaktion"
machen und den Core provisorisch ersetzen, ohne dass wir Switches in
Bern rausreissen muessen, und den ordentlichen Ersatz des Cores dann
wie im Moment vorgesehen im Juni/Juli angehen.
Gruesse,
Daniel
--
Berner Fachhochschule / Bern University of Applied Sciences
Services / IT-Services
Daniel Baumann
Teamleiter Linux & Infrastructure Services
___________________________________________________________
Dammweg 3, CH-3013 Bern
Telefon direkt +41 31 848 48 22
Telefon Servicedesk +41 31 848 48 48
daniel.baumann at bfh.ch
https://bfh.ch
https://bfh.science
More information about the bfh-linux-announce
mailing list