Ausfall eines Nexus-Switches im RZ Bern
Daniel Baumann
daniel.baumann at bfh.ch
Tue Mar 29 07:49:06 CEST 2022
Hallo zusammen
1. Kurzfassung
==============
* Gestern ging einer der zentralen Cisco-Switches im "alten" RZ Teil
in Bern (Bedag, Cage-B) kaputt.
* Obwohl der Switch ausserhalb jeglicher Garantie ist, haben wir es
dennoch geschafft, einen Leih-Ersatz zu beschaffen.
* Das Leihgeraet wird heute morgen ab 9 Uhr eingebaut. Wir erwarten
keinen Netzwerk-Unterbruch.
* Durch den Nexus Ausfall ist "nur" BFH.ch betroffen, d.h. u.a. alle
NetApp/VMware Systeme des Teams MSC und die Basisdienste in BFH.ch
von Team LNI.
* Da alle Systeme redundant auf die zwei Nexus-Switches angeschlossen
sind, sind alle Dienste weiterhin erreichbar, allerdings nur mit
halber Netzwerk-Performance und ohne Netzwerk-Redundanz.
2. Hintergrund
==============
2.1 Ausgangslage
----------------
* Im Cage-B ("altes RZ") in der Bedag in Bern gibt es zwei Cisco Nexus
Switches aus 2011, welche zusammen mit Fabric-Extendern (aka FEX;
nur Ports ohne Logik, analog einer "Steckdosenleiste") das gesamte
BFH.ch RZ im Cage-B mit Netzwerk versorgen.
Die Nexus (+FEX) Switches (= East-West Traffic) sind an die beiden
Cisco 6500er Core Router (= North-South Traffic) angeschlossen und
bilden so den Access/Distribution/Core Layer des traditionellen RZ-
Aufbaus.
* Einer dieser zwei Nexus ist gestern von uns gegangen. Die letzten
Garantieleistungen sind letztes Jahr abgelaufen und nicht
verlaengerbar (weil komplettes EOL der Plattform erreicht).
* Weil wir im Dezember 2020 proaktiv noch ein paar Altlasten aus der
Vergangenheit korrigiert haben resp. Geraete besser
verteilt/umgesteckt haben, sind alle Geraete im Cage-B auf beide
Nexus verteilt.
Dadurch ist trotz des gestrigen Nexus-Ausfalls kein Dienst, ausser
VPNext, ausgefallen. VPNext besteht aus nur einer Appliance mit nur
einem Netzwerkanschluss. Wir haben VPNext danach manuell
auf den anderen, noch funktionierenden Nexus migriert.
* Solange diese Situation anhaelt, sind alle Systeme in BFH.ch in
Cage-B erreichbar, aber haben nur halbe Netzwerk-Performance und
keine Netzwerk-Redundanz.
Dies betrifft neben MSC (NetApp, VMware, Exchange, A10, ..) auch LNI
(jedoch nur die Basis-Dienste in BFH.ch).
2.2 Weiteres Vorgehen
---------------------
* Gestern kurz vor Mitternacht konnten wir einen Leih-Nexus von
am Dammweg in Empfang nehmen.
* Heute ab 09:00 wird dieser in der Bedag eingebaut, Firmware-
aktualsiert, mit der alten Konfiguration des toten Nexus versehen
und wieder in den VSS-Verbund mit dem noch funktionierenden Nexus
gebracht.
* Da es im Dezember 2020 schon einige Probleme mit dem
Wiederherstellen des VSS-Verbund gab...
(vergl. u.a.
https://lists.bfh.science/pipermail/bfh-linux-announce/2020-December/000093.html)
...macht dies Sinn dass das das Firmware-Upgraden und Zusammenfuegen
durch einen externen Cisco-Partner mit ensprechender
Betriebserfahrung durchgefuehrt wird (unsere Kernkompetenz im
Bereich Netzwerk ist ja Arista und SDN).
* Wir erwarten keine Unterbrueche im Netz durch diesen Ersatz und den
damit zusammenhaengenden Arbeiten.
2.3 Konsequenzen
----------------
* Es gibt ein paar zeitliche Mehraufwaende und Verzoegerungen auf
unserer Seite (weil wir waehrend dem nicht weiter am neuen Netz
arbeiten koennen; wir sind gerade am ansonsten planmaessigen
Abschluss des neuen Netzes in Cage-B).
* Wieviel die Leihgabe des Nexus kosten wird, wird erst in den
naechsten Tagen noch festgelegt werden, wird aber in der Branchen-
ueblichen Groessenordnung zu erwarten sein.
* Die Leihgabe wird nur fuer eine beschraenkte Zeit moeglich sein,
es ist weiterhin Mission-critical, die Netzwerk-Migration
im RZ bis Ende Juni abschliessen zu koennen.
* Wiedereinmal hatten wir Glueck im Unglueck: waere ein Core-Switch
kaputt gegangen (die schon 2 resp. 6 Jahre komplett EOL sind),
haetten wir nicht so schnell oder ueberhaupt einen Ersatz auftreiben
koennen.
Nexus sind die alten "Brot-und-Butter"-Switches in einem Cisco-RZ,
von denen gibts noch wenige im "Umlauf".
2.4 Verworfene Alternativen
---------------------------
a) Cage-B nicht-redundant weiterlaufen lassen (und hohes Ausfallrisiko
des gleichalten zweiten Nexus in Kauf nehmen).
b) Ein Nexus in Biel ausbauen und nach Bern bringen. Dann waere
Bern wieder redundant gewesen, dafuer Biel nicht mehr.
c) Alle Nexus+FEX durch Arista ersetzen mit aufwaendiger,
manueller Konfigurations-Umschreiberei - um sie dann Ende Juni
gleich wieder ausbauen zu muessen. Haette grosse Verzoegerungen
bei Cage-B, dem weiteren Fabric-Aufbau und schlussendlich
dem Standort-Lifecycle gebracht.
Gruesse,
Daniel
--
Berner Fachhochschule / Bern University of Applied Sciences
Services / IT-Services
Daniel Baumann
Teamleiter Linux & Infrastructure Services
___________________________________________________________
Dammweg 3, CH-3013 Bern
Telefon direkt +41 31 848 48 22
Telefon Servicedesk +41 31 848 48 48
daniel.baumann at bfh.ch
https://bfh.ch
https://bfh.science
More information about the bfh-linux-announce
mailing list