Ausfall eines Nexus-Switches im RZ Bern

Daniel Baumann daniel.baumann at bfh.ch
Tue Mar 29 07:49:06 CEST 2022


Hallo zusammen


1. Kurzfassung
==============

  * Gestern ging einer der zentralen Cisco-Switches im "alten" RZ Teil
    in Bern (Bedag, Cage-B) kaputt.

  * Obwohl der Switch ausserhalb jeglicher Garantie ist, haben wir es
    dennoch geschafft, einen Leih-Ersatz zu beschaffen.

  * Das Leihgeraet wird heute morgen ab 9 Uhr eingebaut. Wir erwarten
    keinen Netzwerk-Unterbruch.

  * Durch den Nexus Ausfall ist "nur" BFH.ch betroffen, d.h. u.a. alle
    NetApp/VMware Systeme des Teams MSC und die Basisdienste in BFH.ch
    von Team LNI.

  * Da alle Systeme redundant auf die zwei Nexus-Switches angeschlossen
    sind, sind alle Dienste weiterhin erreichbar, allerdings nur mit
    halber Netzwerk-Performance und ohne Netzwerk-Redundanz.


2. Hintergrund
==============

2.1 Ausgangslage
----------------

  * Im Cage-B ("altes RZ") in der Bedag in Bern gibt es zwei Cisco Nexus
    Switches aus 2011, welche zusammen mit Fabric-Extendern (aka FEX;
    nur Ports ohne Logik, analog einer "Steckdosenleiste") das gesamte
    BFH.ch RZ im Cage-B mit Netzwerk versorgen.

    Die Nexus (+FEX) Switches (= East-West Traffic) sind an die beiden
    Cisco 6500er Core Router (= North-South Traffic) angeschlossen und
    bilden so den Access/Distribution/Core Layer des traditionellen RZ-
    Aufbaus.

  * Einer dieser zwei Nexus ist gestern von uns gegangen. Die letzten
    Garantieleistungen sind letztes Jahr abgelaufen und nicht
    verlaengerbar (weil komplettes EOL der Plattform erreicht).

  * Weil wir im Dezember 2020 proaktiv noch ein paar Altlasten aus der
    Vergangenheit korrigiert haben resp. Geraete besser
    verteilt/umgesteckt haben, sind alle Geraete im Cage-B auf beide
    Nexus verteilt.

    Dadurch ist trotz des gestrigen Nexus-Ausfalls kein Dienst, ausser
    VPNext, ausgefallen. VPNext besteht aus nur einer Appliance mit nur
    einem Netzwerkanschluss. Wir haben VPNext danach manuell
    auf den anderen, noch funktionierenden Nexus migriert.

  * Solange diese Situation anhaelt, sind alle Systeme in BFH.ch in
    Cage-B erreichbar, aber haben nur halbe Netzwerk-Performance und
    keine Netzwerk-Redundanz.

    Dies betrifft neben MSC (NetApp, VMware, Exchange, A10, ..) auch LNI
    (jedoch nur die Basis-Dienste in BFH.ch).


2.2 Weiteres Vorgehen
---------------------

  * Gestern kurz vor Mitternacht konnten wir einen Leih-Nexus von
    am Dammweg in Empfang nehmen.

  * Heute ab 09:00 wird dieser in der Bedag eingebaut, Firmware-
    aktualsiert, mit der alten Konfiguration des toten Nexus versehen
    und wieder in den VSS-Verbund mit dem noch funktionierenden Nexus
    gebracht.

  * Da es im Dezember 2020 schon einige Probleme mit dem
    Wiederherstellen des VSS-Verbund gab...

    (vergl. u.a.

https://lists.bfh.science/pipermail/bfh-linux-announce/2020-December/000093.html)

    ...macht dies Sinn dass das das Firmware-Upgraden und Zusammenfuegen
    durch einen externen Cisco-Partner mit ensprechender
    Betriebserfahrung durchgefuehrt wird (unsere Kernkompetenz im
    Bereich Netzwerk ist ja Arista und SDN).

  * Wir erwarten keine Unterbrueche im Netz durch diesen Ersatz und den
    damit zusammenhaengenden Arbeiten.


2.3 Konsequenzen
----------------

  * Es gibt ein paar zeitliche Mehraufwaende und Verzoegerungen auf
    unserer Seite (weil wir waehrend dem nicht weiter am neuen Netz
    arbeiten koennen; wir sind gerade am ansonsten planmaessigen
    Abschluss des neuen Netzes in Cage-B).

  * Wieviel die Leihgabe des Nexus kosten wird, wird erst in den
    naechsten Tagen noch festgelegt werden, wird aber in der Branchen-
    ueblichen Groessenordnung zu erwarten sein.

  * Die Leihgabe wird nur fuer eine beschraenkte Zeit moeglich sein,
    es ist weiterhin Mission-critical, die Netzwerk-Migration
    im RZ bis Ende Juni abschliessen zu koennen.

  * Wiedereinmal hatten wir Glueck im Unglueck: waere ein Core-Switch
    kaputt gegangen (die schon 2 resp. 6 Jahre komplett EOL sind),
    haetten wir nicht so schnell oder ueberhaupt einen Ersatz auftreiben
    koennen.

    Nexus sind die alten "Brot-und-Butter"-Switches in einem Cisco-RZ,
    von denen gibts noch wenige im "Umlauf".


2.4 Verworfene Alternativen
---------------------------

  a) Cage-B nicht-redundant weiterlaufen lassen (und hohes Ausfallrisiko
     des gleichalten zweiten Nexus in Kauf nehmen).

  b) Ein Nexus in Biel ausbauen und nach Bern bringen. Dann waere
     Bern wieder redundant gewesen, dafuer Biel nicht mehr.

  c) Alle Nexus+FEX durch Arista ersetzen mit aufwaendiger,
     manueller Konfigurations-Umschreiberei - um sie dann Ende Juni
     gleich wieder ausbauen zu muessen. Haette grosse Verzoegerungen
     bei Cage-B, dem weiteren Fabric-Aufbau und schlussendlich
     dem Standort-Lifecycle gebracht.

Gruesse,
Daniel

-- 
Berner Fachhochschule / Bern University of Applied Sciences
Services / IT-Services
Daniel Baumann
Teamleiter Linux & Infrastructure Services
___________________________________________________________
Dammweg 3, CH-3013 Bern
Telefon direkt +41 31 848 48 22
Telefon Servicedesk +41 31 848 48 48
daniel.baumann at bfh.ch
https://bfh.ch
https://bfh.science


More information about the bfh-linux-announce mailing list