Informationen zum Teilausfall Netzwerk Biel

Daniel Baumann daniel.baumann at bfh.ch
Tue Jan 19 17:59:21 CET 2021


Hallo zusammen

Hier der aktuelle Stand zum Teilausfall Netzwerk in Biel.

Kurzfassung
===========

  * HKB - Burggasse 27 (JAKO): Gesamtstandort ist weiterhin offline
    (LAN und WLAN), wird im Verlauf vom Mittwoch wieder online sein.

  * TI/SIP - Aarbergstrasse 5 (AARB): Halbes Erdgeschoss ist weiterhin
    offline, betrifft ca. die Haelfte der Bueros, wird im Verlauf vom
    Mittwoch wieder online sein.


Hintergrund
===========

1. Ausgangslage
---------------

  * Der Netzwerk-Corerouter (Cisco 6500er) im Rechenzentrum Biel hat ein
    End-of-Sale (EOS) 2013-07 und End-of-Life (EOL) 2016-01. Der Router
    hat zwei Linecards mit je 16x 10gb/s Anschluessen.

  * Auf diesen Linecards (vergleichbar mit einer "Netzwerkkarte") sind
    alle Standorte in Biel sowie die Verbindungen nach Bern redundant
    angeschlossen, ausgenommen:

    - HKB - Burggasse 27 (JAKO): Gesamtstandort ist nur mit einem Link
      auf einer Linecard angeschlossen

    - TI/SIP - Aarbergstrasse 5 (AARB): Im Erdgeschoss hats zwei
      Switches, davon ist je einer mit nur einem Link auf eine der
      Linecards angeschlossen

  * Am vergangenen Sonntag ist um 21:03 eine Linecard ausgefallen.
    Die Linecards haben ein EOS 2015-07 und EOL 2018-07.

  * Da das ensprechende System als Ganzes und die Linecards im
    speziellen also schon lange nicht mehr verfuegbar sind, haben
    wir ein Problem. :)

  * Irrtuemlicherweise wurde die Linecard im letzten Inventar-
    Auszug unseres Cisco-Hardware-Partners noch als "unter Wartung"
    gelistet, weshalb wir am Montag davon ausgegangen sind, einen
    "normalen" Garantieaustausch machen zu koennen.


2. Einschraenkungen und Auswirkungen
------------------------------------

  * Solange die Linecard nicht ersetzt ist, sind alle Standorte in Biel
    nur mit maximal einem Link angeschlossen, d.h.:

    - halbe Bandbreite
    - hoehere Latenz
    - keine Redundanz (es haengt jetzt alles an einer EOL-Netzwerkkarte)

  * Ausserdem sind mind. ein Link nach Bern (der nicht redundant ist)
    und fuers off-site Backup der NetApp Snapshots von Bern nach Biel
    benutzt wird, offline. D.h. das fuer den Disastery-Fall gibts keine
    Backups fuer diesen Zeitraum in Biel vorliegend (letzter Stand
    fuer ein Recovery im Disastery-Fall duerfte also letzter Samstag
    sein).


3. Varianten
------------

  * wir haben gestern morgen die RMA fuer die kaputte Linecard beantragt
    und heute morgen die tatsaechliche EOS/EOL Situation mitgeteilt
    bekommen.

  * da der ordentliche Garantieaustausch nicht moeglich ist, haben wir
    seither alle moeglichen Varianten durchgeprueft...

    - irgendwelche anderen verwendbaren Ersatzteile im BFH Lager:
      -> negativ

    - kompatible 1:1 Ersatzbeschaffung:
      -> nur "ohne Garantie/Gewaehr" ab 300.- bis 1'000.-
      -> Lieferzeiten mind. 4-5 Arbeitstage

    - kompatible nicht-1:1 Ersatzbeschaffung der Nachfolge Linecard
      (auch schon lange EOS/EOL):
      -> nur "ohne Garantie/Gewaehr" ab 1'000.-
      -> Lieferzeiten mind. 4-5 Arbeitstage

    - Leihgabe:
      -> durch Privatkontakte kann uns eine Uni aus Norddeutschland
         helfen und leiht uns eine 1:1 Ersatzkarte kostenlos aus,
         Lieferzeit 1-2 Arbeitstage

  * ...sowie:

    - Umhaengen aller Anschluesse vom Core auf den Datacenter-Switch
      (Nexus):
      -> waere moeglich, allerdings muesste dann der Nexus an die
         einzige verbliebene Linecard auf dem Core angeschlossen werden,
         bringt also bzgl. Redundanz nichts.

    - sofortiger funktionaler Ersatz des Cores durch zwei Arista
      Switches die wir im neuen Cage in Bern ausbauen koennten:
      -> waere theoretisch moeglich, wuerde aber aufgrund der
         Lieferfristen den gesamten Umbau des Rechenzentrums in Bern um
         3 bis 6 Monate nach hinten schieben weil wir dann dort dann auf
         die Lieferung der "Ersatzbestellung" warten muessten.
      -> dadurch wuerde der Life Cycle der gesamten Linux Server-
         Hardware (welcher im 2020 faellig war, aber wegen Netz/WLAN-
         Arbeiten auf 2021 verschoben werden musste), gefaehrlich
         nochmal weiter nach hinten verschoben, und, wir fahren im
         Moment aufgrund des RZ-Umbaus eh schon nur noch mit 2/3
         Kapazitaet der Linux-Server und muessten noch mehr Services
         runterfahren/einschraenken).


4. Plan
-------

  * alle obigen Varianten sind schlecht weil in keinem ein stabiler
    Gesamtzustand erreicht werden kann.

  * wir haben uns fuer das am wenigsten Schlechteste entschieden:

    - Leihgabe der Ersatzkarte der Uni aus Deutschland weil schnell

    - Ersatzbeschaffung einer zusaetzlichen Karte damit wir eine Reserve
      haben (die andere, jetzt noch funktionierende Karte machts u.U. ja
      auch nicht mehr lange), der alte Core Biel muss aber bis zur
      Abloesung im Juni/Juli noch weiterlaufen.

    - gleichzeitiges, sofortige "fruehzeitige" Ausloesen der Bestellung
      von zwei Arista Switches aus der Tranche "Ersatz Core Biel"-
      Bestellung.

    - da fuer die beiden Standorte welche offline sind, wir nicht bis
      zum Eintreffen der Leihgabe warten wollen, werden wir morgen
      im Verlauf des Tages nur diese beiden Standorte auf den Nexus
      umhaengen und umrouten.

  * so koennen wir mit der alten Hardware, die hoffentlich bis zur
    Abschaltung im Sommer noch haelt, die Verbindungen wieder aufbauen
    und es sind ab Morgen vorlaeufig alle Standorte wieder online.

  * sollten beide Karten und die Ersatzkarte vor der Abloesung des Cores
    kaputt gehen, koennten wir mit den zwei "fruehzeitigen" Arista
    Switches die dann hoffentlich schnell(er) geliefert werden koennen
    als der Rest der "Ersatz Core Biel"-Tranche, eine "Notfallaktion"
    machen und den Core provisorisch ersetzen, ohne dass wir Switches in
    Bern rausreissen muessen, und den ordentlichen Ersatz des Cores dann
    wie im Moment vorgesehen im Juni/Juli angehen.

Gruesse,
Daniel

-- 
Berner Fachhochschule / Bern University of Applied Sciences
Services / IT-Services
Daniel Baumann
Teamleiter Linux & Infrastructure Services
___________________________________________________________
Dammweg 3, CH-3013 Bern
Telefon direkt +41 31 848 48 22
Telefon Servicedesk +41 31 848 48 48
daniel.baumann at bfh.ch
https://bfh.ch
https://bfh.science


More information about the bfh-linux-announce mailing list