2h CephFS Ausfall gestern (Kurzfassung)

Daniel Baumann daniel.baumann at bfh.ch
Thu May 11 07:01:53 CEST 2017


Hallo zusammen,

da es gestern nicht mehr gereicht hat fuer den detailierten
"post-mortem"-Bericht und ich heute frei habe, hier nur die Kurzfassung:

  * wir hatten gestern einen CephFS-Ausfall zwischen 16:08 und 17:59

  * waehrend dieser Zeit waren moodle.bfh.ch sowie unsere beiden Number
    Cruncher (mit insgesammt 26 LFE Containern und
    rstudio.linux.bfh.ch) offline.

  * Grund: durch synchroniseren eines grossen (= viele kleine Dateien)
    NetApp Shares auf CephFS haben wir einen seltenen Bug im Ceph
    Metadatan-Server (MDS) getriggert.

  * Dieser Bug ist in der naechsten Ceph Version (luminous) vom
    naechsten Herbst bereits behoben.

  * Der Ceph Cluster war unbeintraechtigt, "nur" die CephFS-
    Funktionialitaet.

  * Datenintegritaet war und ist jederzeit gewaehrleistet.

Wir entschuldigen uns fuer den Unterbruch.

Gruesse,
Daniel

-- 
Berner Fachhochschule / Bern University of Applied Sciences
IT-Services / Team Infrastructure Services
Daniel Baumann
IT System Engineer Linux
___________________________________________________________
Dammweg 3, CH-3013 Bern
Phone direct +41 31 848 48 22
Phone Servicedesk +41 31 848 48 48
daniel.baumann at bfh.ch
https://servicedesk.bfh.ch
https://www.bfh.ch
https://linux.bfh.ch


More information about the bfh-linux-announce mailing list