2h CephFS Ausfall gestern (Kurzfassung)
Daniel Baumann
daniel.baumann at bfh.ch
Thu May 11 07:01:53 CEST 2017
Hallo zusammen,
da es gestern nicht mehr gereicht hat fuer den detailierten
"post-mortem"-Bericht und ich heute frei habe, hier nur die Kurzfassung:
* wir hatten gestern einen CephFS-Ausfall zwischen 16:08 und 17:59
* waehrend dieser Zeit waren moodle.bfh.ch sowie unsere beiden Number
Cruncher (mit insgesammt 26 LFE Containern und
rstudio.linux.bfh.ch) offline.
* Grund: durch synchroniseren eines grossen (= viele kleine Dateien)
NetApp Shares auf CephFS haben wir einen seltenen Bug im Ceph
Metadatan-Server (MDS) getriggert.
* Dieser Bug ist in der naechsten Ceph Version (luminous) vom
naechsten Herbst bereits behoben.
* Der Ceph Cluster war unbeintraechtigt, "nur" die CephFS-
Funktionialitaet.
* Datenintegritaet war und ist jederzeit gewaehrleistet.
Wir entschuldigen uns fuer den Unterbruch.
Gruesse,
Daniel
--
Berner Fachhochschule / Bern University of Applied Sciences
IT-Services / Team Infrastructure Services
Daniel Baumann
IT System Engineer Linux
___________________________________________________________
Dammweg 3, CH-3013 Bern
Phone direct +41 31 848 48 22
Phone Servicedesk +41 31 848 48 48
daniel.baumann at bfh.ch
https://servicedesk.bfh.ch
https://www.bfh.ch
https://linux.bfh.ch
More information about the bfh-moodle-announce
mailing list