Ausfall mehrere Server / Stromausfall im Rechenzentrum

Incident Report for rackSPEED GmbH

Postmortem

Wir entschuldigen uns ausdrücklich für diese Probleme und versichern, dass dies nicht der Servicelevel ist den wir liefern möchten und für den wir seit 10 Jahren bekannt sind.

Was geschah:

Gegen 19:50 informierte unser Monitoring uns über den spontanen Ausfall vieler Server, bereits wenige Minuten später waren bereits 80% der Server und Dienstleistungen wieder erreichbar.

Eine genaue Untersuchung der Logs hat gezeigt, dass die HA-Funktionen des Clusters fehlerhafte Informationen geliefert haben und daraufhin automatische Neustarts der Virtualisierungsplattform ausgeführt wurden was letztendlich zum Ausfall der darauf laufenden VMs geführt hat.

Das System hat so schnell gearbeitet, dass für uns zu diesem Zeitpunkt alles nach einem Stromausfall im Rechenzentrum aussah. Etwas später stellte sich allerdings heraus, dass einige Server nicht neugestartet wurden was einen Stromausfall als Ursache ausschließt. - Wir sind bemüht zeitnah die vorliegenden Informationen zu kommunizieren und bitten daher die Falschinformation in der Statusmeldung zu entschuldigen.

Da ausgerechnet die Funktion die für hohe Verfügbarkeit sorgen soll diese Probleme verursacht hat, haben wir den Hersteller hinzugezogen und um Unterstützung gebeten. Dieser bestätigte gestern Morgen, dass in der von uns genutzten Version ein Softwarefehler existiert der unter bestimmten Umständen „aktiv“ wird was genau diese Probleme verursacht.

Was wir dagegen unternehmen:

Wir haben daher bereits gestern damit begonnen erste Maßnahmen zu ergreifen, dazu zählen unter anderem:

Vorbereitung der Deaktivierung der HA-Funktionen im gesamten Cluster
Vorbereitung der Updates auf die vom Hersteller empfohlene Version
Isolation von 2 Virtualisierungsnodes die im Verdacht stehen mit dem Problem zu tun zu haben

Heute Nacht werden wir die HA-Funkionen tief im System deaktivieren damit weitere automatische Neustarts definitiv unterbunden werden.

Des Weiteren werden wir in den kommenden Tagen die Updates der Nodes vorbereiten indem wir die virtuellen Maschinen im laufenden Betrieb verschieben um anschließend die Updates einspielen zu können. Aufgrund der Vielzahl an VMs und der Clustergröße haben wir für diese Aktion 7 Tage angesetzt, entsprechende Wartungsarbeiten haben wir auf unserer Statusseite http://status.rackspeed.de/ bereits angekündigt.

Bereits gestern haben wir damit begonnen unser Monitoring zu erweitern da wir am Wochenende leider feststellen mussten, dass uns die Erreichbarkeit der Datenbank bestätigt wurde obwohl diese nicht sauber hochgefahren wurde. Ursache war ein fehlendes InnoDB-Plugin, dass von aktueller Software wie Magento und Shopware benötigt wird.

Wie sehen die nächsten Tage aus?

Wir verstehen, dass die o.g. Informationen für „Nicht-Techniker“ evtl. bedrohlich oder vielleicht nach einem großen sogar unlösbaren Problem klingen. Dennoch möchten wir mit größtmöglicher Transparenz das verlorene Vertrauen zurückgewinnen und Ihnen zeigen, dass diesen Problemen kein menschliches Versagen oder mangelnder Qualitätsanspruch zu Grunde liegt.

Ebenfalls können wir an dieser Stelle Hacker- oder andere Angriffe auf unsere Infrastruktur zu 100% ausschließen, es handelt sich bei den o.g. Problemen nachweislich um einen Softwarefehler.

Da wir bis zum kompletten Update des Clusters weitere spontane Neustarts nicht ganz ausschließen können sind neben der Bereitschaft alle Mitarbeiter in den kommenden 7 Tagen Standby. Sollte es zu Problemen kommen versprechen wir, dass bereits das Ganze Team damit beschäftigt ist den Servern Starthilfe zu geben und die Beeinträchtigung möglichst gering zu halten.

Unsere Mission

Es ist unsere Pflicht, unseren Kunden ausgezeichnete Dienstleistungen und die technische Qualität zu liefern die Sie von uns erwarten und vor allem gewohnt sind. Wir sind uns bewusst, wie wichtig unsere Dienstleistungen für unsere Kunden sind.

Wir möchten uns daher bei ihnen nochmals aufrichtig für diese Störungen entschuldigen und versichern, dass wir alles geben werden das verlorene Vertrauen zurück zugewinnen.

Mit freundlichen Grüßen, Ihr rackSPEED Team!

Posted May 09, 2018 - 19:27 CEST

Resolved

Alle Server und Dienste sind wieder online und arbeiten mit gewohnter Performance. Zur genauen Ursache werden wir separat berichten. - Für die entstandenen Unannehmlichkeiten bitten wir ausdrücklich um Entschuldigung.

Posted May 04, 2018 - 21:09 CEST

Monitoring

Die meisten Server sind bereits gestartet und arbeiten wieder wie erwartet, derzeit noch etwas langsam aber dies bessert sich in Kürze. Die Last auf den Storage Nodes sinkt bereits wieder. - Update folgt.

Posted May 04, 2018 - 20:17 CEST

Identified

Ursache des Problems war ein kurzer Stromausfall im Rechenzentrum. Derzeit starten alle Server wieder, durch die extrem hohe Last auf den Storage Systemen dauert dies etwas. - Update folgt.

Posted May 04, 2018 - 20:01 CEST

Investigating

Derzeit verzeichnen wir einen Ausfall mehrerer Server, wir untersuchen die Sache gerade

Posted May 04, 2018 - 19:50 CEST

This incident affected: rackSPEED Services (kunden.rackspeed.de, rackspeed.de, VoIP - Telefonanlage) and Virtualisierung Plattform, SSD Hosting Server, SSD CloudServer, Business Mailserver, Elasticsearch, Backup Server.