Verbindungsprobleme einiger Server
Incident Report for rackSPEED GmbH
Postmortem

Nach ausführlicher Untersuchung unserer Infrastruktur und des Ausfalls am vergangenen Samstag konnten unsere Techniker das Geschehen in großen Teilen rekonstruieren.

Gegen 07:29 versandte unser Monitoring die ersten Ausfallmeldungen an unsere Bereitschaft, diese hat sich sofort an die Analyse des Problems gemacht. Aufgrund der massiven Störung wurden gegen 08:00 weitere Techniker direkt ins Rechenzentrum bestellt.

Gegen 08:18 haben wir die Ursache gefunden und gelöst, so dass in weniger als einer Stunde gegen 08:31 bereits 95% der VMs wieder online waren.

Hauptursache des Problems war der gleichzeitige Ausfall der beiden internen Resolver. Ab diesem Zeitpunkt funktionierte die Namensauflösung der Virtualisierungs-Nodes nicht mehr, dies führte dazu das der Cluster davon ausging diese Nodes verloren zu haben. Es folgte eine Kettenreaktion da die Nodes ebenfalls niemanden mehr im Netzwerk gesehen haben und sich folgerichtig zur Vermeidung weiterer Probleme / Datenverlust sauber heruntergefahren haben.

All dies hätte normalerweise nie passieren dürfen da die beiden internen Resolver redundant in unterschiedlichen Brandabschnitten, auf unterschiedlicher Hardware und unterschiedlichen Storage Systemen untergebracht waren. - Um solche Probleme in Zukunft zu vermeiden haben wir weitere Redundanzen geschaffen, unsere Server arbeiten ab sofort mit 4 anstatt 2 Resolvern. 2 Resolver betreiben wir nach wie vor intern, zusätzlich nutzen wir 2 weitere Resolver die extern, von Drittanbietern betrieben werden und im Fehlerfall direkt einspringen können.

Wir möchten uns an dieser Stelle ausdrücklich für die entstandenen Unannehmlichkeiten entschuldigen und versichern Ihnen, dass bereits weitere Maßnahmen zur Absicherung solch eines "unmöglichen Falls" getroffen wurden.

Posted Dec 05, 2017 - 11:57 CET

Resolved
Alle Systeme sind wieder online erreichbar, das Problem ist damit behoben. Ein ausführlicher Bericht wie es zu dem Problem kommen konnte folgt. - Wir bedanken uns für Ihr Verständnis und wünschen ein schönes Wochenende. - Sollten Sie nach wie vor Probleme mit einem Server oder Dienst feststellen öffnen Sie bitte ein Ticket in unserem Kundencenter, unser Notfall Team wird sich kurzfristig um das Problem kümmern: https://rackspeed.de/go/support
Posted Dec 02, 2017 - 09:02 CET
Monitoring
95% der VMs laufen wieder, einige fahren derzeit noch hoch und werden in Kürze wieder erreichbar sein. - Derzeit arbeiten unsere Storage-Arrays mit maximaler Auslastung um die Caches der VMs wieder zu befüllen, in den nächsten Minuten ist daher mit einer Beeinträchtigung der Reaktionszeiten zu rechnen. Dieses Problem wird sich in ca. 30 Minuten von alleine klären. - Update folgt
Posted Dec 02, 2017 - 08:31 CET
Identified
Das Problem wurde vom Notfall Team vor Ort gefunden und gelöst, die VMs starten gerade wieder. Update folgt
Posted Dec 02, 2017 - 08:18 CET
Investigating
Derzeit verzeichnen wir Störungen in der Verbindung zu einigen Servern, Update folgt.
Posted Dec 02, 2017 - 07:42 CET