Störungsmeldung Rechenzentrum 15.10.2014

Störung Rechenzentrum am 15.10.2014 um 18:03 Uhr

Aktuell besteht ein Problem im Routing des Rechenzentrums. Unsere Techniker arbeiten bereits mit Hochdruck an der Lösung des Problems.

Update 18:39 Uhr
Bei dem derzeitigen Problem handelt es sich um einen groß angelegten DDos Angriff auf das Rechenzentrum. Die Techniker Vor-Ort gehen davon aus, dass das Problem in Kürze behoben ist.

Update 19:03 Uhr
Alle Dienste sind wieder vollumfänglich erreichbar. Wir werden nun noch weitere Systemchecks durchführen und Ihnen anschließend hier eine genauere Erläuterung des Ausfalls zur Verfügung stellen.

Update 22.10.2014

Sehr geehrte Kunden, die aktuellen Informationen zum Ausfall der Anbindung der Rechenzentren am 15.10.2014 geben wir hiermit weiter. Weitere Informationen diesbezüglich werden wir hier veröffentlichen, sobald uns diese vorliegen.

---ZITAT ANFANG---
Sehr geehrte Kunden und Partner,

in den frühen Abendstunden des 15.10.2014 kam es zu einem Teilausfall unseres Services. Wir möchten uns dafür mit der nachfolgenden Stellungnahme in aller Form bei Ihnen entschuldigen und Sie über die Ursache bzw. den Verlauf des Ausfalls informieren.

Um 17:51 Uhr vermeldeten unsere Monitoring-Systeme zunächst einen Teilausfall der Anbindungen. Kurze Zeit danach kam es zu Störungen in weiteren Bereichen. Schnell konnte das Problem durch unsere Techniker auf die redundant ausgelegten Core Router eingegrenzt werden.

Das Modul 1 in unserem redundanten Core wies dabei eine CPU-Last von 99 % auf. Es gab jedoch keine Hinweise auf Flood oder ähnlich geartete Aktivitäten. Nachdem keine eindeutige Ursache festgestellt werden konnte, wurde noch vor Ort dieses Modul vorsorglich neu gestartet.

Leider änderte sich die Situation nicht, so dass wir dieses Modul abstellten und somit das zweite redundante Modul übernahm. Dieses zeigte jedoch kurz darauf die gleiche Problematik. Aufgrund dessen mussten wir davon ausgehen, dass es sich um ein reines Softwareproblem handelt, welches durch die interne Synchronisation beide Module beeinträchtigt.

Einige weitere Tests wie auch das andauernde Fortbestehen der Symptomatik, haben uns veranlasst, einen komplett neuen Router inkl. Gehäuse zu aktivieren. Dies führte schließlich auch zum Erfolg.

Bedauerlicherweise war, bedingt durch einen demzufolge erhöhten Konfigurationsaufwand, der benötigte Zeitaufwand deutlich höher, als unter normalen Umständen.

Gegen 19:41 Uhr war die vollständige Erreichbarkeit aller Rechenzentren spätestens wiederhergestellt. Die ersten Rechenzentren waren bereits um 19:00 Uhr wieder vollumfänglich erreichbar.

Im Laufe der darauf folgenden Nacht haben wir in Zusammenarbeit mit der Cisco Technik die Problematik erörtert, wobei es bereits erste Mutmaßungen für den Ausfall gibt. Um jedoch die genaue Ursache zu klären, haben wir weitere Untersuchungsschritte eingeleitet, über deren Ergebnis wir Sie selbstverständlich zu gegebener Zeit informieren werden.

Wie bedauern die entstandenen Unannehmlichkeiten sehr und bitten Sie, diese zu entschuldigen.
---ZITAT ENDE---

Wir warten nun entsprechend auf die Untersuchungsergebnisse von Cisco und werden diese dann entsprechend auch veröffentlichen.

Viele Grüße aus Obertshausen

Ihr Team von DM Solutions