Am 10.06.2021 gegen 23:00 traten bei AWS Frankfurt 1 die ersten Probleme mit SmartHome Alexa Befehlen auf.

Wenige Zeit später wurde ein erster Statusbericht veröffentlicht:

“Wir beobachten Verbindungsprobleme für einige EC2 Instanzen in der EU-CENTRAL-1 Region.”

Knapp eine Stunde später war von einer “erhöhten Umgebungstemperatur” die Rede, welche das Herunterfahren einiger Server verursacht haben soll. Zu dieser Zeit ging man von einem Feuer direkt im Rechenzentrum aus. Haben wir es nun schon wieder mit einem Feuer bei einem IaaS Provider zu tun?

Um 02:17 CEST 11. Juni 2021 schrieb AWS, dass die Systeme langsam wieder hochgefahren werden. Desweiteren wurde bestätigt, dass es “kein Feuer in dem Gebäude” gab.

Man merkt hier einen deutlichen Unterschied zwischen Containern und einem State-of-the-art Rechenzentrum - egal, was das Problem ausgelöst hat, es ist mittlerweile wieder alles online. Den genauen Grund kann ich hier leider noch nicht nennen.

Und warum ist OVH Lektion genug gewesen?

Keiner kann Katastrophen verhindern, allerdings lassen sie sich vorbeugen. Ein gut funktionierender Brandschutz und eine räumliche Trennung der Server von den USV Anlagen hätte das OVH Rechenzentrum retten können. Da man dort aber leider auf Quantität statt Qualität setzt mussten fast alle Kunden darunter leider. Vorausgesetzt dann, wenn ihre Backups im gleichen Rechenzentrum oder sogar auf dem gleichen Server gespeichert wurden.

Auf den finalen Report von AWS warte ich noch. Entsprechend wird es hier dann ein Update geben.