Disaster Recovery

Disaster Recovery

Durch einen Brand beim französischen Cloud Service Anbieter OVHcloud sind Millionen Webseiten offline und Webservices nicht mehr erreichbar. Strong Ops GmbH betreibt in Zusammenarbeit mit betroffenen Kunden und OVHcloud Schadensbegrenzung und übernimmt das Krisenmanagement, um den Produktivbetrieb der ausgefallenen Systeme möglichst schnell wieder herzustellen.

"Ein wahrgewordenes Horrorszenario für die Betreiber und alle Beteiligten. Wir wurden beauftragt, um für einige betroffenen Kunden das Krisenmanagement zu übernehmen und konnten durch ein zielführendes Assessment sowie der schnellen Neuimplementierung der benötigten Infrastruktur bestmögliche Schadensbegrenzung leisten und die Systeme damit stabiler und sicherer machen."
Jacek Strongowski
Managing Director & DevOps Expert

Was ist passiert?

Ein Brand bei einem französischen Cloud-Dienstleister OVH hat Millionen von Websites lahmgelegt. Die Portale von Regierungsbehörden, Banken, Geschäften und Nachrichten-Websites waren nicht mehr erreichbar und ein Teil des .FR-Webspace wurde zerstört, wie Internet-Beobachter berichteten. Europas größter Cloud-Service-Anbieter hat seine Kunden, darunter die französische Regierung, das Centre Pompidou und die Kryptowährungsbörse Deribit, aufgefordert, nach dem Brand ihre Notfallpläne zu aktivieren.

Die Herausforderungen

  • Unvorhersehbarer Produktionsdatenverlust inkl. Kundendaten (mangelhafte Backups)
  • Unvorhersehbare Umsatzausfälle durch Downtime der produktiven Systeme
  • Vertrauensverlust der Endkunden
  • Zugriffe auf Providersysteme sind ausgefallen (offline)
  • Fehlende Infrastructure as code (IaC) sowie unzureichende Dokumentationen
  • Zeitdruck lässt kaum Handlungsspielraum bei der Wiederherstellung der Systeme offen

Der Lösungsweg

Ohne den tatsächlichen Schweregrad der Ausfälle sowie des Datenverlustes durch den wütenden Brand zu kennen, haben wir sofort begonnen, die lahmgelegte Infrastruktur der beauftragenden Kunden als Cloud-Lösung von der Pike auf neu zu entwerfen, zu implementieren und in Betrieb zu nehmen. Dabei stand im Vordergrund, dass die für Endkunden relevanten Prozesse und Services (wie beispielsweise User Interfaces und Einkaufsprozesse) so schnell wie möglich wieder produktiv zur Verfügung stehen, unabhängig davon, ob Bestandsdaten-Backups wieder hergestellt werden können oder nicht. Sofern im späteren Verlauf Backups zur Verfügung standen, konnten wir diese erfolgreich in die neue Lösung migrieren oder alternativ einen Datenbestand aus Bestandsdaten aufbauen, welche noch rekonstruiert werden konnten.

Damit haben wir den Betroffenen nicht nur unser professionelles und effizientes Krisenmanagement bewiesen, sondern konnten in diesem Zuge legacy Anwendungen ablösen und so eine für den Kunden zukunftsorientierte Cloud-Lösung etablieren. Ein eingeführtes proaktives Monitoring und Incident Management sowie ausgereifte Backup und Recovery Policies ermöglichen einen stabilen und sicheren Produktivbetrieb, der auch bei unvorhergesehenen Ausfällen schnellstens wiederhergestellt werden kann. Als gewinnbringende Nebeneffekte resultierten für unsere Kunden zudem niedrigere Betriebskosten sowie insgesamt eine moderne, robuste und skalierbare Infrastruktur.

Was bietet Strong Ops GmbH:

  • Konzeption & Erstellung verlässlicher, skalierbarer und
    kosteneffizienter Cloud Architekturen
  • Optimierungsstrategien für die gesamte Toolchain und IT-Prozesse
  • SIEM, Logging, Alerting und Backup-Lösungen
  • Proaktives Monitoring und Incident Management
  • Coaching und Einführung von DevOps Prinzipien/Strategien
  • Technical Due-Diligence
  • Managed Cloud Infrastructure

Während des Brandes sind bei betroffenen Kunden innerhalb von Minuten über 40 Server ausgefallen. Strong Ops GmbH wurde beauftragt, betroffene Systeme und Produkte bei Möglichkeit wiederherzustellen und innerhalb kürzester Zeit von der Pike auf neu zu entwerfen, zu implementieren und in Betrieb zu nehmen.

Durch den Brand wurden über 4 TB Daten von Postgres Clustern, verteilten Dateisystemen sowie Backoffices unwiderruflich zerstört. Strong Ops GmbH wurde beauftragt, betroffene Systeme und Produkte innerhalb kürzester Zeit von der Pike auf neu zu entwerfen, zu implementieren und in Betrieb zu nehmen.