greyicon blueicon

Das Parametrix Monitoring-System in Aktion

Bei Microsoft Azure kam es am 15. März ab 19:40 für mehr als drei Stunden zu Fehlern bei der Durchführung von Authentifizierungsvorgängen, als unser Überwachungssystem begann, hohe Fehlerraten bei dem Microsoft-Dienst festzustellen. Über diesen Vorfall wurde im Internet ausführlich berichtet, da weit verbreitete Microsoft-Dienste wie Microsoft 365 und Microsoft Teams mehrere Stunden lang nicht verfügbar waren.

Die Störung wurde offenbar dadurch verursacht, dass der Azure Active Directory-Dienst die Leistung seines Authentifizierungsdienstes reduzierte und Fehlermeldungen ausgab, so dass Nutzer nicht mehr authentifiziert werden konnten. Der Vorfall betraf die Microsoft-Anwendungen Teams, Microsoft 365, Exchange und Xbox, die von Azure Active Directory abhängen, einem Authentifizierungsdienst von Microsoft für Unternehmen, der Single Sign-On und Multi-Faktor-Authentifizierung ermöglicht.

Kunden, die Azure Active Directory direkt als Teil ihrer Produktionssysteme nutzen, verzeichneten teilweise Einschränkungen bei einigen Diensten wie Azure VMs und Azure Storage. Da sich dies jedoch nur auf Verwaltungsfunktionen wie die Erstellung neuer Prozesse auswirkte, hatte es keine Auswirkungen auf bestehende Anwendungen, Prozesse oder Vorgänge, die bereits auf Azure ausgeführt wurden.

Das Parametrix Monitoring-System

Das Parametrix Monitoring-System erkannte den Ausfall sofort, als er auftrat. Es überwachte die Fehlerrate von Azure während des Vorfalls und stellte eine Spitzenfehlerrate von über 75 % fest, was bedeutet, dass mehr als 75 % der Systemverwaltungsanfragen fehlschlugen, wobei der Schwerpunkt auf Authentifizierungsproblemen lag.

Unten sehen Sie ein konkretes Diagramm unseres Überwachungssystems, das den Ausfallzeitraum mit Fehlern bei den Verwaltungsvorgängen (d. h. nicht denjenigen, die den Status “Nicht verfügbar” verursachen) von virtuellen Maschinen (blau), SQL (lila) und Speicher (gelb) zeigt.  Dies ist nur einer von Hunderten von Datenpunkten, die unser System auf der Grundlage von Algorithmen sammelt, die darauf programmiert sind, Auffälligkeiten wie diese zu erkennen.  Wie das Bild zeigt, war der Speicherdienst im Vergleich zu den Rechendiensten (SQL und virtuelle Maschinen) weit weniger stark betroffen.

Unser System stellte nur eine geringe Beeinträchtigung des Azure Storage-Dienstes fest, da der Dienst weiterhin funktionierte. Wie Sie sehen können, gab es eine 10-prozentige Spitzenfehlerrate pro Region, die nur ein paar Minuten andauerte.  Bei den fehlgeschlagenen Vorgängen handelte es sich nicht um kritische Verwaltungsvorgänge wie z. B. die Azure Storage Account-Operationen.

Das nachstehende Diagramm zeigt die kritischen Azure Storage Application-Vorgänge. Wie zu sehen ist, waren diese überhaupt nicht betroffen, da es in keiner Region einen Rückgang ihrer Erfolgsrate gab.

Hinweis: Der Unterschied zwischen Azure-Storage-Account- und Azure-Storage-Application-Vorgängen besteht darin, dass ersterer für die Account-Verwaltung verwendet wird, während letzterer für den kontinuierlichen Betrieb eines laufenden Systems erforderlich ist.

Obwohl es hohe Fehlerraten bei den SQL- und Virtual Machines-Diensten gab, betrafen die Fehler nur den Verwaltungsbereich des Dienstes, so dass die bereits laufenden Instanzen nicht von einem Ausfall betroffen waren.

Nachfolgend ist die aggregierte Betriebszeitkurve jeder laufenden, von unserem System überwachten Serviceinstanz dargestellt, die zeigt, dass während der Ausfallzeit keine laufenden Instanzen aus irgendeiner Region betroffen waren.


Blick in die Zukunft

Die obigen Diagramme zeigen die hohe Granularität und Genauigkeit unseres Monitoring-Systems. Es zeigte genau an, welche Dienste zu dem Zeitpunkt, an dem die Ausfallzeit auftrat, ausgefallen waren, und gab genau an, was bei den einzelnen Diensten funktionierte und was nicht.

Parametrix nutzt die gesammelten Daten außerdem, um zukünftige Ereignisse zu bewerten, unsere Modellierungsprozesse zu optimieren und datengestützte Erkenntnisse zu gewinnen, die die Unternehmens- und Marktstrategie beeinflussen.

Dieser Vorfall und die damit verbundene öffentliche Berichterstattung zeigen, dass der Markt immer stärker von Cloud-Diensten abhängt und dass Versicherungslösungen benötigt werden, die Ausfallzeiten abdecken, die von IT-Drittanbietern für Dienste wie Cloud, E-Commerce, Zahlungen und Kommunikation verursacht werden.

Könnte Ihnen ebenfalls gefallen

IT-Ausfallzeiten können
jederzeit auftreten. Wir
sichern Sie finanziell ab.

Rectangle 573
Rectangle 775
Rectangle 659