Die Antwort ist Monitoring. Monitoring besteht daraus, die einzelnen Systeme und wiederum deren einzelne Bestandteile zu überwachen. Nicht durch die Augen eines Administrators, sondern durch ein automatisiertes System mit klar definierten Schwellwerten. Dieses Monitoring-System überwacht die IT-Landschaft bis ins kleinste Detail in Echtzeit und analysiert diese auf mögliche Fehler.
OK, das ist alles schön und gut, aber wie hilft uns das zu einer höheren Verfügbarkeit? Ganz einfach: Kein IT-Mitarbeiter kann alle Systeme 24/7 überwachen und die Anwendungen auf Funktion testen bzw. einschreiten bevor es zu einem Ausfall kommt. Ein Monitoring-System kann all das. Die Systeme werden in Echtzeit überwacht und wenn zum Beispiel der Speicherplatz eines Systems zur Neige geht, oder das Verbinden mit einer überwachten Website länger dauert als normal, schlägt das System Alarm. Es versucht abhängig von Art des Problems entweder eigenständig das Problem zu lösen (Erweiterung des Monitorings, bspw. um ein RMM-System) oder sendet eine Benachrichtigung an die IT, welche darauf hin tätig werden muss. Somit wird gehandelt, bevor es zu einem kritischen Ausfall kommt und das Problem behoben. Leider kann es jedoch auch sein, dass es keine Vorzeichen für einen Ausfall eines Systems gibt und erst bei dem Ausfall eine Benachrichtigung gesendet wird. Das ist auch der Grund, weswegen eine 100% Verfügbarkeit nicht möglich ist.
Wir bei der ALLinONE verwenden schon jahrelang als Monitoring System „Checkmk“ und überwachen damit unsere Systeme sowie die unserer Kunden. Wir überwachen den Status von Hunderten von Systemen und zehntausenden von Diensten. Sollte ein Fehler bekannt werden, reagieren wir sofort. Was mit „Checkmk“ möglich ist und wie wir das System genau verwenden, kann in diesen Beitrag nachgelesen werden.