
KI-basierte Predictive Maintenance für Switches

"Vor diesem Projekt schien die Idee, Hardwareausfälle in unserer RTN-Infrastruktur vorherzusagen, unrealistisch. Artificialy hat jedoch bewiesen, dass eine sinnvolle Vorausschau nicht nur möglich, sondern auch praktikabel ist. Das System erkannte bevorstehende Störungen bereits Tage im Voraus, sodass unsere Ingenieure mehr Zeit hatten, zu reagieren und Störungen zu vermeiden. Das ist ein vielversprechender Schritt in Richtung eines proaktiven und intelligenten Infrastrukturmanagements, und wir sind gespannt, wie es weitergehen wird."
Challenge
Der Kunde verwaltet ein RTN-Netzwerk, das das Rückgrat seiner Infrastruktur bildet und die zuverlässige Bereitstellung von Video-, Daten- und Internetdiensten gewährleistet. Dieses Hochleistungssystem hängt von einer Vielzahl kritischer Switches ab. Ausfälle oder Leistungseinbussen bei einem dieser Switches können zu einer schlechten Kundenerfahrung und im schlimmsten Fall zu einer vollständigen Serviceunterbrechung führen.
Obwohl der Kunde kürzlich ein neues Monitoring-System implementiert hatte, das Hunderte von Metriken pro Switch überwacht, fehlte eine Möglichkeit, Probleme vorherzusehen, bevor sie kritisch wurden.
Bei großen Mengen hochfrequenter Daten, aber ohne prädiktive Werkzeuge, war ein KI-gestützter Ansatz erforderlich, um von reaktiver zu proaktiver Wartung zu wechseln.

Ein Unternehmen aus dem Bereich Medien & Unterhaltung: einer der bekanntesten Schweizer Radio- und Fernsehsender in der italienischsprachigen Schweiz.

Unsere KI-Lösung
Innerhalb weniger Monate haben wir eine massgeschneiderte Anomalieerkennungs-Engine entwickelt, die darauf ausgelegt ist, frühzeitige Anzeichen von Hardwareausfällen in der kritischen RTN-Infrastruktur zu identifizieren.
Jeder überwachte Switch überträgt rund 800 Merkmale, darunter CPU-Auslastung, Schnittstellenverkehr, Temperatur, Stromverbrauchsmetriken und mehr. Daraus ergeben sich Gigabytes an hochfrequenten Telemetriedaten über verschiedene Switch-Typen und Konfigurationen hinweg.
Die Lösung wurde entwickelt, um drei Kernziele zu erreichen:
Skalierbarkeit: Das System verarbeitet effizient grosse Mengen an Zeitreihendaten, selbst bei unregelmässigen Abtastraten und Lücken, und kann schnell angepasst werden, um zusätzliche Schalter oder neue Schaltertypen zu unterstützen.
Massgeschneiderte Erkennung: Für jeden Switch-Typ und jedes Ereignis werden angepasste Erkennungslogiken angewendet, um unterschiedliche Fehlfunktionen präzise zu erkennen und Fehlalarme zu minimieren.
Erklärbarkeit: Für jede Warnung hebt das Modell genau hervor, welche Metriken ein abnormales Verhalten gezeigt haben, so dass Ingenieure Anomalien nachvollziehen und verifizieren können, ohne sich auf Blackbox-Vorhersagen zu verlassen zu müssen.
Das System wurde in der internen Umgebung des Kunden ausgerollt und ist nun in das bestehende Monitoring-Stack integriert um Echtzeitwarnungen zu potenziellen Switch-Fehlfunktionen zu liefern.
Ergebnisse
Während die Lösung von Artificialy noch in der Produktion getestet wird, haben Offline-Tests bereits ein großes Potenzial gezeigt:
~50% der kritischen Ereignisse werden erkannt, mit einer durchschnittlichen Vorlaufzeit von 11 Tagen, was den Technikern wertvolle Zeit für die Untersuchung und die Verhinderung von Serviceunterbrechungen gibt.
~50% weniger Fehlalarme, abgestimmt auf die operative Kapazität des Kunden für die manuelle Überprüfung,
Skalierbare Basis: diese Lösung legt den Grundstein für zukünftige Entwicklungen, einschliesslich Schweregradbewertung, automatisches Fine-Tuning und fortgeschrittene Modelle.
