Manutenzione predittiva AI-based degli interruttori
“Prima di questo progetto, l'idea di prevedere i guasti hardware nella nostra infrastruttura RTN sembrava irrealistica. Ma Artificialy ha dimostrato che una previsione efficace non solo è possibile, ma diventa anche una soluzione pratica. Il sistema ha identificato i malfunzionamenti imminenti con giorni di anticipo, dando ai nostri ingegneri più tempo per reagire e prevenire interruzioni. È un passo promettente verso una gestione dell'infrastruttura più proattiva e intelligente, e siamo entusiasti di vedere dove ci porterà”.
La Sfida
Il cliente gestisce una rete RTN che costituisce la spina dorsale della sua infrastruttura, per garantire la fornitura affidabile di servizi video, dati e Internet. Questo sistema ad alta capacità dipende da decine di switch critici. Guasti o prestazioni degradate in uno qualsiasi di questi interruttori possono portare a un'esperienza negativa per il cliente e, nel peggiore dei casi, a interruzioni complete del servizio.
Sebbene il cliente avesse recentemente implementato un nuovo sistema di monitoraggio che tracciava centinaia di metriche per ogni switch, non disponeva di alcun modo per anticipare i problemi prima che diventassero critici.
Con grandi volumi di dati ad alta frequenza ma senza strumenti predittivi, aveva bisogno di un approccio basato sull'intelligenza artificiale per passare da una manutenzione reattiva a una proattiva.
Un operatore nel settore dei media e dell'intrattenimento: una delle più famose emittenti radiofoniche e televisive svizzere che opera nella parte italofona della Svizzera.
La nostra Soluzione AI
Nel giro di pochi mesi, abbiamo sviluppato un motore di rilevamento delle anomalie personalizzato, progettato per identificare i primi segnali di guasti hardware nell'infrastruttura RTN critica.
Ogni switch monitorato trasmette circa 800 caratteristiche, tra cui l'utilizzo della CPU, il traffico dell'interfaccia, la temperatura, le metriche di alimentazione e altro ancora. Ciò si traduce in gigabyte di dati telemetrici ad alta frequenza distribuiti su switch di diversi tipi e configurazioni.
La soluzione è stata progettata per rispondere a tre obiettivi fondamentali:
Scalabilità: il sistema elabora in modo efficiente grandi volumi di dati temporali, anche con frequenze di campionamento irregolari e lacune, e può essere rapidamente adattato per supportare switch aggiuntivi o nuovi tipi di connettori.
Rilevamento personalizzato: la soluzione applica una logica personalizzata per ogni tipo di switch e ogni tipo di evento, consentendo il rilevamento preciso di diversi malfunzionamenti e riducendo al minimo gli avvisi falsi o irrilevanti.
Leggibilità: per ogni avviso, il modello evidenzia esattamente quali metriche hanno mostrato un comportamento anomalo, consentendo agli ingegneri di comprendere e verificare le anomalie senza fare affidamento su previsioni black box.
Il sistema è stato implementato nell'ambiente interno del cliente, dove ora si integra con il loro stack di monitoraggio per fornire avvisi in tempo reale su potenziali malfunzionamenti degli interruttori.
Risultati
Sebbene la soluzione di Artificialy sia ancora in fase di valutazione in produzione, i test offline hanno già dimostrato un forte potenziale:
~50% di eventi critici rilevati, con un lead time medio di 11 giorni, che offre agli ingegneri tempo prezioso per indagare e prevenire interruzioni del servizio.
~50% di falsi allarmi, in linea con la capacità operativa del cliente per la revisione manuale.
Base scalabile: questa soluzione getta le basi per lo sviluppo futuro, tra cui la valutazione della gravità, la messa a punto automatica e modelli avanzati.