Il monitoraggio delle variabili di processo è oggi un elemento critico per la gestione proattiva delle reti elettriche moderne.
Comprendere e reagire alle anomalie prima che si trasformino in interruzioni gravi è una necessità operativa e strategica.
Questo approccio si rivela particolarmente efficace nel mantenere la continuità di servizio e la sicurezza nei sistemi complessi come le WASG (wide area synchronous grids), dove ogni variazione può avere conseguenze sistemiche.
Indice degli argomenti
Le sfide della continuità operativa nelle reti sincrone
Le interruzioni di corrente spesso finiscono in prima pagina, soprattutto quando milioni di persone restano al buio e la causa non è immediatamente chiara.
Questo tipo di incidenti solitamente porta con sé ipotesi differenti: malfunzionamento tecnico, errore operativo, attacco informatico, sabotaggio o addirittura anomalia meteorologica.
Il fatto che una gamma così ampia di cause venga regolarmente indagata evidenzia quanto siano complesse e apparentemente fragili le attuali infrastrutture energetiche. Sebbene individuare il motivo sia fondamentale per evitare che si ripeta, questi blackout innescano anche un dibattito più ampio: in che modo i gestori della rete possono prevedere, rilevare e mitigare al meglio le anomalie prima che si trasformino in gravi interruzioni del servizio?
Caratteristiche e funzionamento delle reti sincrone su vasta area
Oggi, nella maggior parte del mondo, l’elettricità viene generata, trasmessa, distribuita e consumata all’interno di quelle che vengono chiamate wide area synchronous grids (WASG, ovvero reti sincrone su vasta area), reti elettriche armonizzate che coprono uno stato, un paese o un’intera regione e offrono numerosi vantaggi: più sono interconnesse, più è facile scambiare elettricità, bilanciare i carichi, mettere in comune le risorse e migliorare la resilienza. Un’interconnessione – e i sistemi di sicurezza integrati – che li rende anche più resilienti delle reti elettriche isolate, come quelle presenti in aree remote come la Corea del Nord, note proprio per i continui blackout.
Le reti sincrone funzionano in corrente alternata (AC), e tutti i partecipanti devono avere la stessa frequenza (Hz). Le più diffuse nel mondo sono comprese tra 50 Hz (Stati Uniti) e 60 Hz (Unione Europea). All’interno di una WASG, la frequenza in tutte le parti del sistema deve operare entro una varianza minima: ogni volta che un elemento necessita di più potenza, richiederà più energia e la frequenza sarà inferiore alla soglia. Allo stesso modo, quando la domanda diminuisce, la frequenza aumenta. Molte parti della WASG agiscono automaticamente (o semi-automaticamente) per tenere conto delle fluttuazioni della domanda che si traducono in variazioni dei prezzi che a loro volta si riflettono nei mercati dell’energia, come l’European Energy Exchange (EEX), che opera come piattaforma per l’acquisto e la vendita di energia e materie prime correlate.
Le reti elettriche odierne possono includere anche turbine eoliche e pannelli solari che, sebbene importanti, non possono regolare facilmente la loro produzione (e quindi influenzare la frequenza). Al contrario, una centrale idroelettrica tradizionale può dosare la sua produzione accendendo e spegnendo gruppi di generatori e regolare anche il suo apporto di acqua.
L’equilibrio dinamico nella rete tra domanda e offerta
In ogni momento la rete è sottoposta ad un carico in costante cambiamento poiché case, aziende e industrie accendono e spengono i dispositivi, creando continui picchi e cali nella domanda di energia. Allo stesso tempo, cambiamenti delle condizioni meteorologiche, nuvole in movimento, tempeste e mutamenti nei livelli di illuminazione solare determinano fluttuazioni anche imprevedibili delle fonti di energia rinnovabile, come quella solare ed eolica. Allineare con precisione tutte queste fonti per soddisfare la domanda è un’orchestrazione delicata che avviene in tempo reale. Il mantenimento di questo complesso equilibrio garantisce che la frequenza corrisponda esattamente agli Hz richiesti, salvaguardando la stabilità della rete e la fornitura di energia.
Gestione dell’islanding e rischio blackout
Un concetto importante nelle operazioni WASG è quello di “isolamento” (islanding), una condizione in cui una parte della rete viene elettricamente isolata da quella principale ma continua a essere alimentata, formando un’isola autosufficiente. Se fatto intenzionalmente, ad esempio per effettuare interventi di manutenzione o altre operazioni pianificate, può essere positivo. Tuttavia, l’isolamento involontario può creare scompiglio nelle reti elettriche, soprattutto se non viene rilevato in tempo e gestito. Spesso è il risultato di una serie di eventi innescati da una perturbazione significativa che supera la capacità della rete di mantenere la stabilità.
Le WASG devono bilanciare costantemente produzione e consumo di energia. Ma, uno squilibrio improvviso del carico può far sì che il livello di frequenza nell’area interessata si discosti dal valore nominale. Un’oscillazione di frequenza sufficientemente ampia può attivare sistemi di protezione automatici che, con l’obiettivo di prevenire danni, scollegano i generatori (e/o i carichi) di corrente, causando un effetto isola involontario che può rapidamente trasformarsi in un’area a rischio blackout.
Monitoraggio delle variabili di processo come prevenzione
L’islanding è il tentativo autonomo del WASG di mantenere la stabilità (se il bilanciamento del carico e altri tentativi automatici non hanno successo) isolando l’area problematica. Per aggirare questa reazione, gli operatori devono conoscere le condizioni che possono causare l’isola prima che attivino la risposta autonoma. In altre parole, i gestori devono monitorare l’intera rete per rilevare minacce e anomalie al di fuori dei parametri definiti, tra cui picchi di variabili di processo che potrebbero innescare guasti a cascata.
Il monitoraggio delle variabili di processo coglie il nocciolo di ciò che gli ingegneri della tecnologia operativa (OT) intendono quando dicono ai professionisti IT che l’OT è “diverso”. I sistemi di controllo industriale si basano su dispositivi OT (e sempre più sull’Internet delle cose, IoT) per controllare i processi fisici. A seconda della complessità, un processo industriale fisico può avere decine o centinaia di migliaia di variabili di processo per controllare flusso, pressione, temperatura e livello, ciascuna configurabile. Per garantire la sicurezza, l’affidabilità e l’elevata disponibilità del sistema, non è possibile limitarsi a monitorare i dispositivi e le comunicazioni di rete, come si fa con l’IT. Bisogna anche controllare i processi fisici stessi, analizzando le letture anomale delle loro variabili.
È necessario considerare che una WASG è essenzialmente un massiccio sistema di controllo industriale. Se, ad esempio, i valori che misurano gli Hz fossero al di fuori delle soglie operative di sicurezza potrebbe scattare un allarme in un centro di controllo o in una sottostazione, provocando un’immediata messa in isola per preservare la resilienza del resto della rete collegata. Finché non si indaga, non si è in grado di capire se si tratta di un malintenzionato che ha manomesso un valore, di un errore dell’operatore o di una causa naturale come un fulmine, rami di alberi sulle linee o condizioni atmosferiche. In ogni caso la minaccia è reale.
Anomalie comportamentali e limiti del rilevamento tradizionale
Per ridurre al minimo sia i rischi informatici che quelli operativi, gli ambienti industriali necessitano di un monitoraggio completo che combini il rilevamento delle minacce basato su regole con quello delle anomalie basato sul comportamento. Ma mentre i metodi basati su regole (o firme) per identificare minacce note sono efficaci soltanto quando l’attacco o l’anomalia è nota a priori, il rilevamento basato sul comportamento è l’unico modo per individuare anomalie operative e minacce sconosciute, compresi gli zero-day. Nel caso specifico oggetto di questo approfondimento, è forse meno interessante parlare di zero-day in quanto minaccia pensata con un fine malevolo, ma piuttosto di un comportamento imprevisto al di fuori del funzionamento corretto del processo.
Ripristino post-blackout: un processo guidato dai dati
Riprendere le attività dopo un blackout o persino riconnettersi dopo un caso di isolamento è un processo lento, complesso e graduale, che richiede team dotati di diversi tipi di competenze avanzate per condurre in sicurezza procedure pericolose e articolate, in collaborazione tra loro. Durante questa fase è fondamentale che gli operatori mantengano una sincronizzazione tra le isole, bilanciando carico e generazione, gestendo gli interruttori automatici e svolgendo decine di altre operazioni di controllo della rete. Per riavviare una grande rete elettrica sono necessari impianti di generazione che forniscano quella spinta iniziale di energia e poi regolino la fornitura in modo efficiente. Di solito tutti si concentrano sugli sforzi di recupero, sfruttando gli strumenti, i dati e i processi a disposizione.
Durante una crisi o un incidente, e anche se la causa principale è ancora sconosciuta, vengono presi in considerazione tutti i fattori. Nell’attuale panorama iperconnesso, a volte la prima sfida da risolvere è stabilire se eventi informatici, naturali o altro abbiano contribuito alla disruption.
Sapere se un’interruzione nella rete energetica, in una fabbrica, in un impianto di produzione di acqua o in un sistema di trasporto può essere ricondotta a un problema informatico, ad alto livello, aiuta a isolare e identificare il problema. Per escludere la natura prettamente informatica (attacco cyber per esempio), le organizzazioni devono dimostrare rapidamente che tutti i loro sistemi funzionavano normalmente, senza anomalie e che non si erano verificate intrusioni. Il momento giusto per implementare un sistema completo e complesso di monitoraggio non è in seguito ad un evento catastrofico, bisogna agire per tempo in modo da essere preparati alle varie eventualità che si possono presentare.
È un dato di fatto che le organizzazioni che hanno reso le loro soluzioni di sicurezza pienamente operative in anticipo, prima di un incidente, siano le meglio attrezzate per accelerare le attività di ripristino, con vantaggi significativi a tutti i livelli, da una riduzione dell’impatto generale dell’evento a una contrazione dei suoi costi complessivi, fino a una maggiore soddisfazione delle parti coinvolte, elemento tanto più importante quando si parla di un servizio pubblico.