L'approfondimento

Errori nei chip: quali sono i più diffusi, cosa li causa e come migliorare

La miniaturizzazione porta ad una crescita degli errori nei chip: errori nella stampa, errori nel design, errori di funzionalità. Le tecniche di correzione usate finora, l’impatto della crisi degli approvvigionamenti, lo stimolo della Commissione Europea

Pubblicato il 11 Mar 2022

Antonio Cisternino

Università di Pisa

L’elettronica è meno affidabile di quanto amiamo pensare: chip sempre più sottili rischiano di essere meno funzionali e più soggetti a errori. AMD-Advanced Micro Devices, multinazionale di settore, nel 2020 ha stimato un calo dell’affidabilità dei chip di memoria di un fattore 5,5 tra una generazione e la successiva.

La stampa di oggetti con risoluzione di pochi miliardesimi di metro richiede, infatti, tecniche litografiche sempre più sofisticate e un design sempre più estremo.

Circuiti integrati, ecco macchine e processi necessari per realizzarli

Indice degli argomenti

Rivedere i processi produttivi per una migliore correzione degli errori

Nel corso di oltre cinquant’anni, sono state sviluppate numerose tecniche all’interno dei chip per rilevare e correggere errori dovuti a variazioni fisiche e interferenze esterne o interne di un circuito. Eppure, la convinzione collettiva è che i calcolatori siano dei sistemi esatti, che non fanno errori, nonostante l’acquisto di componenti come i “moduli di memoria RAM ECC”, dove ECC è l’acronimo di Error Correction Codes.

Ogni tanto gli errori di un chip ottengono gli onori della ribalta: chi vuole comprare un computer che sbaglia? Negli anni ‘90 una delle prime serie del processore Pentium di Intel è passata alla storia per il “Pentium FDIV Bug” che portava i processori ad effettuare calcoli sbagliati. Il tentativo di correggere con un software il problema non fu soddisfacente, ma si dovette passare alla sostituzione dei pezzi difettati.

Le competenze relative alla produzione sono radicate nel vecchio continente e i macchinari per la litografia UV di chip usati da colossi come Intel sono prodotti da aziende europee. L’approvvigionamento di chip è storicamente legato all’importazione piuttosto che alla produzione, nonostante gli importanti contributi che l’Europa ha dato al settore.

La crisi dell’approvvigionamento dei chip ha assunto proporzioni tali da portare allo “European Chips Act” della Commissione Europea e alla raccomandazione agli Stati membri per lo sviluppo di un ecosistema europeo per la produzione di chip. Un impulso che può portare a rivedere i processi produttivi per una migliore correzione degli errori.

Errori nei chip: quando ci sono e non si vedono

Il sistema binario è solo un modo diverso di codifica numerica rispetto al sistema decimale ma è divenuto la base dei sistemi di calcolo.

Una delle cause è che con due soli stati possibili è più difficile per le fluttuazioni elettriche cambiare i valori associati ad ogni livello, quindi trasformare una cifra “1” in uno “0” e viceversa. Invece, con dieci livelli diversi di tensione, in un sistema decimale, sarebbe più facile.

Le probabilità di errore dovute a fluttuazioni di variabili fisiche, spesso legate a interferenze ambientali, si possono quindi ridurre, ma non evitare.

Fin dallo sviluppo dei primi circuiti, si è presentato il problema di costruire rappresentazioni dell’informazione capaci di individuare, e magari correggere, gli errori che si generano a livello elettronico e portano al cambiamento di uno o più bit all’interno di una sequenza.

Per capire come funzionano queste tecniche basti pensare al sistema di controllo di parità: data una sequenza di bit, un ulteriore bit viene aggiunto con un valore “0” se la sequenza contiene un numero pari di bit a “1”, “1” in caso contrario.

Se quindi un bit cambia inavvertitamente stato, si viene a creare una discrepanza, poiché il bit di parità ha un valore incompatibile con quello calcolato a partire dalla sequenza.

Questo sistema non consente di individuare il bit “sbagliato” ma di capire che la sequenza non è più affidabile e quindi prendere le opportune contromisure: certamente, se l’interferenza cambia il valore di due bit nella sequenza, il sistema di controllo di parità è incapace anche di individuare l’errore.

Esistono numerosi altri modi e sistemi di calcolo che, al prezzo di aggiungere una certa ridondanza nei dati di un circuito elettronico, consentono di individuare e, sotto certe condizioni, addirittura correggere eventuali errori.

Grazie ad approcci come i codici a correzione di errore è possibile costruire circuiti che danno l’impressione di essere esatti poiché compensano entro certi limiti gli errori che si producono al loro interno.

Errori nei chip: cosa è lo yield e il ruolo del design

I processi produttivi di litografia dei circuiti sui wafer di silicio non sono perfetti: lo yield di un wafer è la percentuale di processori di un wafer stampato che funzionano correttamente.

I produttori cercano di ottenere wafer con il più alto numero possibile di processori funzionanti per massimizzare la produzione, e per ridurre le perdite dovute a stampe difettose sono stati sviluppati metodi ingegnosi.

Si veda l’introduzione sul mercato da parte di AMD di processori con tre core anziché quattro: processori a quattro core di cui uno difettoso e disabilitato per non eliminare i tre funzionanti.

Più cresce la densità di transistor per unità di superficie, più aumenta la probabilità di generare errori: sia di stampa di chip malfunzionanti, sia di bit che possono cambiare inavvertitamente il proprio stato.

La crescita della complessità nei processori ha reso sempre più difficile individuare malfunzionamenti: i ricercatori di Google hanno cominciato a studiare il problema di core che non si comportano secondo le attese, a dispetto del controllo degli errori. Il crescere della complessità e degli stati in cui si può trovare un processore rende sempre più difficile assicurare una piena correttezza del suo funzionamento.

Ai difetti di produzione vanno poi aggiunti gli errori di design: alcuni, come il bug FDIV, legati alla stampa di un progetto errato; altri legati a effetti elettrici dovuti alla vicinanza di alcune componenti nella stampa che finiscono per generare interferenze inattese. È comprensibile che vi possano essere stati inconsistenti in oggetti composti da oltre 38 miliardi di transistor.

Conclusioni

Negli ultimi anni, la miniaturizzazione spinta dei processi di stampa dei chip sta introducendo un progressivo aumento degli errori di natura elettrica ed elettronica, errori che possono essere saltuari e quindi difficili, se non impossibili, da riprodurre.

Allo stesso tempo, la domanda per nuovi chip da parte dell’industria continua a salire, introducendo chip con potenziali malfunzionamenti sporadici in apparati di controllo che possono avere impatto sulla vita reale: basti pensare alle conseguenze del fallimento di un chip che controlla un’auto o un drone.

Le tecniche di controllo degli errori, che hanno messo al sicuro decadi di sviluppo, cominciano a mostrare i primi segni di cedimento, e nuove tecniche saranno necessarie per tenere sotto controllo il comportamento di sistemi sempre più critici e complessi.

Il nuovo impulso dato dalla Commissione Europea allo sviluppo di un ecosistema di produzione di microchip in Europa può sicuramente rappresentare un’opportunità anche per rivedere il design di questi oggetti microscopici destinati a supportare il nostro futuro.