Perché spendere denaro per inserire un malware o una mail di phishing quando posso carpire le informazioni che mi servono in poco tempo, a costo zero?
Aziende con processi di tesoreria, help desk IT interno o in outsourcing, uso diffuso di telefono/WhatsApp/meeting online e una catena di approvazione che, almeno in urgenza, accetta ancora il “mi fido, mi ha chiamato lui”.
In questo scenario, la voce è diventata un fattore di rischio perché è un canale ad alta fiducia ma a bassa verificabilità: non basta “sentire la voce giusta” per essere sicuri che dall’altra parte ci sia la persona giusta.
Indice degli argomenti
Come i deepfake vocali cambiano il rischio operativo
La combinazione di tre elementi sta cambiando le regole:
(a) lo spoofing telefonico può far apparire credibile il numero chiamante;
(b) la clonazione vocale e i deepfake permettono di “suonare come” un dirigente o un’autorità;
(c) la conversazione in tempo reale serve a ottenere dati, convincere qualcuno a fare un versamento o farsi concedere accessi e autorizzazioni. Per il top management la domanda non è “se” arriverà una chiamata credibile, ma quali decisioni e quali privilegi devono essere impossibili da concedere sulla sola base di una voce.
La telefonata funziona perché è un acceleratore di fiducia. A differenza di un’email, una voce umana (o apparentemente tale) gestisce obiezioni, risponde a domande, crea pressione (“serve ora”, “massima riservatezza”) e spinge le persone a bypassare controlli pensati per situazioni normali.
Spoofing telefonico e fiducia nel numero chiamante
Sul fronte infrastrutturale, il CLI spoofing (manipolazione dell’identità del chiamante) è un moltiplicatore: se sul display compare un numero italiano o perfino un interno noto, aumentano risposta e compliance. AGCOM descrive lo spoofing come manipolazione del Calling Line Identification per rendere il chiamante non identificabile e non richiamabile; nei primi riscontri dell’attivazione dei filtri anti spoofing riporta volumi di chiamate bloccate nell’ordine di milioni al giorno e percentuali di chiamate illecite molto elevate su alcuni operatori/finestre temporali.
Deepfake vocali e clonazione della voce con pochi secondi
Sul fronte “contenuto”, la tecnologia riduce la barriera d’ingresso: OpenAI ha descritto un modello (Voice Engine) capace di generare una voce simile all’originale a partire da un singolo campione di 15 secondi; nella letteratura scientifica, lavori su modelli tipo VALL-E riportano capacità di sintesi “zero shot” con pochi secondi di prompt. Traduzione per il C-level: campioni vocali brevi e disponibili pubblicamente possono essere sufficienti a rendere credibile una richiesta urgente, soprattutto se il processo “accetta” la voce come prova.
Il punto decisivo, però, non è “quanto è perfetto il deepfake”: è che una conversazione in tempo reale può trasformarsi in autorizzazione operativa se i processi lo consentono (ad esempio un bonifico urgente o un reset credenziali fatto “per aiutare”). Questo sposta il tema dal “riconoscere” al “progettare”: rendere il canale voce non sufficiente per sbloccare azioni ad alto impatto.
Casi reali di deepfake vocali che parlano al management
I casi reali che “parlano a chi decide” ce ne sono: in Italia, nel 2025, truffatori hanno usato (secondo le indagini) la voce clonata del ministro della Difesa Guido Crosetto per convincere imprenditori a disporre bonifici “urgenti” legati a falsi riscatti; le cronache riportano trasferimenti nell’ordine del milione di euro e successivi congelamenti delle somme da parte delle autorità.
Nel 2024, un manager di Ferrari ha sventato un tentativo in cui messaggi e una telefonata imitavano l’AD Benedetto Vigna: la difesa, in quel caso, non è stata un software ma una verifica procedurale (una domanda personale di controllo) che ha fatto cadere il pretesto. Il dettaglio conta: non “fare domande personali” a caso, ma avere un rituale di verifica predefinito quando una richiesta è anomala o urgente.
Una lezione parallela (utile perché “normalizza” il rischio) viene dalle istituzioni finanziarie: la Banca d’Italia ha segnalato sia la diffusione di videomessaggi deepfake che riproducono immagine e voce del Governatore Fabio Panetta, sia la presenza di contenuti fraudolenti associati a presunte piattaforme di investimento; in entrambi i casi raccomanda di non dare seguito alle richieste e di diffidare dei messaggi. Se una banca centrale deve fare avvisi pubblici su “voce e volto replicati”, la voce non può più essere considerata un fattore affidabile.
Fuori dall’Europa, un caso ufficialmente descritto dal governo di Hong Kong mostra l’ordine di grandezza: a fine gennaio 2024 una vittima è stata indotta ad autorizzare trasferimenti verso cinque conti locali per oltre 25 milioni di euro dopo un “video meeting” deepfake (basato su clip pubbliche e voci), seguito da istruzioni via messaggistica. È una fotografia di rischio: l’apparenza di presenza dell’organizzazione (meeting, “capi”, contesto) può sostituire la verifica se i controlli non sono vincolanti.
Quando la voce apre la strada a credenziali e privilegi
Accanto alle frodi “da tesoreria”, esiste una via più silenziosa: la conquista di account e privilegi. Okta ha documentato un pattern in cui un attore malevolo chiama il service desk e convince l’operatore a resettare i fattori MFA di utenti altamente privilegiati; una volta ottenuto un account “super admin”, l’attaccante può impersonare utenti e muoversi lateralmente sfruttando funzioni legittime. L’elemento gestionale è evidente: il service desk, se può “abbassare l’asticella” via telefono, diventa un varco strategico.
Per capire la scala, è utile un dato di contesto: nel 2024 l’FBI Internet Crime Complaint Center ha registrato 859.532 segnalazioni totali e perdite complessive dichiarate di 16,6 miliardi di dollari; tra le tendenze, le “call center scams” contano decine di migliaia di segnalazioni e perdite nell’ordine dei miliardi. Anche se queste categorie aggregano più canali (e-mail, SMS, telefono), sono un forte indicatore del fatto che la frode “conversazionale” è già industrializzata.
Scarica il grafico IC3. Il grafico mostra alcune tipologie IC3 rilevanti per frodi e social engineering (phishing/spoofing, tech support, BEC, identity theft, government impersonation).
Anatomia di un attacco via real time voice
In azienda questi attacchi raramente sono “solo voce”. Tipicamente sono catene ibride, costruite per far fare a qualcuno un’azione. L’articolazione è nota ciononostante da non sottovalutare. Abbiamo la fase di preparazione e la raccolta delle informazioni. L’attaccante ricava organigramma, tono comunicativo, urgenze ricorrenti e campioni vocali da fonti pubbliche. Più una voce è “in rete”, più cresce la superficie d’attacco conversazionale.
Le fasi dell’impersonificazione credibile
Poi avviene l’impersonificazione del chiamante con numero chiamante credibile (spoofing), voce credibile (clonazione o buon pretesto) e contesto plausibile (operazione riservata, incidente, audit, scadenza, richiesta banca). L’obiettivo è rendere “normale” ciò che è un’eccezione: far pensare che il bypass sia un atto di efficienza, non una violazione. Si passa poi alla fase di estrazione. La conversazione in tempo reale punta quasi sempre a uno dei quattro asset:
• dati e informazioni (progetti, contratti, contatti, numeri);
• istruzioni di pagamento o variazione beneficiario/IBAN;
• credenziali/OTP/approvazioni MFA o reset via help desk;
• autorizzazioni tecniche (creazione account, assegnazione ruoli, concessione accessi temporanei, chiavi di servizio).
Dietro questi asset c’è un rischio unico: decidere e autorizzare fuori dal workflow tracciato.
Come l’attaccante consolida il primo successo
Infine, avviene il consolidamento. Dopo il primo successo, l’attaccante rafforza la narrativa con follow-up come la messaggistica o nuova chiamata, per ridurre dubbi: “te l’ho già detto”. Qui entrano in gioco incident response e crisis management: bloccare pagamenti, congelare accessi, informare banca/fornitori, preservare evidenze.
Perché i deepfake vocali si fermano con il processo, non con l’orecchio
La contromisura più efficace non è “riconoscere i deepfake”, ma rendere irrilevante la qualità del deepfake: progettare processi in cui una richiesta vocale non è mai prova sufficiente.
Raccomandazioni prioritarie per ridurre il rischio
Raccomandazioni prioritarie con sforzo e priorità stimate (indicative).
Scala orientativa:
Basso = settimane e cambi di policy/processo;
Medio = 1–3 mesi e adeguamenti di flussi/strumenti;
Alto = programmi strutturati (IAM/PAM) multi trimestre.
| Decisione di controllo | Priorità | Sforzo | Costo relativo | Perché funziona contro la voce |
| Regola “no voice-only” per pagamenti, cambio IBAN e urgenze: call‑back su numero noto + conferma scritta in canale aziendale | Alta | Basso | Basso | Spezza il pretesto: la voce non basta mai |
| Doppia approvazione (“dual control”) sopra soglie e per nuovi beneficiari | Alta | Medio | Medio | Riduce il single point of failure umano |
| Hardening del service desk: identity proofing forte per reset credenziali/MFA, ticketing tracciato, “step‑up” per admin | Alta | Medio | Medio | Blocca la via rapida verso privilegi |
| MFA resistente al phishing (passkey/FIDO2) per ruoli sensibili e amministratori | Alta | Medio‑Alto | Medio‑Alto | Riduce takeover anche se l’utente “cede” |
| PAM e accessi just‑in‑time per chiavi e account privilegiati | Alta | Alto | Alto | Limita danno e permanenza |
| Vendor controls su BPO/call center/IT esterni: procedure identiche, audit e logging | Medio | Medio | Medio | Evita che il perimetro “esteso” sia l’anello debole |
| Tabletop ed esercitazioni su frode vocale + playbook di escalation (finance, IT, legal, HR, comunicazione) | Medio | Basso‑Medio | Basso‑Medio | Trasforma rischio “nuovo” in routine gestita |
Autenticazione forte al posto dei segreti condivisibili
Per identità e autenticazione, vale un principio semplice: meno segreti condivisibili via voce, più fattori resistenti al phishing. Le linee guida NIST dedicano una sezione agli “autenticatori ristretti” e scoraggiano la knowledge-based authentication (KBA) perché fragile quando dati personali circolano o vengono estorti; è un argomento forte contro verifiche “a domande” gestite in chiamata e contro procedure di recupero che possono essere “social engineered”.
Deepfake vocali, privacy e dati biometrici
Infine, privacy e compliance: registrazioni vocali, voice biometrics o verifiche basate su voce comportano trattamento di dati personali e, quando usati per identificare un individuo, possono ricadere nel perimetro dei dati biometrici e richiedere basi giuridiche e misure di sicurezza adeguate; l’EDPB richiama esplicitamente che i dati vocali possono essere biometrici quando usati per identificazione univoca.
Tabella comparativa tra attacco, indicatori e mitigazioni
| Tipo di attacco | Cosa cerca | Indicatori “non tecnici” | Mitigazioni chiave |
| Vishing tradizionale | Dati, OTP, autorizzazioni | Urgenza, segretezza, copione, richiesta di codici | Script di rifiuto + call‑back + canali ufficiali |
| Voice cloning/deepfake | Pagamenti, accessi, eccezioni | Voce “giusta” ma contesto insolito, numero nuovo | Regola “no voice-only”, verifica su numero noto, dual control |
| Spoofing del numero | Aumentare tasso di risposta | Numero italiano/“interno” ma richiesta anomala | Awareness + filtri operatore + call‑back su rubrica verificata |
| Help desk social engineering | Reset MFA/credenziali, privilegi | Pressione su SLA, “sono in viaggio”, “il CEO aspetta” | Identity proofing forte, step‑up, logging, approvazione secondaria |
| Meeting deepfake | Autorizzazioni e trasferimenti | “Tutti i capi presenti”, richiesta fondi immediati | Nessuna autorizzazione economica senza workflow tracciato |
Queste categorie riassumono pattern documentati da autorità di settore e casi reali (spoofing, deepfake, service desk).
Checklist per CdA e comitato rischi
• Quali decisioni economiche e quali accessi IT sono oggi autorizzabili “a voce” (anche in emergenza)?
• Esiste una procedura di call back su numero noto e un canale scritto obbligatorio per pagamenti e variazioni di beneficiario?
• Il service desk può resettare MFA o password di utenti privilegiati senza step-up e senza tracciatura forte?
• Gli amministratori usano MFA resistente al phishing (passkey/FIDO2) e accessi privilegiati a tempo (JIT/PAM)?
• I fornitori critici (BPO, IT, payroll, tesoreria) adottano gli stessi controlli e li dimostrano con evidenze?
• In caso di sospetta frode vocale, esiste un playbook con ruoli, escalation e “kill switch” (blocca pagamenti, blocca account, notifica banca)?
• Il board riceve indicatori periodici su social engineering e near miss?
Le domande indicate sono punti coerenti con l’impostazione NIS2 che esplicita formazione e sovrintendenza degli organi direttivi in materia di gestione del rischio cyber.










