In un esperimento alla scuola Litubium di Torino, abbiamo deciso di mettere alla prova quattro tra i più avanzati sistemi di intelligenza artificiale generativa con una sfida: la prova scritta dell’esame d’avvocato. Volevamo capire se questi modelli – GPT, Claude, Gemini e Deep Seek– non solo conoscono il linguaggio giuridico, ma sono anche in grado di qualificare casi di vita concreta, fornendo proposte di soluzioni. Il risultato? Tre su quattro hanno superato la prova. Vediamo quali abilità giuridiche sembrano possedere questi modelli e quali i possibili impatti sulle professioni legali.
Indice degli argomenti
Esame da avvocato con l’AI: l’esperimento
In collaborazione con la direzione della Scuola Litubium Alta Formazione Professionale di Torino[1], abbiamo sottoposto ai grandi modelli linguistici (Large Language Models – LLM) una traccia d’esame in diritto civile e chiesto loro di redigere un parere[2].
I quattro sistemi coinvolti, tre statunitensi e uno cinese, sono tra i più avanzati disponibili al momento dell’esperimento:
- OpenAI o1 pro, sviluppato da Open AI (evoluzione di GPT);
- Gemini 2.0 Flash Thinking, sviluppato da Alphabet (Google);
- Claude Sonnet 3.7, sviluppato da Anthropic;
- DeepSeek R1, sviluppato dall’omonima impresa cinese.
Abbiamo svolto l’esperimento seguendo questi passaggi:
- Gli studenti della scuola hanno sostenuto regolarmente la prova di diritto civile.
- La traccia ci è stata comunicata
- L’abbiamo sottoposta ai 4 modelli, con un prompt per istruirli su come redigere il compito
- Gli elaborati generati sono stati trascritti a mano e attribuiti a pseudonimi.
- I valutatori, ignari dell’esperimento, hanno corretto tutti i compiti senza distinzioni, sulla base dei criteri utilizzati all’interno della scuola.
- Infine, abbiamo ricevuto le schede di valutazione.
Tre modelli – Open AI o1 pro, Gemini 2.0 Flash Thinking, Claude Sonnet 3.7 – hanno superato l’esame. Solo Deep Seek non ha raggiunto la sufficienza.
AI per l’esame da avvocato, il prompt
Il caso proposto ruotava attorno a un incidente durante un’attività di rafting organizzata dalla Beta Adventure. Tizio, appassionato sportivo, perde la vita in seguito a una caduta accidentale, nonostante il pronto ricovero in ospedale e le cure adeguate, dopo circa sei mesi di coma. La moglie, Sempronia, si rivolge a un avvocato. Il compito è redigere un parere motivato, indicando brevemente il titolo a fondamento della domanda e le componenti del danno risarcibile.
Abbiamo istruito i modelli con un prompt che li mettesse nei panni di un candidato italiano. Fornita la traccia, le istruzioni richiedevano:
- Lunghezza orientativa del testo (1500 parole, 1000 per o1 pro),
- Riferimenti normativi espliciti,
- Eventuale giurisprudenza pertinente,
- Evitare ripetizioni,
- Struttura discorsiva e non strutturata per punti su più livelli.
Queste semplici indicazioni avevano lo scopo di guidare i sistemi in una redazione accurata, giuridicamente corretta e redazionalmente conforme a quanto ci si aspetta.
È noto, che chiedere a un modello di generare un testo di una certa lunghezza è ancora una sfida complicata, un problema non del tutto risolto nei modelli. Per questo, nonostante il limite di circa 1500 parole – che deriva dall’analisi di pareri umani ritenuti sufficienti in passato – abbiamo dovuto procedere per tentativi, cercando un equilibrio che permettesse di rimanere entro i limiti dei due fogli protocollo scritti a mano. Sapevamo che non sarebbe stato facile ottenere una misura precisa. Il modello più verboso (o1 pro) ha raggiunto un risultato accettabile solo imponendo un vincolo più forte nel prompt che, per quanto non rispettato al millimetro, ha comunque contenuto il testo nei margini desiderati.
I giudizi della prova
Il giudizio migliore è stato assegnato a Open AI o1 pro. Secondo i commissari “l’inquadramento giuridico della fattispecie appare corretto, esaustivo e sufficiente” e viene dato “il giusto rilievo ai profili probatori connessi con l’applicazione della disciplina contrattuale ed extracontrattuale applicabili al caso di specie”.
Per tutti e tre i pareri sufficienti – quelli di Open AI o1 pro, Gemini 2.0 Flash Thinking, Claude Sonnet 3.7 – i commissari hanno notato un tratto comune, un atteggiamento descrittivo-prudenziale dei modelli. Di fronte a questioni giuridiche controverse, i sistemi hanno preferito non sbilanciarsi, limitandosi a presentare le diverse interpretazioni possibili senza prendere posizione.
Un’altra tendenza emersa è quella di deviare, in parte, dal tema assegnato: talvolta gli elaborati includono “elementi di fattispecie estranei alla traccia”, che seppur astrattamente condivisibili, non si adattano davvero al quesito proposto al candidato.
Diversa la situazione per l’elaborato di DeepSeek, che non ha superato la prova. Qui i commissari hanno riscontrato errori nei riferimenti normativi e una trattazione debole di aspetti fondamentali come le azioni risarcitorie disponibili e l’onere della prova.
AI per l’esame da avvocato, i comportamenti dei modelli
L’esperimento ha rivelato che questi modelli, pur non essendo addestrati specificamente sul diritto, possono illustrare e applicare nozioni giuridiche. I sistemi che abbiamo testato – e in particolare GPT o1 pro – hanno mostrato la capacità di analizzare e integrare in modo coerente e articolato gli istituti giuridici rilevanti per il caso in esame. La loro prestazione evidenzia accuratezza tecnica, ma anche la capacità di redigere
pareri indistinguibili, agli occhi dei commissari, da quelli redatti da esseri umani. Possiamo dire che hanno superato una specie di “test di Turing giuridico”[3].
È importante sottolineare che questi modelli non sono stati addestrati specificamente sul linguaggio giuridico. Le loro capacità in materia derivano dalla loro competenza generalista, acquisita grazie a un addestramento esteso a ogni tipo di testo, giuridico e no.
È proprio questa vastità di riferimenti a spiegare, da un lato la loro versatilità, e dall’altro la tendenza a uscire dal quesito della traccia, inserendo elementi che, pur in qualche modo connessi al tema, non sono sufficientemente rilevanti. Capire come guidarli con maggiore precisione verso ciò che è più pertinente sarà una delle sfide più stimolanti per le ricerche future.
La cautela sui temi controversi
Un secondo aspetto emerso con chiarezza, è l’attitudine descrittiva, e quindi la cautela con cui i modelli affrontano temi controversi. Evitano di fornire soluzioni definitive qualora diverse alternative siano presenti nel dibattito giuridico; illustrano le varie possibilità interpretative ma raramente scelgono una posizione netta. Questo approccio, che a prima vista potrebbe sembrare una debolezza in ambito valutativo, può rivelarsi invece prezioso, se pensiamo a un uso dell’IA capace di integrare e potenziare le capacità umane, anziché sostituirle. La responsabilità delle scelte interpretative, delle decisioni normative ed etiche e di politica del diritto deve restare saldamente in mano agli esseri umani, ed è qui che l’IA, con la sua capacità di offrire contesto e conoscenze ad ampio spettro e prospettive, può davvero fare la differenza, aiutandoci a decidere meglio.
Il tema della pertinenza, a cui abbiamo già accennato, apre a una questione ancora più ampia: fino a che punto l’intelligenza artificiale è davvero in grado di contestualizzare le proprie conoscenze? In ambito giuridico, ha un significato molto preciso. Non basta conoscere norme, istituti, dottrina e giurisprudenza. Serve anche la capacità di applicare questi saperi ai fatti specifici di una controversia, interpretando la realtà attraverso le lenti del diritto.
Nel nostro esperimento, i modelli hanno dimostrato una discreta capacità di fare proprio questo passaggio: sono riusciti, nella maggior parte dei casi, a sussumere correttamente il caso proposto nelle categorie giuridiche appropriate. È un risultato significativo. Va però ricordato che la traccia su cui si sono misurati era, per sua natura, già “tipizzata”: i fatti erano esposti in modo astratto, semplificato, quasi scolastico. Non c’erano ambiguità, contraddizioni, né zone grigie, elementi che, nella pratica forense, sono invece frequenti.
La vera prova per l’IA generativa sarà allora un’altra: capire se, e come, riuscirà ad affrontare situazioni più complesse e sfumate, in cui i fatti vanno ricostruiti, interpretati e inquadrati nelle molteplici categorie giuridiche possibili. È lì che si gioca il salto di qualità, ed è lì che ci concentreremo nei prossimi sviluppi della nostra ricerca.
Prospettive future dell’AI per l’esame da avvocato
I risultati di questo esperimento sono suggestivi, aprono scenari interessanti e possono già offrire spunti di riflessione, tanto a chi si occupa di diritto, quanto a chi lavora nel campo dell’IA.
Analizzare questi risultati, soprattutto leggendo gli elaborati dei modelli, aiuta a spostare il dibattito oltre i luoghi comuni, per entrare nel merito delle reali capacità e dei limiti dell’IA generativa in campo giuridico. Troppo spesso, infatti, questo tema viene affrontato sulla base di opinioni e preconcetti, invece che attraverso l’osservazione reale del comportamento di questi sistemi.
Va detto che, sebbene la nostra iniziativa sia la prima di questo genere in Italia, e forse anche nei paesi di tradizione giuridica civil law, all’estero non sono mancati esperimenti analoghi, che hanno portato a risultati simili. Il nostro lavoro si colloca in questo solco, pur con alcuni limiti, perché per ora ci siamo concentrati su un solo ambito (il diritto civile) e abbiamo adottato criteri di valutazione non ancora pienamente strutturati.
I prossimi step della ricerca
Proprio per questo, abbiamo deciso di proseguire il nostro percorso con un’indagine più ampia e sistematica. In una prima fase, analizzeremo le prestazioni dei modelli generativi e le loro competenze giuridiche sui compiti dei tradizionali esami professionali del settore, avvocatura, magistratura, e notariato. Abbiamo iniziato nuovi esperimenti, con griglie di valutazione analitica, pensate per identificare con precisione i diversi aspetti delle loro performance. Dagli esami professionali passeremo ad altri, più specifici, compiti giuridici.
Il nostro obiettivo è contribuire a un uso più consapevole, efficace e critico dell’intelligenza artificiale generativa nel diritto. Questi strumenti rappresentano una discontinuità radicale nel rapporto tra diritto e tecnologia. Per la prima volta abbiamo a disposizione sistemi in grado di elaborare (comprendere e generare) il linguaggio naturale con un livello di accuratezza che li rende utilizzabili anche per l’analisi di norme, giurisprudenza, dottrina, e per redigere pareri, sintesi, rassegne e bozze di documenti.
Non è un caso se molti studi legali li stanno già usando con successo. E non è neppure difficile prevedere che il loro utilizzo crescerà rapidamente, sia in senso orizzontale (coinvolgendo sempre più utenti), sia verticale (applicandosi a un numero crescente di compiti, anche specialistici).
Proprio per questo è essenziale sviluppare una conoscenza solida dei loro punti di forza e delle loro fragilità, e prevenirne così un uso improprio o dannoso, per i professionisti, i loro clienti e, in ultima istanza, per il funzionamento del sistema giuridico e della società. Non possiamo affidarci a teorie astratte. I modelli generativi hanno già smentito molte delle idee e delle assunzioni sui loro limiti, dimostrando una sorprendente capacità di comprendere il linguaggio naturale (o almeno di comportarsi come se ne fossero capaci), e di usarlo per generare testi e interagire con noi.
Per capire come integrarli nel mondo del diritto, tenere traccia della loro rapida evoluzione, e farlo con senso critico e responsabilità, serve un approccio sperimentale, empirico, orientato alla valutazione delle loro prestazioni, con precisione e obiettività. È a questo sforzo che vogliamo contribuire, con la convinzione che solo su queste basi potremo accompagnare consapevolmente l’evoluzione delle pratiche giuridiche nell’era dell’intelligenza artificiale.
Note
[1] La Scuola Litubium Alta Formazione Professionale di Torino è accreditata dal 2022 e abilitata a svolgere il percorso di preparazione delle scuole forensi obbligatorie.
[2]Come previsto dall’articolo 46 della legge n. 247 del 2012. L’applicazione di questo articolo è stata sospesa tra il 2020 e il 2025 (inizialmente a causa della pandemia), anni nei quali è stata prevista la sola redazione di un atto giudiziario.
[3] Secondo il test di Turing, si sarà raggiunta l’intelligenza artificiale quando non saremo in grado di stabilire se il nostro interlocutore (di cui non vediamo l’aspetto fisico) sia un essere umano o un sistema artificiale.