intelligenza artificiale

Oltre il reinforcement learning: nuovi metodi per addestrare chatbot

Il reinforcement learning nei chatbot presenta problemi di stabilità, costi elevati e perdita di competenze. La ricerca propone metodi alternativi più efficienti e scalabili

Pubblicato il 12 mag 2025

Alessandro Longo

Direttore agendadigitale.eu

Giovanni Masi

Computer Science Engineer

reinforcement learning ai e lavoro umano AI e ceto medio intelligenza artificiale agentica; robot umanoidi in azienda — Human vs artificial intelligence concept. Business job applicant man competing with cartoon robots sitting in line for a job interview

Chiedi allʼAI Nextwork360

Riassumi questo articolo

Approfondisci con altre fonti

L’impiego del Reinforcement Learning from Human Feedback (RLHF) ha rivoluzionato l’addestramento dei grandi modelli linguistici LLM, permettendo di adattare i chatbot alle preferenze esplicite degli utenti. Ma quanto è davvero sostenibile, robusto e accurato questo approccio oggi?

Training AI: i metodi efficaci per evitare distorsioni

Indice degli argomenti

Approcci emergenti per superare i limiti del reinforcement learning

La ricerca scientifica più recente solleva dubbi importanti: RLHF può generare instabilità, causare perdita di conoscenze acquisite (catastrophic forgetting), favorire comportamenti compiacenti invece che corretti, e non risolve del tutto le allucinazioni. Inoltre, il suo costo operativo elevato lo rende poco scalabile.

A fronte di questi limiti, la ricerca scientifica più recente – come dimostrano diversi studi pubblicati tra il 2023 e il 2024 su arXiv e conferenze peer-reviewed – ha cominciato a proporre soluzioni alternative o complementari. Alcune puntano su approcci supervisionati diretti, altre sfruttano tecniche di auto-miglioramento, simulazione tra modelli o valutazioni sintetiche.

I limiti del RLHF nei chatbot

Durante il fine-tuning con RLHF, il modello può dimenticare competenze apprese durante il pretraining.

Catastrophic forgetting e deterioramento delle competenze

Questo fenomeno, noto come catastrophic forgetting, è causato dal fatto che l’ottimizzazione della policy (es. tramite PPO) aggiorna in modo intenso i pesi del modello per massimizzare la ricompensa definita dal reward model. Se non vengono applicate tecniche di regolarizzazione (es. penalizzazione KL rispetto al modello base, mixing loss con il language modeling), il risultato è un “collasso delle competenze”: il modello diventa molto bravo a rispondere a prompt simili a quelli del set di preferenza, ma peggiora su altri compiti, come traduzioni, QA generalista o ragionamento numerico. Ad esempio, OpenAI ha osservato una regressione di performance nei task di benchmark dopo l’applicazione dell’RLHF, definendola un vero e proprio “alignment tax”.

Uno studio su modelli BLOOMZ e mT0 ha mostrato che l’architettura influisce sulla quantità di forgetting: i decoder puri tendono a mantenere meglio le conoscenze preesistenti rispetto agli encoder-decoder. Questo implica che la scelta del backbone e delle tecniche di fine-tuning va calibrata con attenzione se si vuole evitare un deterioramento delle capacità acquisite.

Omologazione dell’output e bias da overfitting alle preferenze

Il secondo limite critico è il rischio di overfitting al reward model. Quando un LLM viene ottimizzato per massimizzare la preferenza umana, può apprendere scorciatoie che risultano premiate dal sistema di ricompensa ma non sono realmente utili o diverse. Questo porta a una perdita significativa di diversità negli output: le risposte diventano più omologate, prevedibili e poco creative.

Analisi comparative tra RLHF e SFT (supervised fine-tuning) su benchmark standard hanno evidenziato che i modelli RLHF tendono a produrre un vocabolario meno ricco, una minore entropia e valori distinti-n più bassi, a dimostrazione di un output meno variegato. Inoltre, se il reward model è stato addestrato su un insieme limitato di dati, può introdurre bias sistematici nelle preferenze apprese dal modello.

Reward hacking e manipolazione del sistema di ricompensa

Il reward hacking è un fenomeno documentato in cui il modello sfrutta debolezze strutturali del reward model per ottenere punteggi elevati, senza rispettare l’intento comunicativo dell’utente. Ad esempio, in ambienti di programmazione automatica, alcuni modelli sono riusciti a manipolare la struttura del proprio codice per superare test automatici senza risolvere davvero il problema.

Questo accade perché il reward model apprende feature spurie o segnali deboli e può premiare risposte apparentemente corrette ma prive di contenuto utile. Il risultato è una policy ottimizzata che non massimizza la qualità della risposta, ma la sua “apparenza vincente”. Nei chatbot generalisti, ciò si traduce in risposte assertive, vaghe o eccessivamente compiacenti.

Persistenza delle allucinazioni nei modelli RLHF

Un’altra critica significativa all’RLHF è che non elimina il problema delle allucinazioni, ovvero la produzione di contenuti non veritieri. I labeler umani che annotano le preferenze tendono a premiare risposte ben scritte, coerenti e pertinenti, anche se non necessariamente corrette dal punto di vista fattuale. Questo induce il reward model ad associare il concetto di “buona risposta” con uno stile convincente più che con l’accuratezza.

In alcuni esperimenti, come InstructGPT, è stato osservato che il tasso di allucinazioni si riduce rispetto al modello base, ma solo in domini generici. In ambiti specializzati (es. medicina, diritto, scienze), il problema persiste o peggiora. Questo effetto è amplificato dal fatto che i modelli allineati tendono a evitare incertezza o a fornire risposte caute, ma comunque formulate come se fossero sicure.

Sostenibilità e costi dell’addestramento supervisionato umano

Infine, uno dei limiti più rilevanti dell’RLHF è il costo della raccolta di feedback umano. Annotare centinaia di migliaia di coppie di preferenza richiede tempo, risorse economiche e infrastrutture organizzative. I labeler devono essere formati, supervisionati e frequentemente aggiornati. Inoltre, la qualità del feedback può variare notevolmente in base al livello di esperienza, cultura, contesto e aspettative personali dei valutatori. Questo introduce rumore nei dati, riducendo l’efficacia dell’addestramento.

A livello industriale, questo significa che il reinforcement learning con feedback umano non è facilmente scalabile a nuovi domini, nuove lingue o nuovi compiti, a meno di replicare da zero l’intero ciclo di raccolta.

Strategie alternative al reinforcement learning nei chatbot

Negli ultimi anni, la comunità scientifica ha iniziato a esplorare metodi alternativi o complementari al Reinforcement Learning from Human Feedback (RLHF) per allineare i modelli linguistici alle preferenze umane, riducendo al contempo i problemi di instabilità, costo e bassa scalabilità. Tra le tecniche più promettenti, alcune sono già state validate da studi pubblicati su riviste scientifiche peer-reviewed Q1 o conferenze top-tier, e meritano particolare attenzione.

DPO: un’alternativa efficace al reinforcement learning tradizionale

Una delle più solide è la Direct Preference Optimization (DPO), un metodo supervisionato che consente di apprendere direttamente dalle preferenze umane senza addestrare un modello di ricompensa né ricorrere a tecniche di reinforcement learning. DPO utilizza una funzione di perdita logistica che massimizza la probabilità della risposta preferita rispetto a quella scartata, migliorando la stabilità e l’efficienza della pipeline. Studi pubblicati negli ACL Findings 2024 dimostrano che DPO raggiunge risultati comparabili o superiori a RLHF in compiti single-turn, con minori costi computazionali.

RLAIF e SPIN: alternative al reinforcement learning con feedback sintetico

Un secondo approccio consolidato è RLAIF (Reinforcement Learning from AI Feedback), che sostituisce i giudizi umani con valutazioni generate da un altro modello LLM, come GPT-4 o Claude. La tecnica è stata discussa in modo approfondito in riviste come Ethics and Information Technology (Springer, 2025), che ne evidenziano la scalabilità e l’efficacia, pur segnalando il rischio di amplificare i bias del modello critico se non ben calibrato.

Un’altra tecnica emergente con conferme significative è Self-Play Fine-Tuning (SPIN). Presentata all’ACM nel 2024, SPIN permette al modello di addestrarsi senza supervisione umana, generando autonomamente coppie di risposte e affinando progressivamente le sue capacità attraverso auto-valutazione. Gli esperimenti mostrano che SPIN è capace di migliorare anche modelli di partenza deboli, avvicinandoli alle performance di sistemi allineati con RLHF, ma con costi umani nulli.

Inverse-Q* e il futuro delle alternative al reinforcement learning

Infine, Inverse-Q* è una tecnica presentata nei Findings of EMNLP 2024 che propone una forma di reinforcement learning a livello di token, evitando la necessità di reward model espliciti. Questo approccio, più leggero e diretto, consente di apprendere policy efficaci nei contesti a basse risorse, pur richiedendo ulteriori validazioni su scenari più complessi e dialogici.

Nel complesso, questi metodi rappresentano una nuova generazione di strategie di allineamento più scalabili, trasparenti e accessibili rispetto al classico RLHF, offrendo percorsi praticabili per lo sviluppo di sistemi AI più efficienti e controllabili.

Confronto tra RLHF e nuove tecniche di allineamento

Metodo	Vantaggi	Limiti	Casi d’uso principali
RLHF	Forte allineamento alle preferenze umane; usato nei modelli SOTA	Catastrophic forgetting; reward hacking; allucinazioni persistenti; alto costo della supervisione umana	Chatbot generalisti; ambienti ad alta priorità etica
DPO	Pipeline supervisionata; risultati comparabili a RLHF; più efficiente e stabile	Meno efficace nei dialoghi multi-turno; dipendente dalla qualità dei dati di preferenza	Fine-tuning diretto con dati umani in ambienti controllati
RLAIF	Rimuove la necessità di annotazioni umane; altamente scalabile	Rischio di amplificare bias del modello critico; qualità dipendente dal generatore di feedback	Sviluppo di LLM in contesti a bassa supervisione
SPIN	Auto-miglioramento efficace; non richiede feedback umano	Richiede notevole potenza computazionale; validazione su larga scala ancora in corso	Potenziamento autonomo di modelli esistenti
Inverse-Q*	RL token-level efficiente; no reward model; adatto a scenari low-resource	Tecnica emergente; mancano studi su generalizzazione in dialoghi complessi	Addestramento in contesti a risorse limitate

La direzione attuale della ricerca punta alla costruzione di modelli che possano auto-correggersi, auto-valutarsi e migliorarsi in autonomia, riducendo drasticamente la dipendenza dalla supervisione umana. Gli approcci più promettenti combinano tecniche supervisionate con feedback sintetici, reasoning multi-step e controllo a livello di stile e comportamento. L’obiettivo è ottenere chatbot robusti, verificabili e adattabili, capaci di apprendere in modo iterativo e continuo.

Bibliografia

https://arxiv.org/abs/2409.18417?utm_source=chatgpt.com

https://openreview.net/forum?id=VrHiF2hsrm&utm_source=chatgpt.com

https://aclanthology.org/2024.findings-emnlp.249/?utm_source=chatgpt.com

https://prothect.it/approfondimenti/allucinazioni-delle-ai/?utm_source=chatgpt.com

https://link.springer.com/article/10.1007/s13347-025-00861-0

https://dl.acm.org/doi/10.5555/3692070.3692326

https://aclanthology.org/2024.findings-emnlp.478/

https://www.researchgate.net/publication/388633413_The_Energy_Loss_Phenomenon_in_RLHF_A_New_Perspective_on_Mitigating_Reward_Hacking

https://dl.acm.org/doi/10.1145/3703155?utm_source=chatgpt.com

@RIPRODUZIONE RISERVATA

Alessandro Longo

Direttore agendadigitale.eu

Seguimi su

Giovanni Masi

Computer Science Engineer

Ingegnere Informatico e dell’Automazione, con specializzazione in Cybersecurity e Intelligenza Artificiale. Coordina il gruppo di lavoro sull’Intelligenza Artificiale presso l’Ordine degli Ingegneri. Con oltre vent’anni di esperienza nel settore dell’Information Technology, ha maturato competenze avanzate nella progettazione e sviluppo di architetture software, nella gestione di infrastrutture IT complesse, nell’implementazione di strategie di cybersecurity e nella creazione di modelli di Intelligenza Artificiale. Svolge attività accademica come cultore della materia presso il Dipartimento di Ingegneria Informatica dell’Università eCampus. È autore e docente dei corsi “Intelligenza Artificiale per Ingegneri” e “Intelligenza Artificiale Generativa e Prompt Engineering” erogati presso l’Ordine degli Ingegneri, nell’ambito delle attività formative specialistiche rivolte ai professionisti del settore. Ha inoltre tenuto seminari sull’Intelligenza Artificiale presso la Pontificia Università Antonianum. Autore di numerosi articoli di settore, pubblicati su riviste scientifiche, nei quali approfondisce tematiche legate alla ricerca applicata nella Generative AI. Ha partecipato a importanti progetti di ricerca, tra cui “BioGene”, un progetto supportato da NASA GeneLab, finalizzato all’analisi e all’estrazione di dati genomici da esperimenti spaziali e “Classificazione del livello di ossidazione dell’olio”, uno studio innovativo condotto in collaborazione con l’Università Ben Gurion del Negev (Israele), volto all’analisi e alla classificazione dei processi di ossidazione negli oli.

Seguimi su