L’allineamento dei modelli linguistici è un obiettivo centrale nello sviluppo dell’intelligenza artificiale generativa.
Tecniche come il Reinforcement Learning from Human Feedback (RLHF) permettono di adattare i modelli linguistici di grandi dimensioni (LLM) alle aspettative umane, ma il processo è complesso, costoso e non privo di rischi.
Comprendere come queste tecniche operano e si evolvono è essenziale per valutarne l’efficacia e le implicazioni.
Indice degli argomenti
Introduzione al Reinforcement Learning from Human Feedback (RLHF)
L’Apprendimento per Rinforzo da Feedback Umano (RLHF) si è affermato come una tecnica di machine learning (ML) cruciale per affinare e allineare i modelli linguistici LLM e altri sistemi di intelligenza artificiale generativa con le aspettative umane.1
Questo approccio fonde la potenza dell’apprendimento per rinforzo (RL), in cui un agente impara a prendere decisioni per massimizzare una ricompensa, con la complessità e le sfumature del giudizio umano. Integrando direttamente il feedback umano nel ciclo di addestramento, l’RLHF si prefigge di rendere i modelli di IA più abili nel generare output che non siano solo tecnicamente corretti, ma anche utili, innocui e in linea con le preferenze, i desideri e le aspettative degli utenti.1
La rilevanza dell’RLHF emerge soprattutto quando si affrontano compiti in cui la definizione di “successo” è soggettiva o difficile da esprimere in termini puramente algoritmici.3 I modelli pre-addestrati, pur disponendo di una vasta conoscenza linguistica e capacità generative, spesso mancano della sensibilità necessaria per cogliere le sottigliezze dell’intento umano o delle norme sociali.4
L’RLHF interviene per colmare questa lacuna, migliorando le prestazioni del modello, introducendo parametri di addestramento complessi come lo “spirito” o il “tono” e, in ultima analisi, incrementando la soddisfazione dell’utente.1 Un esempio pratico è il miglioramento della traduzione automatica, dove il feedback di un traduttore professionista può rendere le traduzioni generate artificialmente più naturali e fluenti.1
Fase 1: Fine-Tuning Supervisionato (Supervised Fine-Tuning – SFT)
La fase iniziale del processo RLHF consiste tipicamente nel Fine-Tuning Supervisionato (SFT) di un modello linguistico che è già stato pre-addestrato.4 Questo passaggio è di fondamentale importanza per adattare il modello base a seguire istruzioni specifiche e a generare risposte in un formato desiderato, preparando il terreno prima di introdurre i meccanismi più complessi di apprendimento delle preferenze.
Lo scopo primario dell’SFT nel contesto dell’RLHF è quello di fornire al modello LLM una solida base di partenza, insegnandogli a comprendere e a rispondere a una varietà di prompt in modo coerente e pertinente.6
A differenza del pre-addestramento, che si concentra sull’apprendimento di pattern linguistici generali da immensi corpus di testo non etichettato, l’SFT utilizza un dataset più piccolo e accuratamente curato, composto da coppie di “prompt” e “risposte dimostrative” di alta qualità.5 Queste risposte dimostrative sono solitamente create da etichettatori umani e rappresentano esempi del comportamento che si desidera il modello apprenda.5
Gli obiettivi specifici dell’SFT includono la specializzazione del modello in compiti specifici (come la generazione di riassunti o la risposta a domande), l’apprendimento del formato di output atteso, un primo livello di allineamento con le istruzioni umane e la creazione di una policy di partenza che servirà come base per le successive fasi di addestramento.5 Durante l’SFT, i parametri del modello pre-addestrato vengono aggiornati per minimizzare la differenza tra le sue predizioni e le risposte target nel dataset supervisionato. Questo si ottiene tipicamente cercando di massimizzare la probabilità dei token corretti nella risposta dimostrativa, data la sequenza di input.8
Il processo di SFT si articola nella preparazione del dataset e nell’effettivo fine-tuning del modello. Per la preparazione del dataset, si raccolgono o si creano prompt che coprono una vasta gamma di scenari e, per ognuno, etichettatori umani scrivono risposte di alta qualità.5 Questi dati vengono poi strutturati in coppie di prompt e risposta.6 Per il training vero e proprio, si seleziona un LLM pre-addestrato e lo si addestra ulteriormente su questo dataset SFT.6 Il modello genera una predizione per un dato prompt, si calcola quanto questa si discosti dalla risposta dimostrativa e si aggiornano i pesi del modello per ridurre tale discrepanza, gestendo attentamente iperparametri come il tasso di apprendimento e il numero di cicli di addestramento, e valutando costantemente le prestazioni per evitare un eccessivo adattamento ai dati di training.5
Per massimizzare l’efficacia della fase SFT, è cruciale aderire a best practice consolidate. Queste includono la garanzia della qualità dei dati attraverso pulizia, rappresentatività e bilanciamento 10, l’impiego di annotatori esperti 8, un’attenta ottimizzazione degli iperparametri (come un tasso di apprendimento basso per non sovrascrivere la conoscenza pre-addestrata 5), e un monitoraggio costante per prevenire l’overfitting, ad esempio interrompendo il training quando le prestazioni smettono di migliorare o utilizzando tecniche come il dropout.5 È anche importante considerare il “congelamento” di alcuni layer iniziali del modello per preservare la conoscenza generale e valutare continuamente le prestazioni su dati completamente nuovi e in scenari d’uso realistici.10 Un SFT di alta qualità è fondamentale perché riduce lo sforzo e migliora l’efficienza delle fasi successive di RLHF. Tuttavia, è importante riconoscere che i bias umani presenti nei dati dimostrativi vengono inevitabilmente appresi dal modello durante questa fase.5
Nonostante l’SFT migliori significativamente l’allineamento iniziale, presenta dei limiti. È difficile creare dataset SFT che coprano tutte le possibili sfumature del comportamento umano desiderato, e la creazione di dati di alta qualità è un processo manuale, costoso e poco scalabile.4 Inoltre, il modello SFT può ancora generare output non ottimali o dannosi, poiché imitare le risposte dimostrative non cattura pienamente il concetto più soggettivo di “preferenza” umana.3 Questi limiti evidenziano la necessità delle fasi successive dell’RLHF: l’addestramento di un Modello di Ricompensa per apprendere una funzione di preferenza più sfumata e l’ottimizzazione della policy tramite RL per massimizzare tale preferenza.
Fase 2: addestramento del modello di ricompensa (Reward Model – RM)
Superata la fase di SFT, il passo successivo e centrale nell’architettura RLHF è l’addestramento di un Modello di Ricompensa (RM). Questo componente è progettato per apprendere e quantificare le preferenze umane, trasformando giudizi qualitativi in segnali numerici utilizzabili per l’ottimizzazione successiva del modello LLM.
Lo scopo fondamentale del Modello di Ricompensa è quello di agire come un “rappresentante” del giudizio umano.1 Esso impara una funzione che, data una coppia di prompt e risposta generata, assegna un punteggio scalare (la “ricompensa”) che riflette quanto quella risposta sia preferibile o di alta qualità secondo le valutazioni umane.1 Questo punteggio di ricompensa diventa il segnale guida per la fase di apprendimento per rinforzo. Il RM è quindi il fulcro del processo RLHF, poiché incapsula le preferenze che si desidera infondere nel modello finale.12
Dal punto di vista architetturale, il RM è spesso inizializzato a partire dai pesi del modello SFT (o di un altro modello pre-addestrato di dimensioni comparabili).13 A questa base viene solitamente rimossa la parte finale che predice il token successivo e sostituita con un nuovo strato di output che predice il singolo punteggio di ricompensa.13 L’input del RM è costituito dal prompt originale e da una risposta generata dal modello LLM per quel prompt; l’output è il singolo valore numerico di ricompensa.5 L’accuratezza e la capacità di generalizzazione del RM sono di importanza critica.
L’addestramento del RM si basa su un dataset specificamente creato per catturare le preferenze umane. Questo processo di raccolta dati è intensivo e richiede un’attenta pianificazione.12 Tipicamente, si selezionano dei prompt e, per ognuno, si generano diverse risposte utilizzando il modello LLM corrente (inizialmente, il modello SFT).1 Queste risposte multiple vengono presentate a etichettatori umani, i quali le valutano e le classificano dalla migliore alla peggiore, o più comunemente, indicano quale tra due risposte è preferibile.1 Questo formato di confronto a coppie (prompt, risposta vincente, risposta perdente) è molto diffuso.9 La qualità, la coerenza e la diversità del feedback umano sono cruciali, nonostante la soggettività intrinseca e la potenziale variabilità tra diversi etichettatori.3
L’obiettivo dell’addestramento del RM è quello di apprendere una funzione di punteggio che assegni valori coerenti con le preferenze umane espresse. Quando si dispone di dati di confronto a coppie, dove una risposta è preferita rispetto a un’altra per un dato prompt, la funzione di perdita del RM mira a massimizzare la probabilità che il punteggio assegnato dal RM alla risposta preferita sia maggiore di quello assegnato alla risposta non preferita.2 In sostanza, il RM viene penalizzato se assegna un punteggio più alto alla risposta “perdente” o se la differenza tra i punteggi della risposta “vincente” e quella “perdente” non è sufficientemente grande a favore della prima.9 L’uso di confronti a coppie è spesso preferito rispetto alla richiesta di punteggi assoluti, poiché i giudizi relativi tendono ad essere più consistenti.3 Alcune formulazioni più recenti, come quella utilizzata per Llama 2, cercano di incorporare anche l’intensità della preferenza, se disponibile, ad esempio richiedendo che la differenza nei punteggi di ricompensa superi un certo margine.15
L’addestramento di un RM efficace è irto di sfide. La qualità del feedback e i bias umani sono critici: il RM è estremamente sensibile alla qualità e coerenza del feedback e può apprendere i bias intrinseci dei valutatori (culturali, cognitivi), propagando comportamenti indesiderati al modello LLM finale.11 Garantire che il RM generalizzi bene a prompt e risposte non viste durante il training è un’altra sfida cruciale; una scarsa generalizzazione, o misgeneralization, può portare il RM ad assegnare ricompense inaccurate.12 Infine, uno dei problemi più discussi è l’overfitting al RM, noto anche come reward hacking. La policy LLM, durante l’ottimizzazione RL, potrebbe imparare a “ingannare” il RM, generando output che ottengono un punteggio elevato ma che non corrispondono a un reale miglioramento della qualità percepita dall’uomo, o che risultano addirittura degeneri (ad esempio, generando risposte verbose se il RM favorisce la lunghezza).11 Una tecnica comune per mitigare questo è la regolarizzazione durante la fase RL, che penalizza la deviazione della policy LLM dalla sua versione SFT iniziale.2 Il RM, pur essendo un artefatto tecnico, diventa un codificatore di valori, e le scelte fatte durante la sua creazione hanno profonde implicazioni etiche sull’allineamento finale del modello.5
Fase 3: Ottimizzazione della Policy con Apprendimento per Rinforzo (RL)
Una volta addestrato un Modello di Ricompensa (RM) capace di quantificare le preferenze umane, la terza e ultima fase principale dell’RLHF consiste nell’utilizzare tale RM per ottimizzare la policy del modello linguistico di grandi dimensioni attraverso tecniche di Apprendimento per Rinforzo (RL).
In questa fase, il modello LLM, tipicamente inizializzato con i pesi ottenuti dal Supervised Fine-Tuning (SFT), viene trattato come un agente all’interno di un ambiente di RL.11 I concetti fondamentali dell’RL vengono adattati al contesto della generazione di testo: lo stato è il contesto attuale (prompt più token generati), l’azione è la scelta del prossimo token, la policy è l’LLM stesso che produce una distribuzione di probabilità sui token successivi, e la ricompensa, fornita dal RM, viene assegnata al termine della generazione di una risposta completa.9 L’obiettivo dell’LLM è apprendere una policy che massimizzi la ricompensa attesa dal RM, guidandolo a produrre output più allineati con le preferenze umane codificate nel RM.1
Tra i vari algoritmi di RL, il Proximal Policy Optimization (PPO) è diventato uno standard de facto per l’ottimizzazione della policy nell’RLHF, grazie alla sua relativa semplicità, stabilità e buona efficienza campionaria.5 PPO è un algoritmo on-policy, che apprende migliorando la stessa policy usata per raccogliere dati. Il cuore di PPO è la sua funzione obiettivo surrogata “clipped”, che mira a ottenere il massimo miglioramento possibile della policy, ma in modo cauto, per evitare aggiornamenti troppo grandi che potrebbero destabilizzare l’apprendimento.20 Questa funzione limita quanto la nuova policy può discostarsi dalla vecchia policy usata per raccogliere i dati, basandosi su un rapporto di probabilità tra le due e una stima della “funzione di vantaggio”. La funzione di vantaggio stima quanto un’azione specifica sia migliore o peggiore rispetto all’azione media attesa in quello stato.20 Se il vantaggio è positivo, la probabilità dell’azione viene aumentata, ma in modo controllato dal clipping; se è negativo, viene diminuita, sempre con cautela. PPO opera iterativamente: raccoglie dati, calcola ricompense e vantaggi, e poi aggiorna la policy e una funzione valore (che aiuta a stimare meglio i vantaggi futuri).19
Un aspetto critico dell’ottimizzazione RL è il rischio che la policy LLM si allontani eccessivamente dalla policy di riferimento iniziale (il modello SFT), potendo dimenticare la conoscenza linguistica generale o sovra-ottimizzare il RM (reward hacking).2 Per mitigare ciò, si introduce una penalità nella funzione obiettivo dell’RL che scoraggia la policy dall’allontanarsi troppo dalla policy di riferimento. Questa penalità è comunemente la divergenza di Kullback-Leibler (KL) tra le distribuzioni di output delle due policy.2 L’obiettivo RL complessivo diventa quindi massimizzare la ricompensa del RM meno un termine proporzionale a questa divergenza KL. Il coefficiente di questa penalità,
β, controlla la forza della regolarizzazione: un β alto mantiene la policy vicina a quella di riferimento, limitando l’apprendimento di nuove preferenze ma preservando la coerenza; un β basso permette più ottimizzazione verso il RM ma aumenta il rischio di reward hacking o perdita di qualità linguistica.15 La scelta di
β è un compromesso cruciale. PPO, essendo un algoritmo RL, gestisce anche il dilemma tra esplorazione (provare nuove sequenze di token) e sfruttamento (usare sequenze note per essere buone), con la sua natura stocastica e il meccanismo di clipping che modulano questo bilanciamento.11
Analisi tecnica approfondita e sfide dell’RLHF
Nonostante i successi dimostrati, l’RLHF presenta una serie di complessità intrinseche e sfide significative che ne limitano l’applicabilità universale e ne guidano la continua evoluzione.
La natura stessa della generazione di testo impone sfide formidabili dal punto di vista dell’apprendimento per rinforzo. Lo spazio degli stati (possibili sequenze di token parziali) e quello delle azioni (il vocabolario da cui scegliere il token successivo) sono enormi, rendendo l’esplorazione efficiente e la convergenza verso policy ottimali estremamente complesse.12 Gli stati stessi hanno una struttura complessa, essendo sequenze di testo con ricca semantica. Inoltre, esiste una discrepanza fondamentale e persistente tra l’obiettivo che si cerca di ottimizzare (le preferenze umane) e ciò che viene effettivamente massimizzato (il punteggio del RM), poiché il RM è solo un’approssimazione imperfetta delle vere preferenze.12
Uno dei principali ostacoli all’adozione diffusa dell’RLHF è il suo elevato costo e la limitata scalabilità della supervisione umana.11 La creazione di dataset di alta qualità per l’SFT e, soprattutto, la raccolta del feedback umano per addestrare il Modello di Ricompensa sono processi laboriosi, costosi e richiedono tempo.11 A ciò si aggiungono i significativi costi computazionali per l’addestramento di LLM di grandi dimensioni e l’esecuzione di algoritmi RL.11
Il feedback umano, pur essendo la guida nell’RLHF, è intrinsecamente soggettivo e prono a vari tipi di bias (individuali, culturali, cognitivi, demografici).3 Il Modello di Ricompensa, addestrato per mimare questi giudizi, inevitabilmente apprende e interiorizza tali bias, che possono poi essere perpetuati o amplificati dall’LLM finale, portando a comportamenti ingiusti o distorti.11 La composizione del team di etichettatori e le istruzioni fornite loro sono quindi di cruciale importanza.5
Il reward hacking (o sovra-ottimizzazione della ricompensa) è un fenomeno pervasivo in cui l’LLM impara a massimizzare il punteggio del RM in modi che non corrispondono a un reale miglioramento del comportamento desiderato, sfruttando le imperfezioni del RM.11 Esempi comuni includono il length bias, dove il modello genera risposte eccessivamente verbose se il RM, anche implicitamente, favorisce la lunghezza.17 Le strategie di mitigazione includono la regolarizzazione KL, la modifica della funzione di ricompensa (reward shaping, come il recente approccio Preference As Reward – PAR 23), l’uso di più RM, il miglioramento iterativo del RM e l’audit umano.
Infine, l’RLHF solleva importanti questioni etiche. L’aumento della “naturalezza” delle risposte può intensificare la tendenza umana ad antropomorfizzare questi sistemi, portando a un’eccessiva fiducia o a un uso inappropriato.16 La mancanza di trasparenza nel funzionamento del RM e nell’ottimizzazione RL complica l’audit. La responsabilità per output dannosi diventa complessa, e i valori di un gruppo limitato di etichettatori possono essere codificati e amplificati.5 Inoltre, le tecniche di allineamento possono essere sfruttate per scopi malevoli (dual use).25 Le sfide di scalabilità, bias e reward hacking sono interconnesse: la pressione per scalare può compromettere la qualità del feedback, aumentando bias e rischio di hacking.11 L’RLHF è un tentativo di approssimare preferenze umane complesse con un modello matematico, e questo “gap” è la fonte ultima di molte di queste sfide.1
Alternative e sviluppi recenti nell’allineamento degli LLM
Le sfide e le complessità dell’RLHF tradizionale hanno stimolato una fervente attività di ricerca volta a sviluppare approcci alternativi o complementari per l’allineamento dei modelli linguistici di grandi dimensioni. Tra questi, il Direct Preference Optimization (DPO), la Constitutional AI (CAI) con il Reinforcement Learning from AI Feedback (RLAIF), e il più recente Preference Flow Matching (PFM) stanno emergendo come direzioni promettenti.
Il Direct Preference Optimization (DPO) rappresenta una significativa semplificazione della pipeline RLHF tradizionale.14 La sua innovazione principale consiste nell’eliminare la necessità di addestrare esplicitamente un modello di ricompensa separato e, successivamente, di utilizzare complessi algoritmi di apprendimento per rinforzo.14 Invece, DPO ottimizza direttamente i parametri della policy LLM per aumentare la probabilità delle risposte preferite dagli umani rispetto a quelle non preferite. Questo si ottiene minimizzando una funzione di perdita che incoraggia la policy LLM a rendere la “ricompensa implicita” (legata al rapporto di probabilità tra la policy corrente e una di riferimento) maggiore per la risposta preferita rispetto a quella rifiutata, penalizzando al contempo la deviazione dalla policy di riferimento.14 I vantaggi di DPO includono maggiore semplicità, stabilità e spesso prestazioni comparabili o superiori all’RLHF, pur essendo computazionalmente più efficiente.14 Una limitazione è che DPO, nella sua forma base, considera solo l’ordinamento delle preferenze e non la loro intensità, un aspetto che varianti come ODPO (DPO with an offset) cercano di affrontare.26
La Constitutional AI (CAI), sviluppata da Anthropic, propone un approccio alternativo focalizzato sull’aderenza a un insieme di principi espliciti o a una “costituzione” scritta in linguaggio naturale.25 Invece di fare affidamento primariamente sul feedback umano diretto, la CAI utilizza il modello stesso (o un altro LLM supervisore) per criticare e revisionare le proprie risposte basandosi su questi principi costituzionali. Questo processo, noto come Reinforcement Learning from AI Feedback (RLAIF), prevede la definizione di una costituzione, la generazione di risposte da parte di un LLM, la valutazione di tali risposte da parte di un altro LLM rispetto alla costituzione (generando etichette di preferenza AI), l’addestramento di un RM su queste preferenze AI e infine l’ottimizzazione della policy LLM target tramite RL.25 I vantaggi includono maggiore scalabilità (riducendo la dipendenza dal feedback umano diretto), potenziale aumento della trasparenza dei principi guida e una migliore gestione del compromesso tra utilità e innocuità del modello.25 La qualità dell’allineamento dipende criticamente dalla qualità della costituzione e dalla capacità dell’LLM supervisore di applicarla correttamente.
Il Preference Flow Matching (PFM), presentato a NeurIPS 2024, è un framework innovativo che apprende direttamente un “flusso di preferenza” per trasformare distribuzioni di dati meno preferiti in distribuzioni di dati più preferiti, con un focus sulla riduzione della necessità di un fine-tuning estensivo del modello originale e sulla robustezza al reward overfitting.33 PFM modella una trasformazione che porta da un output “cattivo” a uno “buono” apprendendo un campo vettoriale che definisce la direzione e l’intensità di questo flusso. Una volta appreso, si possono generare campioni migliorati partendo da un output iniziale e “fluendo” lungo la traiettoria definita dal campo vettoriale.33 I potenziali vantaggi includono una ridotta dipendenza dal fine-tuning del modello base (rendendolo adatto a modelli black-box), maggiore robustezza al reward overfitting (evitando la stima di una funzione di ricompensa), efficienza computazionale e la possibilità di miglioramento iterativo.33
In sintesi, mentre l’RLHF classico è potente ma complesso, la ricerca si sta muovendo verso metodi più diretti ed efficienti come DPO e PFM, e verso approcci che modulano la supervisione umana come CAI/RLAIF. Questa evoluzione mira a rendere l’allineamento più accessibile, robusto e scalabile, affrontando al contempo le sfide intrinseche del catturare e implementare le complesse preferenze umane.
Applicazioni RLHF pratiche e casi di studio significativi
L’RLHF e le sue varianti hanno trovato applicazione in una vasta gamma di domini, trasformando le capacità dei modelli LLM e di altri sistemi di IA generativa. Il loro impatto è particolarmente evidente nel miglioramento dell’interazione uomo-macchina e nella generazione di contenuti di alta qualità.
Una delle applicazioni più immediate e di impatto dell’RLHF è il potenziamento di chatbot e assistenti virtuali.1 L’RLHF permette di addestrare i chatbot a comprendere meglio l’intento dell’utente, mantenere il contesto della conversazione, generare risposte più naturali e coinvolgenti, e soprattutto essere utili e innocui, rifiutando richieste inappropriate o rispondendo con cautela a temi sensibili.1 L’obiettivo è trasformare i chatbot in veri partner conversazionali.18
Oltre ai sistemi dialogici, l’RLHF è ampiamente utilizzato per migliorare la qualità, la coerenza e l’aderenza a specifici vincoli stilistici nella generazione di una vasta gamma di contenuti, come riassunti di documenti, stesura di articoli, creazione di storie, generazione di codice e persino in domini come la generazione di immagini o musica, dove il feedback umano può guidare verso risultati più realistici, artistici o emotivamente risonanti.1
Il lavoro su InstructGPT, pubblicato da OpenAI nel 2022 5, è considerato uno dei casi di studio seminali che ha dimostrato l’efficacia dell’RLHF su larga scala per allineare GPT-3 a seguire le istruzioni umane in modo più utile, onesto e innocuo.5 ChatGPT è una diretta evoluzione di questi principi.9
La metodologia di InstructGPT ha seguito le tre fasi canoniche: SFT su prompt e risposte umane, addestramento di un RM su classifiche umane di risposte modello, e ottimizzazione della policy SFT con PPO usando il RM.5 I risultati sono stati notevoli: i modelli InstructGPT, anche di dimensioni inferiori, sono stati giudicati dagli umani come significativamente migliori rispetto al GPT-3 originale non allineato, mostrando anche miglioramenti in veridicità e riduzione della tossicità.5 Questi modelli hanno definito e popolarizzato l’approccio RLHF, dimostrando come un investimento relativamente contenuto in feedback umano mirato possa migliorare drasticamente l’usabilità e la sicurezza di LLM estremamente potenti.5
Le interazioni utente con modelli come ChatGPT generano a loro volta dati preziosi per futuri cicli di RLHF, creando un potenziale ciclo virtuoso, ma sollevando anche questioni etiche su consenso e privacy.5
Direzioni future della ricerca nel campo dell’allineamento e della sicurezza dell’IA
Nonostante i notevoli progressi compiuti grazie all’RLHF e alle tecniche correlate, il campo dell’allineamento e della sicurezza dell’IA è lungi dall’essere risolto. Numerose sfide aperte continuano a stimolare la ricerca verso soluzioni più robuste, scalabili ed eticamente fondate.
Diverse aree richiedono ulteriori indagini. La scalabilità sostenibile del feedback rimane un ostacolo, spingendo verso approcci come RLAIF o l’uso di simulazioni.27 La robustezza al reward hacking necessita di RM e algoritmi RL intrinsecamente più resistenti allo sfruttamento.17
La gestione dei bias e l’equità richiedono un’attenta considerazione della diversità degli etichettatori e lo sviluppo di metriche specifiche.11
Aumentare l’interpretabilità e la trasparenza del processo RLHF è fondamentale per la fiducia.25 Sono necessari meccanismi per un allineamento continuo e adattivo, dato che le preferenze e i rischi evolvono.
La valutazione deve andare oltre le semplici preferenze, considerando aspetti più profondi come la veridicità a lungo termine e l’impatto sociale. Recentemente, si è iniziato a studiare come la regolarizzazione KL standard potrebbe non essere sufficiente a mitigare errori di misspecificazione della ricompensa che seguono distribuzioni a coda pesante, un fenomeno che richiede ulteriori approfondimenti per la robustezza dell’RLHF.22 L’RLHF, sebbene potente, deve essere visto come parte di un approccio più ampio alla sicurezza e all’etica dell’IA.16
Una direzione promettente è l’integrazione dell’RLHF con altre tecniche, come la Retrieval-Augmented Generation (RAG).35 RAG migliora la fattualità recuperando informazioni da basi di conoscenza esterne, mentre RLHF può allineare stile, tono e utilità della risposta basata su tali informazioni.35 Questa combinazione di pre-addestramento, SFT, RAG e RLHF è essenziale per IA affidabili.35
C’è un crescente riconoscimento che l’allineamento dell’IA non è un problema puramente tecnico, ma richiede un approccio sociotecnico che integri considerazioni istituzionali, etiche e di governance.16 Questo include il coinvolgimento di stakeholder diversificati nella definizione dei valori a cui i modelli dovrebbero allinearsi (come esplorato in iniziative come la “Collective Constitutional AI” 31), lo sviluppo di standard, audit e l’educazione pubblica sull’IA. L’allineamento diventa così un processo di deliberazione sociale continua.
In sintesi, l’RLHF ha rappresentato una pietra miliare per rendere gli LLM più utili, innocui e allineati. Ha migliorato la capacità di seguire istruzioni, la qualità conversazionale e ha instillato nozioni di “innocuità”. Tuttavia, i suoi limiti stanno guidando l’evoluzione verso tecniche come DPO, CAI/RLAIF e PFM, che offrono alternative più semplici, scalabili o robuste. Il futuro vedrà probabilmente una convergenza di queste tecniche e un’enfasi crescente su framework di governance sociotecnici.
I principi del feedback per guidare comportamenti desiderabili rimarranno centrali, ma il viaggio verso un’IA veramente allineata e benefica è continuo, e l’RLHF, con le sue sfide e i suoi successi, ne costituisce un capitolo fondamentale.36
Sitografia
https://arxiv.org/abs/2504.12501
https://aws.amazon.com/it/what-is/reinforcement-learning-from-human-feedback/
https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback
https://www.ibm.com/think/topics/rlhf
https://www.oxen.ai/blog/training-language-models-to-follow-instructions-instructgpt
https://brightdata.com/blog/ai/supervised-fine-tuning
https://www.geeksforgeeks.org/supervised-fine-tuning-sft-for-llms/
https://huyenchip.com/2023/05/02/rlhf.html
https://labelyourdata.com/articles/llm-fine-tuning/supervised-fine-tuning
https://so-development.org/reinforcement-learning-from-human-feedback-rlhf-a-comprehensive-guide/
https://arxiv.org/html/2404.08555v1
https://notesonai.com/RLHF+-+Reinforcement+Learning+with+Human+Feedback
https://arxiv.org/html/2502.14560v2
https://rlhfbook.com/c/08-regularization.html
https://pmc.ncbi.nlm.nih.gov/articles/PMC12137480/
https://arxiv.org/html/2505.12843v1
https://www.superannotate.com/blog/rlhf-for-llm
https://en.wikipedia.org/wiki/Proximal_policy_optimization
https://toloka.ai/blog/proximal-policy-optimization/
https://arxiv.org/html/2407.14503v1
https://neurips.cc/virtual/2024/poster/94961
https://arxiv.org/html/2502.18770v1
https://www.researchgate.net/publication/389392526_Reward_Shaping_to_Mitigate_Reward_Hacking_in_RLHF
https://arxiv.org/abs/2402.10571
https://arxiv.org/abs/2503.01076
https://toloka.ai/blog/direct-preference-optimization/
https://arxiv.org/html/2501.17112v2
https://arxiv.org/pdf/2304.12244
https://www.gigaspaces.com/blog/rlhf-rag-and-instruction-fine-tuning