OpenAI continua con gli annunci e i rilasci di novità per consolidare la sua leadership in un mondo dell’intelligenza artificiale in cui sempre più attori rilasciano quasi quotidianamente nuovi modelli e funzionalità.

E se Anthropic aveva già rilasciato Computer use (il modello consente di controllare un PC per lo svolgimento di semplici compiti) e Google DeepMind Mariner (un agente che naviga controllato da Gemini), è il turno di OpenAI di rilasciare un agente dedicato all’automazione di compiti in grado di manipolare l’interfaccia dedicata a esseri umani “leggendo” lo schermo e cliccando il mouse e la tastiera per conto nostro.

Il primo rilascio pubblico di questa tecnologia è limitata ai possessori della licenza pro di ChatGPT e limitatamente agli Stati Uniti. La sua disponibilità sarà ampliata gradualmente sia ad altri livelli dell’abbonamento che ad altre nazioni, anche se non è chiaro quando sarà disponibile in Europa visto che lo stesso Sam Altman si è lasciato andare a una battuta durante il lancio che sottintendeva una certa polemica per l’attitudine del vecchio continente alle norme. Ho provato questo nuovo strumento che continua a segnare il passaggio dall’AI reattiva a un’AI proattiva per il 2025.

Cos’è Operator e cosa può fare

Il servizio si presenta con la grafica tipica di ChatGPT e con la solita casella di testo in cui possiamo inserire il prompt e alcuni spunti da cui partire. La tecnologia è essenzialmente la stessa del Computer use di Anthropic ma declinata in modo che sia controllabile: il servizio alloca un Web browser Chrome nel cloud e il modello lo utilizza per svolgere automaticamente i compiti richiesti.

Durante il lancio Altman ha dichiarato che il servizio supporta già alcuni servizi esplicitamente, ma i servizi supportati sono diffusi negli Stati Uniti come, ad esempio, OpenTable e InstaCart. La demo si è concentrata sull’automazione di compiti come ad esempio prenotare un ristorante oppure riempire un carrello della spesa a partire dalla scansione di una lista manoscritta.

Una volta inserito il prompt e definito il compito si avvia il task e ci possiamo mettere a osservare come una sorta di video mostra l’AI sforzarsi di controllare il Web browser per raggiungere l’obiettivo proposto. Se l’AI si accorge di aver bisogno di informazioni per poter proseguire, ad esempio un login, sospende le attività e l’utente può prendere il controllo del browser e usarlo come farebbe ordinariamente.

Operator può fare la spesa online al posto nostro

OperatorEsselunga

Guarda questo video su YouTube

Non mi era chiaro quanto Operator funzionasse in assenza di conoscenza di un particolare sito o servizio e, come si vede nel video sopra, ho quindi provato a richiedere l’acquisto di tre cose presso un supermercato italiano consapevole del fatto che uno dei modelli sottostanti è GPT-4o che se la cava egregiamente con la nostra lingua.

Il video mostra l’intera sessione accelerata, e alla richiesta di uova, coca cola e detersivo per lavastoviglie Operator ha prodotto un carrello sul sito in modo che mi ha decisamente sorpreso. Prima ha cominciato a riempire il carrello ma si è accorto che era necessario l’accesso per cui si è sospeso ed ha richiesto le credenziali, ho preso il controllo e sono entrato (con una certa confidenza grazie all’autenticazione a più fattori) ed ho chiesto poi di proseguire nonostante qualche intoppo che ho avuto nel processo e che ho segnalato a Operator mentre cedevo nuovamente il controllo. È divertente assistere all’AI che scrolla le pagine e cerca le informazioni partendo dalla grafica e senza conoscenza di un particolare servizio, ma sicuramente sorprende quando comincia a usare la funzione di ricerca del sito e addirittura i filtri per trovare qualcosa.

Scaricare all’AI i compiti noiosi

L’idea di Operator è quella di scaricare all’AI compiti noiosi che noi ci limitiamo a supervisionare, ma come primo rilascio la funzione sembra usabile ma ancora un po’ rudimentale. Ci sono applicazioni sicuramente efficaci, per esempio è piuttosto semplice barare nella compilazione di un test (ho provato con un test di Analisi), ed è facile immaginare applicazioni per cui sarò veramente grato per la sua esistenza (ad esempio riempire un formulario complesso online avendo già le informazioni che vanno solo riviste per riempire i vari campi).

L’esecuzione è decisamente degna di nota: tutto funziona egregiamente e l’interfaccia è molto pulita e funzionale. È addirittura possibile ottenere un video con i click e i momenti salienti nello svolgimento delle operazioni da condividere.

Quale problema risolve Operator?

Disporre di un’AI che clicca su un browser al posto nostro che problema affronta? Dal punto di vista di OpenAI è decisamente un passo avanti verso l’AGI: un programma è in grado di manipolare sistemi sconosciuti senza necessità di protocolli formali come API e interfacce. Può sembrare una piccola cosa ma è enorme, e se ce ne vogliamo convincere basti pensare al protocollo Bluetooth che dopo quasi trent’anni continua a farci lottare con la macchina per l’effettuazione del pairing di nuovi dispositivi.

Per noi uomini lo strumento offre interessanti spunti per il riempimento di form, un processo per ora difficile da automatizzare e che è fermo alle proposte dei browser nel riempimento dei vari campi che funziona solo per form molto semplici. La preparazione di carrelli della spesa o la ricerca di posti al cinema o in ristoranti può sicuramente aiutare, soprattutto in una nazione come gli Stati Uniti dove la pianificazione online è quasi obbligatoria viste le distanze in gioco.

Cosa cambia rispetto ai motori di ricerca

Ma perché invece dovremmo chiedere le notizie relative a un particolare avvenimento? Non bastano i motori di ricerca per automatizzare la ricerca di informazioni? La risposta che ho trovato provando Operator mi ha sorpreso: quando si richiede di cercare informazioni e si osserva l’AI che naviga per conto nostro appare evidente che, nel bene e nel male, l’AI segue il percorso disegnato per noi esseri umani e ottiene quindi una vista completamente diversa delle informazioni poiché beneficia delle scelte editoriali e compie click sulla base degli elementi grafici disegnati per attrarre e guidare l’uomo. Ecco quindi che si ottengono informazioni meno complete probabilmente rispetto a un motore di ricerca ma più attinenti al proprio bisogno, sicuramente aggiornate, incluso quelle che sono generate dinamicamente e non sono facilmente recuperabili dal motore di ricerca durante l’indicizzazione.

Applicazioni interessanti

Ci sono poi applicazioni molto interessanti nel suo uso, eccone alcune:

Navigare un sito alla ricerca di collegamenti “rotti” o problemi

Valutare l’efficacia dell’organizzazione del sito per una certa categoria di utenti

Effettuare valutazione di accessibilità sostanziale (in fondo Operator svolge molti dei compiti di uno screen reader per non vedenti)

Recuperare informazioni da un sito molto dinamico che fa uso di Javascript

Si tratta di una lista certamente incompleta ma da un’idea che tutto sommato esistono casi d’uso per l’automazione di un Web browser oltre al semplice riempimento di form.

La sicurezza

Quando qualcuno rilascia un servizio che fa qualcosa di utile, gli utenti inevitabilmente lo usano senza porsi troppe domande sulla sua sicurezza. OpenAI assicura che la sessione del browser è privata e viene eliminata al termine della sessione. Gli utenti metteranno le proprie credenziali nel servizio se ritengono che sia utile ed è essenziale che i servizi facciano uso dell’autenticazione a più fattori, altrimenti si rischia che la sicurezza già fragile dei nostri sistemi risulti definitivamente compromessa.

Dal punto di vista dell’uso del sistema per realizzare compiti illeciti come, ad esempio, cercare informazione per realizzare ordigni o chiedere di bucare un account, OpenAI ha messo numerosi controlli nell’addestramento e l’Operator si può rifiutare di svolgere compiti o bloccarsi durante la loro esecuzione. Sono sicuro che questa novità possa comunque porre sfide di natura forense poiché qualcuno si potrebbe procurare alibi grazie a questo tipo di automazione (facilmente individuabili da tecnici se la domanda viene però posta).

Conclusioni

Operator è un servizio interessante e riflette l’approccio che ha caratterizzato finora OpenAI: proporre usi dell’AI che rispondano a qualche bisogno e realizzare un accesso il più semplice possibile alla tecnologia stessa. Per ora lo vedo come uno strumento utile, magari da non usare tutti i giorni, ma che può fare la differenza in tutti quei casi in cui ti sembra di fare la scimmia mentre svolgi un compito ripetitivo in un browser e ti chiedi: ma davvero non si poteva fare meglio?

Vedremo l’evoluzione del servizio nelle prossime settimane, per ora come si usa dire “buona la prima!”.