scenari

Robot umanoidi domestici : la rivoluzione AI entra in casa



Indirizzo copiato

La nuova generazione di robot domestici umanoidi impara osservando e ascoltando, senza righe di codice. Modelli come Gemini Robotics trasformano parole in azioni, mentre versioni on-device garantiscono privacy e risposte immediate nelle attività quotidiane

Pubblicato il 28 ott 2025

Antonio Chella

Laboratorio di Robotica, dipartimento di Ingegneria Università degli Studi di Palermo



robot umanoidi domestici (1)

Fino a ieri i robot erano bracci in gabbia o giocattoli da fiera. Oggi, per la prima volta, vediamo macchine che capiscono che cosa chiediamo a voce, osservano la scena con videocamere e sensori, e trasformano quelle istruzioni in azioni concrete, adattandosi agli imprevisti.

La svolta porta un nome che leggeremo spesso nei prossimi mesi: Gemini Robotics, la famiglia di modelli di Google DeepMind progettata per far sì che un robot “pensi” con il linguaggio naturale e agisca nel mondo fisico.

È il tassello che mancava per immaginare un umanoide domestico che non si programma con righe di codice, ma si educa parlando e mostrando, un po’ come si fa con una persona. [1]

Come funzionano i modelli vision-language-action

L’idea è semplice da dire e rivoluzionaria da realizzare. Un modello Vision‑Language‑Action (VLA) prende parole e pixel e li traduce in movimenti: “apparecchia per due, attento ai bicchieri” diventa una sequenza di passi: cercare piatti e posate, afferrarli con la presa corretta, evitare ostacoli, posizionare rispettando una geometria minima, con la capacità di ripianificare se trova la lavastoviglie piena o se qualcuno gli cambia istruzioni a metà. Nelle dimostrazioni pubbliche, le varianti di Gemini hanno mostrato abilità insospettabili per un robot: piegare un origami, preparare un’insalata, organizzare un lunch box, mantenendo un dialogo con l’utente. E’ l’incontro tra un modello linguistico che sa ragionare in modo multimodale e un controllo motorio che sa eseguire in sicurezza. [2]

Apprendimento naturale: parlare e mostrare invece di programmare

Il salto di qualità rispetto alla robotica “classica” sta nel rapporto con l’utente. Per anni abbiamo descritto compiti ai robot come se fossero macchine a stati: pulsanti, menù, parametri, coordinate. Con i VLA si passa al linguaggio naturale e alle dimostrazioni. In pratica, parlo al robot e, se serve, gli faccio vedere come fare: afferro, sposto, ruoto; il robot registra video, stato dei motori e traiettorie, e ne costruisce una ricetta riutilizzabile. Non c’è bisogno di migliaia di esempi: la frontiera è arrivare a poche decine, come hanno mostrato i sistemi di teleoperazione a basso costo che negli ultimi anni hanno reso accessibile l’insegnamento “a due mani” e a corpo intero, dal mettere via pentole al saltare dentro un ascensore o al saltare i passaggi in cucina. Queste ricerche, note come ALOHA e Mobile ALOHA, hanno dimostrato che con circa 50 dimostrazioni per compito si possono ottenere risultati stabili su attività domestiche insospettabilmente complesse. È esattamente il tipo di apprendimento dalla famiglia che rende plausibile l’addestramento in casa. [3]

La convergenza tra potenza di calcolo e conoscenza trasferita

Perché proprio ora? Perché la leva non è solo più potenza di calcolo, ma molta più conoscenza trasferita. Nel 2023 DeepMind ha presentato RT‑2, il primo VLA capace di “prendere in prestito” dal Web concetti e relazioni e usarli per decidere cosa afferrare e come, generalizzando a oggetti e istruzioni mai visti finora. Da allora l’architettura è maturata, e Gemini Robotics ne è l’erede naturale: porta il ragionamento spaziale dei modelli Gemini dentro il ciclo percepire‑decidere‑agire, collegando ciò che il robot “capisce” dalle immagini e dalle parole con ciò che fa con pinze e braccia. È la differenza tra sapere cos’è una tazza e scegliere da che lato prenderla per non rovesciarla. [4]

Dataset condivisi e modelli fondazionali per umanoidi

Un’altra ragione è la disponibilità di dati robotici veri e di modelli addestrati su molti corpi. Con il progetto Open X‑Embodiment, oltre un milione di traiettorie reali raccolte su 22 tipi di robot, come bracci, sistemi bimanuali, quadrupedi, sono state unificate in un formato comune. È un patrimonio che ha permesso di addestrare modelli “generalisti” in grado di trasferire esperienze da una piattaforma all’altra: se un braccio ha imparato a svitare un tappo, un umanoide può farlo meglio e prima. Accanto a Google si è mossa NVIDIA con GR00T N1, un modello fondazionale aperto per umanoidi, già disponibile su Hugging Face e in aggiornamento continuo, pensato proprio per addestrare macchine a forma umana a seguire istruzioni, imparare da video egocentrici e dati sintetici e generalizzare con pochi esempi. Non è una gara tra aziende: è la conferma che la piattaforma cognitiva per robot domestici sta diventando infrastruttura condivisa. [5]

Elaborazione locale: privacy e tempo reale

Il tassello finale, fondamentale per la casa, è la versione on‑device. A giugno 2025 Google DeepMind ha presentato Gemini Robotics On‑Device, ottimizzato per girare in locale direttamente sul robot, con bassa latenza e requisiti computazionali ridotti. Significa due cose molto concrete: il robot risponde in tempo reale senza dipendere dalla rete, e i dati sensibili della vita domestica quali i volti, gli ambienti, le abitudini, possono restare a casa.

Secondo le prime valutazioni, la variante on‑device si avvicina alle prestazioni della versione di punta e permette di adattare il robot a nuovi compiti con 50–100 dimostrazioni, proprio il regime che un utente può realisticamente fornire senza trasformarsi in ingegnere. Per un salotto o una cucina, dove la continuità operativa e la privacy contano quanto la destrezza, è un cambio di paradigma. [6]

Ricadute sulla robotica umanoide

Il segmento umanoidi è quello in cui questa rivoluzione si vede meglio. Perché umanoidi? Perché le nostre case, i nostri armadi, le nostre porte sono progettati per mani e altezza umane; una macchina con dimensioni e articolazioni simili può usare gli stessi spazi senza rifare il mondo attorno a sé. Non a caso DeepMind ha annunciato una partnership con Apptronik, l’azienda texana che sviluppa l’umanoide Apollo, per portare i modelli Gemini a bordo di robot generalisti destinati a operare in ambienti reali. Da allora i segnali industriali si sono moltiplicati: investimenti, piloti in fabbrica, accordi con giganti della manifattura e della logistica. È il “collaudo” perfetto per le nostre case: se un umanoide sa muoversi tra corsie e scaffali, potrà farlo tra cucina e ripostiglio, con livelli di sicurezza e affidabilità validati in ambienti professionali. [6]

Che cosa cambia, in pratica, quando l’umanoide entra in casa? Cambiano le interfacce. Invece di scorrere app e sottomenu, parleremo al robot e gli mostreremo come sistemiamo la lavatrice o come preferiamo riordinare la libreria; lui ripete, generalizza piccole varianti e, se sbaglia, si lascia correggere a voce, aggiornando il piano. Cambiano i tempi: non settimane di programmazione, ma un pomeriggio per mettere insieme le abilità fondamentali della famiglia, ampliandole con calma nei weekend. Cambiano i costi nascosti: non servirà un integratore ogni volta che cambiamo disposizione dei mobili, perché il modello si adatta alle nuove geometrie e aggiorna da solo i riferimenti.

In fondo, la promessa è questa: automatizzare la variabilità senza doverla comprimere. E a chi chiede se non sia troppo ottimistico immaginare un umanoide domestico, conviene ricordare che dieci anni fa nessuno avrebbe scommesso su assistenti vocali capaci di spegnere luci, regolare termostati, riassumere email e preparare la lista della spesa; qui la differenza è che lo stesso “cervello” linguistico ora si muove e afferra. [7]

I problemi della sicurezza e privacy

Una nota importante riguarda la sicurezza. In casa ci sono bambini, animali, oggetti fragili che richiedono un livello di prudenza superiore alla fabbrica. La buona notizia è che la sicurezza non riparte da zero. Esistono da anni norme per robot personali e di assistenza, come ISO 13482, che specifica requisiti per la progettazione intrinsecamente sicura, le misure di protezione e l’informazione all’uso, e che si affianca allo storico corpus per i robot industriali, ISO 10218 e la specifica tecnica ISO/TS 15066 sui cobot, in pieno aggiornamento. La novità dei VLA è che si possono combinare i vincoli meccanici (forze, velocità, aree proibite) con vincoli semantici: il modello può essere istruito a non eseguire azioni ambigue o a chiedere conferma in condizioni a rischio, e il controllore può “cassare” piani che violano limiti certificati. [8]

Privacy domestica e controllo dei dati

C’è poi il tema della privacy domestica. Un umanoide che vive con noi vede e sente quasi tutto; per questo l’opzione on‑device non è un dettaglio tecnico, ma una scelta etica e giuridica. Se i dati non escono mai di casa, l’esposizione si riduce radicalmente. E quando davvero serve il cloud, ad esempio per un aggiornamento del modello, per scaricare una nuova “abilità,” si può farlo in modo controllato, lasciando traccia di cosa è stato installato e perché. È lo stesso principio che ha reso accettabili gli assistenti vocali di nuova generazione: quello che può restare in locale, resta in locale.

Una giornata tipo con un umanoide domestico

Proviamo allora a immaginare una settimana tipo con un umanoide in casa tra qualche anno. La mattina lo invitiamo a riordinare la cucina dopo la colazione, con una preferenza che gli abbiamo insegnato noi: “le tazze bianche nel ripiano alto, quelle con disegno nel basso”. Nel pomeriggio gli chiediamo di piegare il bucato e sistemare i capi della palestra in una cesta dedicata, riprendendo un’abilità che gli abbiamo mostrato due volte, una con asciugamani e una con t‑shirt, spiegandogli a voce come riconoscere l’etichetta del peso del tessuto.

La sera, durante una cena con amici, gli affidiamo la mise en place: lui propone il piano, noi lo aggiustiamo con due suggerimenti (“metti i segnaposto, niente coltello da carne”). Se qualcosa non va, l’umanoide non “tira dritto”: si ferma e chiede. Dietro le quinte, un VLA come Gemini mantiene una mappa semantica della casa, sa che cosa è un ripiano, una tovaglia, un coltello, e bilancia le nostre parole con ciò che vede in quel momento, aggiornando i piani a ogni incertezza. Non è fantascienza: è l’estensione in casa di ciò che oggi si sta collaudando in magazzini e fabbriche, dove gli umanoidi con cervelli simili imparano a spostarsi tra corsie e scaffali, a prendere e lasciare oggetti, a interagire con persone e strumenti progettati per gli umani.

Nuovi mestieri: il formatore di robot

Nascono così anche nuovi mestieri. Chi vorrà potrà diventare “formatore domestico di robot”, non un tecnico, ma una persona capace di insegnare con pazienza e metodo, di registrare buone dimostrazioni e di progettare routine che riflettano le abitudini di una famiglia. E come per gli smartphone, nascerà un mercato di abilità condivise: ricette di piegatura, metodi di riordino alla giapponese, protocolli per assistenza leggera agli anziani, ciascuno adattabile al proprio contesto con poche dimostrazioni aggiuntive. A rendere credibile questo scenario non è solo l’ecosistema di Google: anche NVIDIA, con GR00T N1, ha avviato un percorso aperto e personalizzabile che permette a startup e centri di ricerca di costruire umanoidi generalisti senza ripartire da zero, con post‑training su pochi video girati con una GoPro o con sessioni brevi di teleoperazione. [9]

Naturalmente non tutto è risolto. La affidabilità su lunghi orizzonti, ore di lavoro senza errori, richiede ancora molto collaudo; i costi resteranno significativi finché la produzione non scalerà; la convivenza con persone richiede un design attento, dai materiali morbidi ai gesti prevedibili. Ma i passi avanti sono diventati settimanali, non più decennali.

Nel 2024‑2025 abbiamo visto con i nostri occhi robot imparare da poche decine di esempi, che è l’unità di misura che conta in un salotto; abbiamo visto partnership industriali tra chi fa cervelli e chi fa corpi; abbiamo visto versioni on‑device abbastanza compatte da stare su piattaforme reali, con tempi di risposta adatti alla manipolazione fine. Non è irragionevole affermare che a breve, dove “breve” non significa domani mattina, ma l’orizzonte dei prossimi anni, molte famiglie potranno permettersi un umanoide capace di svolgere una parte del lavoro domestico e, soprattutto, addestrabile in modo naturale. Il trucco è separare l’hype dalle capacità dimostrate: poche decine di demo che diventano abilità robuste, piani che sanno chiedere conferma quando l’ambiguità cresce, log che documentano ciò che è stato fatto e perché. [10]

Opportunità per l’Italia tra manifattura e living lab

Per l’Italia questa transizione ha un valore doppio. Da un lato, la filiera che già oggi sperimenta umanoidi in manifattura e logistica porta competenze e fornitori che potremo riusare in ambito domestico; dall’altro, la nostra sensibilità su privacy e sicurezza può diventare un vantaggio competitivo se sapremo unire on‑device, progettazione human‑centered e una governance dei dati che tuteli la casa come luogo inviolabile. Molti dei nostri appartamenti hanno spazi stretti e cucine complesse: è il banco di prova perfetto per VLA che sanno muoversi in ambienti non standard, pieni di eccezioni. E la nostra rete di associazioni e comuni può ospitare living lab per sperimentare in sicurezza scenari di assistenza leggera ad anziani e persone fragili, preparando regole chiare e procedure di addestramento comprensibili a tutti.

Automazione domestica come liberazione del tempo

A chi teme che un umanoide “rubi il lavoro” domestico, conviene cambiare prospettiva: come con la lavatrice e la lavastoviglie, automazione non significa assenza di cura, ma libertà di spesa del tempo. I robot non hanno sensibilità affettiva; restano strumenti che vanno educati, controllati, aggiornati. La differenza è che oggi possiamo davvero educarli con le nostre parole e i nostri gesti.

In chiusura vale la pena ricapitolare i perché.

  • Primo: i modelli VLA colmano il divario tra capire e fare, e lo fanno dialogando con noi in linguaggio naturale.
  • Secondo: l’apprendimento da poche dimostrazioni è ormai realtà, grazie a teleoperazione accessibile e a dataset condivisi che insegnano ai robot a “pensare” per famiglie di compiti.
  • Terzo: l’on‑device porta latenza bassa e tutela della privacy, condizioni irrinunciabili per la casa.
  • Quarto: l’ecosistema industriale sta già provando tutto questo in ambienti difficili, dai magazzini alle linee di montaggio, spianando la strada all’uso domestico. Se mettiamo insieme i pezzi, l’idea di un umanoide addestrabile da chiunque smette di sembrare futuribile e comincia a somigliare a ciò che è successo a PC e smartphone: all’inizio costosi e specialistici, poi strumenti quotidiani.

Bibliografia

[1] https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

[2] https://arxiv.org/abs/2503.20020

[3] https://arxiv.org/abs/2401.02117

[4] https://arxiv.org/abs/2307.15818

[5] https://robotics-transformer-x.github.io/

[6] https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/

[7] https://developers.googleblog.com/en/gemini-25-for-robotics-and-embodied-intelligence/

[8] https://www.iso.org/standard/53820.html

[9] https://research.nvidia.com/publication/2025-03_nvidia-isaac-gr00t-n1-open-foundation-model-humanoid-robots

[10] https://www.theverge.com/news/691882/google-deepmind-on-device-ai-robots-gemini

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati