nuove frontiere

Modelli multimodali: cosa fare con l’IA che fonde linguaggio e immagini



Indirizzo copiato

I modelli multimodali combinano linguaggio, visione e audio per offrire un’IA generativa avanzata. Possono fornire informazioni, assistenza e avere molteplici applicazioni, ma richiedono dati culturalmente diversificati e devono affrontare rischi di privacy e bias culturali. Lo stato dell’arte e i possibili sviluppi

Pubblicato il 1 feb 2024

Bernardo Magnini

Fondazione Bruno Kessler, Trento



tour virtuali trasformazione digitale

Sono l’ultima frontiera dell’IA generativa, la tecnologia non è ancora consolidata, ma già lasciano intravedere enormi potenzialità: sono i large multimodal model (LMM), in grado di combinare le capacità della comprensione del linguaggio, della computer vision e del riconoscimento dell’audio in un unico modello. La artificial general intelligence (AGI) sta facendo un altro, forse decisivo, passo in avanti.

Continua a leggere questo articolo

Articoli correlati