intelligenza artificiale

Usiamo l’IA multimodale: ecco alcuni usi pratici che sono una svolta

Home Industry 4.0/Innovazione in azienda

Con l’annuncio delle nuove funzioni di GPT e Gemini, OpenAI e Google spostano l’attenzione su modelli di intelligenza artificiale capaci di elaborare non solo testo, ma anche audio, immagini e video. Questi modelli multimodali promettono di rivoluzionare le interazioni quotidiane, sebbene restino interrogativi sull’effettiva utilità e impatto di queste tecnologie

Pubblicato il 10 giu 2024

Antonio Cisternino

Università di Pisa

Frontiers-Multimodal-Learning-BlogHeroFeature-1400×788-1-1024×576

I recenti annunci di OpenAI e Google sulle nuove funzioni di GPT e Gemini hanno spostato l’attenzione dalla semplice elaborazione del testo e del completamento di un prompt testuale da parte di un modello LLM ad una visione decisamente più integrata di elaborazione che non si limiti a manipolare testo ma anche audio, immagini e video.

@RIPRODUZIONE RISERVATA