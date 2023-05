Dopo poco più di sei mesi dall’esplosione dell’AI generativa (prima di immagini, poi di testo e ora di video), ChatGpt e simili, si può cercare di capire come questi strumenti abbiano già influenzato il modo di operare e lavorare, al di là del commento sul particolare strumento e le sue capacità.

Va premesso che si tratta di una trasformazione del flusso lavorativo che ha condizionato prevalentemente gli utenti più curiosi e proni a sperimentare nuove tecnologie, ma che in alcuni casi, come ad esempio quello di ChatGPT, si sono diffuse ben oltre la tradizionale popolazione di entusiasti.

Si tratta di un panorama in continua evoluzione, dove gli strumenti che integrano queste nuove tecnologie spuntano come funghi, in cui il vantaggio (quantomeno percepito) di Microsoft viene insidiato dai grandi annunci dei concorrenti come Google che recentemente all’evento annuale Google IO ha annunciato non solo una diffusione di Bard, la propria chat di AI, ma anche l’integrazione di strumenti di generazione testuale in Google Docs (con una tempistica che sembra più aggressiva di quella che finora Microsoft ha mostrato dall’annuncio di Copilot) e un supporto alla redazione di messaggi di posta elettronica in Gmail.

Personalmente mi sento di appartenere alla tribù dei curiosi che adottano sempre le nuove tecnologie, e cercherò di descrivere come già in pochi mesi questi strumenti abbiano alterato in modo significativo il mio modo di lavorare.

L’immagine ideale per la tua presentazione

Sappiamo tutti come sia importante produrre presentazioni ricche di immagini capaci di affiancare il contenuto testuale, sia per renderle più accattivanti che per illustrare specifici concetti. Da quando ho cominciato ad usare intelligenze artificiali generative per la generazione di immagini come Stable diffusion, DALL-E, Bing Image creator, e MidJourney, le mie presentazioni si sono arricchite di immagini decisamente più attinenti al contenuto presentato rispetto a quando usavo librerie di immagini o la ricerca di immagini sui principali motori di ricerca. Sicuramente l’attuale vuoto normativo rispetto alla proprietà intellettuale delle immagini generate ne consente un uso più libero anche se sicuramente assisteremo ad interventi in materia che potrebbero incidere sull’uso che se ne può fare.

Nella mia (breve) esperienza in materia ho imparato che i prompt devono descrivere in modo chiaro non solo gli elementi, ma anche l’aspetto desiderato dell’immagine generata: vogliamo una foto come se fosse scattato con un certo obiettivo? Oppure è più appropriato richiedere un’immagine che sembri ottenuta con un disegno a matita.

È più facile descrivere immagini che descrivono una scena, la generazione di diagrammi è di difficile controllo e in molti casi l’output non riesce a catturare l’idea che si aveva in mente. Non escludo che la mia capacità di scrivere prompt non sia ancora così evoluta per ottenere in questi casi il risultato desiderato, ma va anche detto che a volte si fa prima a disegnare un diagramma con strumenti più tradizionali.

La maggior parte dei generatori di immagini funzionano meglio con prompt in lingua inglese, anche se si può far uso di ChatGPT per generare il prompt desiderato, o quantomeno una sua prima versione. Ad esempio:

Il prompt generato era troppo lungo per il generatore di immagini di Bing, ho quindi chiesto:

Il risultato è sicuramente un buon punto di partenza:

La generazione testuale

ChatGPT ha rubato la scena alle AI generative di immagini grazie all’incredibile capacità di generare testi, anche originali come poesie o racconti, e di analizzare ed elaborare testi esistenti. Ormai sappiamo che se l’intelligenza artificiale si limita ad utilizzare la conoscenza appresa durante l’addestramento c’è il rischio che abbia “allucinazioni”, risponda ovvero in modo errato sui contenuti fattuali. È opportuno che il suo uso, quindi, sia accompagnato da una lettura critica, magari con la verifica dei fatti salienti utilizzando tecnologie più consolidate come i motori di ricerca

Mi è stato utile generare una prima bozza di testo per “rompere il ghiaccio” nella stesura di un documento, ma anche la generazione di documenti di natura amministrativa come, ad esempio, circolari oppure parti di documenti come bandi di varia natura. Si è sempre trattato di un semi-lavorato, anche perché è difficile rappresentare nel prompt tutti gli elementi che devono caratterizzare il testo generato, e comunque il limite nella dimensione del prompt stesso a volte si rivela ancora troppo stringente per fornire tutte le informazioni necessarie.

La disponibilità di strumenti dedicati, come ad esempio la “Bing bar” introdotta da Microsoft nel browser Edge, consentono di semplificare il processo di generazione di frammenti testuali senza dover divenire esperti nella scrittura di prompt come avviene con AI Chat come ChatGPT oppure il Google Bard (che però attualmente non sa ancora gestire l’italiano e si può provare solo utilizzando una VPN poiché non è ancora disponibile in Italia). Anche lo stile di conversazione, come ad esempio un paragrafo di testo oppure il testo di una email o di un post di blog, e la lunghezza si possono indicare con elementi di interfaccia grafica ottenendo anche un comportamento più consistente e prevedibile nel processo di generazione.

L’arte della scrittura dei prompt ha mostrato sempre nuove applicazioni nella generazione testuale, io per esempio ho cominciato a chiedere a ChatGPT di generare delle liste puntate da utilizzare per generare delle smart art su Office. Il risultato è stato sicuramente sorprendente come mostra il seguente esempio:

Che incollata in Office ha prodotto il seguente risultato:

Parlare più lingue con ChatGpt e simili

L’AI generativa ha dimostrato una notevole capacità di tradurre il testo in molte lingue ed ha una qualità notevole nel risultato che, soprattutto se usata nel contesto di una chat, si integra naturalmente nel flusso di lavoro. L’analisi linguistica non si limita alla mera traduzione ma è possibile anche richiedere di riassumere un contenuto prima di tradurlo (sempre facendo attenzione alle possibili allucinazioni).

È anche possibile realizzare sistemi che rispondono a domande usando una base di conoscenza espressa, ad esempio, in italiano e porre domande e ricevere risposte in varie lingue usando questa conoscenza. Questa capacità ha un impatto più legato allo sviluppo di sistemi realizzati usando l’API di turno.

Per ora GPT-4 è il modello più articolato, Google Bard non è ancora disponibile in molte lingue ed è quindi difficile valutarne l’efficacia in questo contesto.

Integrazione negli strumenti di produttività

È evidente che questi strumenti trovino naturale applicazione negli strumenti di produttività, e infatti a Google IO è stata annunciata l’integrazione con Google Docs e Gmail, solo poche settimane dopo l’annuncio di Microsoft dell’integrazione di Copilot all’interno di Microsoft 365 che integra GPT-4 nella suite Office e negli altri strumenti di Microsoft. Per ora non si può che speculare sulle funzionalità in attesa che si possano provare e siano chiari i costi del servizio che difficilmente potranno essere inclusi nelle licenze già in uso poiché le risorse necessarie sono ingenti e dipendono in modo significativo dall’uso del sistema.

Fact checking

Un uso che faccio ormai quasi quotidianamente è quello di efficientare le mie ricerche volte a verificare un’informazione che ricordo ma di cui non sono sicuro. Anche noi esseri umani “alluciniamo” e rischiamo di ricordare in modo inesatto le informazioni. In questo caso io penso di conoscere domanda e risposta e voglio solo verificare di ricordare correttamente: la ricerca su un motore di ricerca a volte può essere faticosa perché non sempre i documenti restituiti contengono semplicemente la risposta.

In questo caso l’approccio di Bing Chat e di you.com di generare un’interrogazione al motore di ricerca e riassumere i risultati pur mantenendo i riferimenti alle fonti si rivela molto efficace. Ecco un esempio con Bing Chat:

La disponibilità delle fonti consente di verificare in caso di dubbio, e sicuramente si tratta di un’interazione che ha ridotto il tempo che spendo in questa attività (purtroppo, e in modo discutibile, Microsoft ha limitato la funzione di Bing Chat solo al browser Edge). Google ha annunciato una funzione simile ma senza possibilità di interagire con il risultato, sicuramente per cercare di mantenere i click sui risultati, elemento centrale nel proprio modello di business.

Conclusioni

In pochi mesi l’AI ha già condizionato il mio modo di lavorare, e siamo solo all’inizio. A seconda del lavoro che si svolge ci sono molti altri strumenti che fanno cose impressionanti, come ritoccare immagini, o editare contenuti multimediali con una produttività impossibile solo un anno fa. Come sempre non possiamo che assistere a queste rivoluzioni sperando di riuscire a tenere il passo ricordando sempre di usare con spirito critico questi strumenti e soprattutto insegnare l’approccio critico al loro uso alle nuove generazioni.