Numero 28 [Tech]: Nell’AI non c’è nulla da temere, solo da capire

I Multimodal Fundation Model stanno arrivando nel palmo delle nostre mani

ott 31, 2023

Contributo di Silvia Cascianelli, Ph.D

🎃Felice Halloween lettori di InsAIde! 🎃

A costo di “tradire” l’atmosfera spaventosa che la giornata richiederebbe, anche con la newsleter tech di oggi vogliamo continuare a fare luce su concetti e notizie legati all’AI.

Parafrasando Margherita Hack “Nell’AI non c’è nulla da temere, solo da capire”: la newsletter di oggi racconta un po’ questa storia.

Nell’AI non c’è nulla da temere, solo da capire

Margherita Hack

👀 Da questo autunno, OpenAI ha dato occhi a ChatGPT, rendendolo in grado di gestire input visivi oltre che testuali (in realtà anche orecchie, ma le funzionalità di audio/speech recognition sono ancora in beta). In poche parole, ChatGPT, uno dei 🕸️Fundation Model più usati ad oggi, sta diventando 🕸️multimodale!

🐈‍⬛Gli utenti ChatGPT Plus possono già interagire con GPT-4V(ision): caricare un’immagine (o una serie di frame da un video), magari contententi del testo (in 20 lingue diverse, più simboli matematici) o dei puntatoti visivi (frecce, sottolineature, cerchi) e chiedere di risolvere un task relativo a quell’immagine. Vediamone qualche esempio, considerando soprattutto i task tipici della Computer Vision:

🔮Object Detection: identificare la posizione degli oggetti in una scena e fornirne le coordinate nell'immagine (sotto forma di bounding box intorno all'oggetto d'interesse).

🔮Text Recognition (OCR/HTR): riconoscere il testo scritto a mano o a macchina nell'immagine (una scansione o una foto) di un documento o di una scena.

🔮Visual Question Answering: comprendere il contesto e le relazioni in un'immagine data per rispondere in linguaggio naturale a una domanda (in linguaggio naturale) sul suo contenuto.

🔮Math OCR: riconoscere e risolvere problemi matematici in un'immagine.

Ma se siete utenti Plus, vi invitiamo a mettere alla GPT-4V con qualcosa di ancora più creativo e complesso (qualche spunto: 🕯️convertire lo schizzo dell’interfaccia della vostra app in codice Swift funzionante; 🕯️spiegarvi il meme che fa tanto ridere il vostro cuginetto Alpha;🕯️indicarvi il trekking più panoramico sulla mappa dello Yosemite).

☠️DISCLAIMER (questo vale sempre): non aspettatevi sempre risposte perfette, nè fidatevi ciecamente delle risposte che otterrete. Anche GPT-4V ha delle "allucinazioni", ovvero può restituire informazioni imprecise (ad esempio legate alle quantità di oggetti, oppure a testi in scene complesse da interpretare). Inoltre GPT-4V non è ancora molto performante nei task che richiedono un'interpretazione spaziale complessa (come l'estrazione di informazioni da tabelle, grafici e diagrammi). Infine, ci sono domande a cui GPT-4V non risponde per scelta (di OpenAI, ovviamente)

🐈‍⬛Questo ultimo punto è in realtà la nostra parte preferita della storia. Infatti, insieme a GPT-4V, OpenAI ha anche rilasciato una 🕸️system card: un documento in cui l’azienda descrive lo sviluppo del modello (nei limiti del segreto industriale) ed espone chiaramente i risultati di un’analisi condotta con team di valutatori esterni per identificare e possibilmente risolvere problemi legati alla privacy, alla sicurezza e ai contenuti inappropriati.

Questo ultimo punto è la nostra parte preferita della storia perché il rilascio di documenti come questo ad accompagnare tecnologie potenti e pervasive come quelle AI-based (da notare che anche per 🕸️DALL-E 3 OpenAI ha rilasciato una 🕸️system card) è un buon primo passo verso un loro uso più informato e consapevole.

Si ringrazia per il contributo:

Dott.ssa Silvia Cascianelli, PhD
Ricercatrice del Dipartimento di Ingegneria "Enzo Ferrari"
Università degli Studi di Modena e Reggio Emilia

🚨 Letture imperdibili della settimana

🇪🇺 Rocco Panetta ha commentato sul Sole 24 ore di domenica le iniziative internazionali sull’AI.

🇺🇸 L'ordine esecutivo firmato dal presidente Biden potenzia l'utilizzo di AI da parte del governo federale, ma impone regole più rigorose per prevenire minacce alla sicurezza nazionale. Su Wired Italia. Qui il testo originale.

G7 | È stato pubblicato il Codice di condotta per le organizzazioni che sviluppano sistemi avanzati di IA. Questo elenco di azioni, non esaustivo, si basa sugli attuali Principi dell'OCSE sull'IA in risposta ai recenti sviluppi dei sistemi avanzati di IA e intende aiutare a cogliere i benefici e ad affrontare i rischi e le sfide portate da queste tecnologie.

⏰ Da parte nostra è tutto, ci vediamo insAIde, martedì prossimo, alle 08:00.

Rocco Panetta, Federico Sartore, Vincenzo Tiani, Davide Montanaro, Gabriele Franco