Numero 16 [Tech]: cosa sono i Foundation Models?

Aka ChatGPT, DALL-E and co.

giu 27, 2023

Nell’ultima newsletter tech abbiamo introdotto il tema del multimodal e le sue potenzialità. Prima di addentrarci più a fondo nel discorso e di apprezzare come questo stia stravolgendo il mondo dell’AI e della Computer Vision, oggi proponiamo delle nuove pillole che serviranno per spianare la strada al nostro futuro percorso. Si tratta di concetti che, senza accorgerci, tocchiamo con mano in tanti prodotti con cui interagiamo tutti i giorni: è il momento di dargli un nome!

📖 Foundation models

I foundation models sono modelli pre-addestrati in grado di essere successivamente adattati (con un ulteriore step di addestramento minimo) per compiere molteplici task diversi fra loro.

Per ottenere ottime performance in zero o few shot learning (vedesi 💊Few-shot e zero-shot learning di seguito), questi modelli vengono allenati su grossi quantitativi di dati, di solito utilizzando la tecnica del self-supervised learning (vedesi 📖 Self-supervised learning di seguito).

Il termine foundation models è stato introdotto dallo Stanford Institute for Human-Centered Artificial Intelligence e deriva dal fatto che questi modelli possono essere utilizzati come fondamenta per molteplici applicazioni di modelli di AI. Alcuni esempi di foundation model sono GPT-3, BERT, o DALL-E 2, Flamingo, GPT-4. La loro particolarità è quella di essere in grado di generare output complessi e articolati (siano essi testo o immagini) prendendo in input un breve prompt (una sorta di breve istruzione, spesso data in forma testuale), anche se non sono mai stati allenati in modo specifico.

💊 Few-shot e zero-shot learning

Con l’avvento dei foundation model, si sente sempre più parlare di few- e zero-shot learning. Ma di cosa si tratta?

Il paradigma dei modelli di intelligenza artificiale si sta spostando sempre più da modelli progettati per lavorare specificatamente su task specifici a modelli allenati su una grade quantità di dati utilizzabili per molteplici task. In questo contesti, si parla di few-shot o zero-shot learning quando un modello viene utilizzato su un task per cui non è stato progettato e allenato in modo specifico. In particolare, si parla di few-shot learning quando il modello ha bisogno di essere riallenato su una piccola quantità di dati specifici, mentre zero-shot quando il modello può essere utilizzato out-of-the-box, (senza ulteriori allenamenti).

📖 Self-supervised learning

Per allenare una rete di AI solitamente servono dei dati di input e il relativo ground truth: i primi contengono le informazioni sulla cui base effettuare la predizione per il task di interesse, mentre il secondo rappresenta l’output corretto, la risposta giusta che ci aspettiamo la rete predica.

Per fare un esempio, se volessimo creare una rete che date delle immagini di vestiti riconosce il tipo di vestito, in fase di allenamento della rete dovremmo dare in input al nostro modello l’immagine di un dato vestito e confrontare la predizione della nostra rete con il ground truth (es., pantalone, gonna, t-shirt) ed imparare di conseguenza. Insomma, il concetto chiave è: sbagliando si impara.

Quando i dati hanno il realtivo ground truth si definisconodati annotati, in quanto annotati da esseri umani. Come abbiamo già visto, i modelli più recenti vengono allenati su miliardi di esempi. Considerando che ci vuole almeno qualche minuto per annotare un singolo esempio, l’annotazione complessiva richiederebbe troppo tempo. Per ovviare al problema, la tecnica del self-supervised learning sta sempre più prendendo piede. Questo metodo di apprendimento permette l’allenamento di una rete utilizzando dati non annotati, spesso alterati o manipolati al fine di allenare la rete a ricostruirne la versione originale. Con questo tipo di task ausilario la rete impara implicitamente le carattesriche dei dati (es. cosa rende “gatto” un gatto, qual è l’ordine sensato in cui appaiono le parole di un testo Francese corretto) e questa conoscenza può poi essere riutilizzata per molti altri task specifici.

🤓↔️🤓Nerd to nerd

Ora che abbiamo definito cosa sia un Fundation model, possiamo ricollegarci ai primi post di InsAIde, in cui abbiamo parlato dell’AI Act. I ricercatori di Stanford del Center for Research on Foundation Models (CRFM) hanno testato i modelli di punta dei 10 maggiorni fornitori di foundation models contro i 12 requisiti espressi nell’AI Act. I risultati sono riportati in tabella su una scala da 0 (peggiore) a 4 (migliore), il risultato migliore possibile è 48, ma nessuno dei modelli dei vari player supera 36 (la maggior parte rimane intorno al 25)... È chiaro che rimane ancora tanta strada da fare.
Approfondisci qui.

Ricapitolando: nel numero di oggi abbiamo definito e approfondito alcuni dei concetti più dirompenti alla base dei moderni sistemi di AI che sono passati velocissimamente dal centro di ricerca che li ha sviluppati al palmo delle nostre mani. Tutto bellissimo, forse un po' velocissimo (ne è un indicatore la poca compliance di questi sistemi con le linee guida dell'AI Act…), ma sicuramente stimolante per le sfide tecniche e legislative che questi sistemi ci mettono di fronte.

🤓 Novità e schede tecniche

👨‍🏫 Insegnare con l’AI

Khanmigo è il nuovo tutor virtuale proposto da Khan Academy. Il sistema è basato su GPT-4. Al posto di proporre direttamente soluzioni agli studenti, il tutor online risponde alle domande degli studenti in modo da sviluppare il pensiero critico.

Si ringrazia per il contributo:

Dott.ssa Silvia Cascianelli, PhD
Ricercatrice del Dipartimento di Ingegneria "Enzo Ferrari"
Università degli Studi di Modena e Reggio Emilia

Dott. Davide Morelli
Phd Student - National Doctorate in Artificial Intelligence
Università degli Studi di Pisa
Host University: Università degli Studi di Modena e Reggio Emilia
Dipartimento di Ingegneria "Enzo Ferrari"

🚨 Letture ed eventi del nostro team

🤖 Rocco Panetta ha commentato il voto del Parlamento su Agenda Digitale.

💽 Rocco Panetta, domani 28 giugno, parlerà di pseudonimizzazione e anonimizzazione all’evento online di Officine Dati.

⏰ Da parte nostra è tutto, ci vediamo insAIde, martedì prossimo, alle 08:00.

Rocco Panetta, Federico Sartore, Vincenzo Tiani, Davide Montanaro