Numero 12: torte al cioccolato e Multimodal AI
In questo numero di InsAIde Tech, tornano gli aggiornamenti sui nuovi strumenti disponibili sul mercato
🎵 Il mese scorso vi abbiamo parlato di AI che scrivono testi, compongono musica e cantano canzoni che potete ascoltare anche su YouTube. Sperando di avervi incuriositi, immaginiamo che abbiate aperto un browser e abbiate inserito delle parole-chiave tipo “AI generated country songs” per avviare una ricerca (se no, vi invitiamo a farlo!).
Questo mese vogliamo focalizzarci su cosa succede dietro le quinte di una ricerca di questo tipo: parliamo di information retrieval.
🔎 Cosa significa fare Information Retrieval?
Limitandoci all’ambito informatico, il retrieval è il task per cui un utente specifica una query (una richiesta di informazioni) e un sistema informatico (che può essere un algoritmo di AI o altro) interroga un database per restituire all’utente i contenuti più pertinenti alla sua ricerca, magari ordiati per pertinenza.
💊 Quali forme di informazione si possono maneggiare?
La query può consistere in una o più semplici parole-chiave, o avere una forma più complessa e strutturata, come un’immagine (avete presente Google Lens?), un intero testo, una traccia audio (usate ancora Shazam?).
I contenuti restituiti possono a loro volta essere di tipo diverso: audio, video, immagini, dati tabellari, ecc.
Per andare un po’ più sul tecnico, in ambito AI quando si parla di tipi di dato si parla di modality.
Le AI che fanno retrieval possono gestire sia dati della stessa modality che di modalities diverse contemporaneamente. In questo caso, parliamo di multimodal.
💊 Cos’è la Multimodal AI?
Nell’imparare a gestire contemporaneamente dati multimodali, gli algoritmi di AI riescono a formare delle correlazioni e a combinare le informazioni delle singole modalità per ottenere rappresentazioni più ricche dello stesso concetto semantico.
🎂 Volendo fare un parallelo con la nostra gestione di informazioni multimodali, consideriamo cosa ciascuno di noi potrebbe pensare quando nominiamo una “torta al cioccolato”: pensiamo al suo profumo (olfatto), al colore intenso (vista), al sapore che potremmo adorare o odiare (gusto), ci tornano in mente le canzoncine di compleanno, il film di Lasse Hallström, i libri di Ernest Knam, la gita a Vienna. Tutte queste esperienze hanno contribuito a costruire il nostro personale concetto di “torta al cioccolato” e lo abbiamo reso così ricco e informativo.
Non si fa allora fatica a immaginare che anche in ambito AI il concetto di multimodal sia potente, anche per task diversi dal retrieval. Quello che spesso succede, specialmente con i recenti foundation model, è che un’AI viene addestrata a fare retrieval su dati di modality diverse come pretesto, così che possa costruire rappresentazioni (feature) ricche e robuste dei dati e dei concetti semantici che questi racchiudono. Le feature così ottenute possono poi venire usate per task del tutto diversi, con grande successo dato proprio dal loro ricco contenuto informativo.
🏺 Ora che abbiamo aperto questo vaso di Pandora, vi invitiamo a leggere i prossimi numeri Tech, per i quali sarete pronti a scoprire le potenzialità e le applicazioni di AI che fanno del multimodal la loro forza. Stay tuned!
🤓 Novità e schede tecniche
IMAGEBIND: One Embedding Space To Bind Them All.
Descrizione. Imagebind è il nuovo metodo open source di Meta-FAIR che permette di imparare da sei diverse modalità: immagini, testo, audio, depth, thermal e dati IMU.
Dove provarlo. È possibile provare il modello nel sito demo https://imagebind.metademolab.com/demo
Segment Everything
Descrizione. Segment Everything, abbreviato SAM, è il nuovo approccio alla segmentazione di Meta AI. Oltre ad un modello con capacità in zero-shot (su immagini molto diverse da quelle su cui il modello è stato allenato) la compagnia ha rilasciato un dataset di segmentazione con più di 11 milioni di immagini con licenza e più di 1 miliardo di annotazioni.
[paper]
Dove provarlo. È possibile provare il modello nel sito demo https://segment-anything.com/demo.
Align your Latents
Descrizione. Align your latents è il metodo text-to-video proposto da NVIDIA: data una descrizione questa AI è in grado di generare un video.
Dove provarlo. È possibile guardare qualche esempio del modello nel sito demo https://research.nvidia.com/labs/toronto-ai/VideoLDM/
Make-A-Video
Descrizione. Make-A-Video è il metodo text-to-video proposto da Meta: data una descrizione questa AI è in grado di generare un video.
Dove provarlo. È possibile provare il modello nel sito demo.
Si ringrazia per il contributo:
Dott.ssa Silvia Cascianelli, PhD
Ricercatrice del Dipartimento di Ingegneria "Enzo Ferrari"
Università degli Studi di Modena e Reggio Emilia
Dott. Davide Morelli
Phd Student - National Doctorate in Artificial Intelligence
Università degli Studi di Pisa
Host University: Università degli Studi di Modena e Reggio Emilia
Dipartimento di Ingegneria "Enzo Ferrari"
⏰ Da parte nostra è tutto, ci vediamo insAIde, martedì prossimo, alle 08:00.
Rocco Panetta, Federico Sartore, Vincenzo Tiani, Davide Montanaro