\\ Home Page : Articolo
HANNO SUPPORTATO DIGITAL WORLDS INVIANDO PRODOTTI DA RECENSIRE
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
V-JEPA: l'intelligenza artificiale di Meta che impara la fisica come un bambino
Di Alex (del 17/10/2025 @ 16:00:00, in Intelligenza Artificiale, letto 39 volte)

Una rappresentazione astratta di una rete neurale che osserva un video di una palla che rotola, con linee di dati che si trasformano in concetti come 'oggetto', 'movimento' e 'gravità'.
Come un neonato impara che un oggetto nascosto continua a esistere, l'IA di Meta, V-JEPA, sta imparando le regole della fisica semplicemente guardando video. Questo modello non viene programmato con le leggi di Newton; le deduce osservando il mondo, sviluppando una sorta di "intuizione" che gli permette di prevedere cosa accadrà dopo e di "sorprendersi" di fronte a eventi impossibili. ARTICOLO COMPLETO
Oltre i pixel: un nuovo modo di "vedere"
La maggior parte dei sistemi di intelligenza artificiale che analizzano video opera nello "spazio dei pixel", trattando ogni singolo punto dell'immagine con la stessa importanza. Questo approccio è inefficiente: l'IA può perdersi in dettagli irrilevanti, come il movimento delle foglie su un albero, invece di concentrarsi su ciò che conta, come un semaforo rosso. V-JEPA (Video Joint Embedding Predictive Architecture) supera questo limite lavorando con "rappresentazioni latenti", ovvero astrazioni di livello superiore. Invece di memorizzare ogni pixel, impara i concetti essenziali: la forma di un'auto, la sua traiettoria, la sua velocità.
Come funziona V-JEPA: l'architettura predittiva
Il funzionamento di V-JEPA si basa su un'idea semplice ma potente. Il sistema è composto da tre parti: due "encoder" e un "predittore". Durante l'addestramento, l'algoritmo prende un video, ne maschera alcune porzioni (come se coprisse parti dello schermo con delle pezze nere) e chiede al predittore di indovinare cosa si nasconde dietro, ma a livello concettuale. Non deve ricostruire i pixel mancanti, ma la rappresentazione astratta della scena. Questo processo costringe il modello a costruire un modello interno del mondo e delle sue regole per poter fare previsioni accurate.
La "sorpresa" dell'IA: un test di intuizione fisica
La vera svolta di V-JEPA è la sua capacità di dimostrare una comprensione della fisica intuitiva. In un test chiamato IntPhys, che presenta video con azioni fisicamente plausibili o impossibili, V-JEPA ha raggiunto una precisione di quasi il 98%. Ancora più interessante è il concetto di "sorpresa": quando al modello viene mostrato un evento che viola le leggi fisiche che ha imparato (ad esempio, una palla che scompare dietro un ostacolo e non riappare), il suo "errore di previsione" aumenta drasticamente. Questo picco è l'equivalente matematico della sorpresa di un bambino, un segnale che le sue aspettative sulla realtà sono state violate.
Limiti e prossimi passi: V-JEPA 2 e la memoria da "pesce rosso"
Nonostante i risultati impressionanti, la tecnologia è ancora agli inizi. Il team di Meta ha rilasciato V-JEPA 2, un modello molto più grande addestrato su 22 milioni di video. Tuttavia, anche questa versione ha dei limiti significativi, in particolare una memoria a brevissimo termine, paragonata a quella di un "pesce rosso". Il modello può gestire e prevedere video solo per pochi secondi, dimenticando ciò che è accaduto prima. Infatti, su un benchmark più difficile (IntPhys 2), le sue prestazioni sono state di poco superiori al caso. La prossima grande sfida sarà dotare questi sistemi di una memoria a lungo termine per comprendere contesti più complessi.
V-JEPA rappresenta un passo fondamentale verso un'intelligenza artificiale più generale e robusta. Invece di creare sistemi specializzati per compiti specifici, i ricercatori stanno costruendo modelli che apprendono le regole fondamentali del nostro mondo, aprendo la strada ad applicazioni future, dalla robotica avanzata a sistemi di assistenza più intelligenti e consapevoli del contesto.
Nessun commento trovato.
Disclaimer
L'indirizzo IP del mittente viene registrato, in ogni caso si raccomanda la buona educazione.
L'indirizzo IP del mittente viene registrato, in ogni caso si raccomanda la buona educazione.
|