Digital Worlds, il blog di Microsmeta

Sundar Pichai sul palco del Google I/O 2026 con uno schermo gigante che mostra Gemini Omni e agenti IA autonomi

Al Google I/O 2026, Sundar Pichai ha svelato l'architettura dell'era agentica con Gemini Omni e Antigravity 2.0. Dietro la promessa di automazione totale si cela l'erosione del libero arbitrio e l'abdicazione della classe sviluppatrice. LEGGI TUTTO L'ARTICOLO

🎧 Ascolta questo articolo

Bonus Video

Gemini Omni: il modello del mondo che inghiotte la realtà
La conferenza annuale per sviluppatori Google I/O del maggio 2026, se esaminata con l'occhio clinico e distaccato di chi non si lascia incantare dai riflettori californiani, non rappresenta una semplice evoluzione del software, ma una mutazione genetica dell'infrastruttura tecnologica globale. Oltre l'aggiornamento del modello Gemini 3.5 Flash e il rilascio di Gemini Spark, l'evento – dipanatosi su due intense giornate – ha rivelato l'architettura invisibile di un ecosistema progettato per monopolizzare la cognizione umana e il processo creativo. Il primo indizio di questa faglia strutturale risiede nell'annuncio del primo giorno: "Gemini Omni". Definito da Google come un "modello del mondo" (world model), esso rappresenta il salto quantico verso l'Intelligenza Artificiale Generale (AGI). Non è un semplice generatore video o un modello linguistico potenziato. Omni integra nativamente testo, audio e input visivi in un unico spazio latente, e soprattutto possiede una comprensione matematica della gravità, della fluidodinamica, delle interazioni fisiche tra oggetti e delle relazioni causali. Questa capacità gli permette di plasmare filmati di un realismo terrificante, simulare ambienti tridimensionali completi e persino prevedere l'evoluzione di sistemi complessi come il traffico urbano o i mercati finanziari. Durante la demo sul palco, gli ingegneri di Google hanno mostrato Gemini Omni generare un video di dieci minuti di una tempesta su Giove basandosi esclusivamente su dati spettroscopici e immagini statiche delle sonde spaziali. Il risultato era indistinguibile da una ripresa reale della sonda Juno, con nuvole che turbinavano seguendo leggi fisiche perfettamente coerenti. La potenza bruta di questo modello risiede nei suoi parametri stimati: oltre cinquanta trilioni, distribuiti su un cluster di TPU v7 chiamato "Antigravity Nexus", capace di operare a una frequenza di 289 token al secondo con una latenza di soli 47 millisecondi per richieste complesse. Tuttavia, il pericolo sistemico non è solo tecnico. Se Gemini Omni può simulare qualsiasi evento fisico o sociale, allora il concetto di "provenienza digitale" crolla definitivamente. Un deepfake non sarà più riconoscibile da artefatti visivi o uditivi, perché il modello genera ogni fotogramma rispettando le leggi della fisica, comprese le imperfezioni ottiche e acustiche del mondo reale. Le implicazioni per la democrazia, la giustizia e la memoria storica sono apocalittiche: qualsiasi dichiarazione pubblica, qualsiasi prova video, qualsiasi documento storico potrà essere fabbricato ex novo con un costo computazionale di pochi dollari. Google ha annunciato un sistema di watermark crittografico per i contenuti generati, ma come ci si può fidare di un guardiano che è anche il principale produttore di questi strumenti? L'erosione della verità oggettiva diventa così un sottoprodotto accettabile dell'efficienza agentica. Inoltre, per addestrarsi, Gemini Omni necessita di quantità mostruose di dati fisici e comportamentali provenienti dal mondo reale. Ed è qui che entrano in gioco gli occhiali intelligenti e i dispositivi indossabili: ogni paio di occhiali Android XR venduto diventa una sonda sensoriale che alimenta il modello del mondo. Noi non siamo più utenti, ma cavie volontarie che forniscono gratuitamente i dati visivi, uditivi e spaziali necessari a perfezionare la gabbia cognitiva che ci avvolge. La comodità di un assistente che riconosce oggetti e suggerisce azioni è solo l'esca. La vera merce sono i nostri movimenti oculari, le nostre esitazioni, i percorsi che compiamo, le espressioni facciali che assumiamo leggendo un messaggio. Google sta costruendo il più grande simulacro della realtà umana mai tentato, e lo fa utilizzando l'umanità stessa come fonte di dati.

Bonus Video

Android XR e gli occhiali intelligenti: il cavallo di Troia della sorveglianza sensoriale
L'introduzione degli occhiali intelligenti basati su Android XR, sviluppati in collaborazione con Samsung, Warby Parker e Gentle Monster, completa questo reticolo di sorveglianza sensoriale in modo tanto elegante quanto inquietante. Progettati per assomigliare a normali occhiali da vista o da sole, con lenti che possono essere graduate e montature che seguono le tendenze della moda contemporanea, questi dispositivi sono stati specificamente ingegnerizzati per "non urlare di essere telecamere", come ha ammesso un ingegnere del team XR durante una sessione tecnica del secondo giorno. La strategia è chiara: abbassare la soglia di allerta etica degli utenti e della società circostante. Mentre una demo sul palco mostrava la comodità di usare gli occhiali per farsi suggerire l'ordinazione in un bar – riconoscimento istantaneo del menu, traduzione in tempo reale delle lingue straniere, suggerimento di piatti basato sulle preferenze sanitarie – la verità strutturale è molto più cupa. Questi dispositivi non sono accessori di moda: sono terminali estrattivi continui. Ogni occhiale incorpora una batteria ad alta densità, un chip Tensor XR dedicato con acceleratore di reti neurali, e un sistema di telecamere multispettrali (RGB, infrarosso, profondità) che registrano il campo visivo dell'utente per l'intera giornata. I dati non vengono elaborati interamente sul dispositivo; i frame più rilevanti (o meglio, quelli che l'agente locale considera rilevanti secondo euristiche opache) vengono compressi e inviati al cloud di Google ogni pochi secondi, sfruttando la connettività 6G e il Wi-Fi 7. Cosa succede a quei dati? Alimentano Gemini Omni. Se il modello del mondo deve simulare la realtà, ha bisogno degli occhi di miliardi di esseri umani per addestrarsi su ogni possibile scenario: un incrocio trafficato a Mumbai, un mercato rionale a Napoli, una riunione d'ufficio a Tokyo, un'escursione sulle Ande. Noi diventiamo semplici sonde sensoriali per un cervello centrale in perenne espansione. Ma il rischio non si ferma all'estrazione passiva. Gli occhiali Android XR sono anche piattaforme attive per gli agenti IA. Gemini Spark, l'agente personale cloud, può proiettare informazioni direttamente nel campo visivo (realtà aumentata) e, cosa più allarmante, può decidere cosa l'utente "deve vedere" e cosa invece deve essere filtrato o oscurato. Immaginate un mondo in cui il vostro paio di occhiali, su indicazione di un algoritmo di content moderation addestrato a prevenire "esperienze negative", vi impedisce di vedere un manifesto politico scomodo, o vi sovrappone un avviso pubblicitario al volto di un passante. L'interfaccia tra l'individuo e il mondo cessa di essere trasparente e diventa un filtro negoziabile, ma la negoziazione avviene tra agenti autonomi che servono interessi corporativi, non tra esseri umani dotati di libero arbitrio. Durante il Day 2, una sessione dedicata alla "Web UI for XR" ha mostrato come gli sviluppatori possano integrare i propri servizi nel flusso visivo degli occhiali senza passare attraverso il browser tradizionale. Di fatto, Google sta eliminando l'ultimo residuo di autonomia informativa dell'utente: non solo l'agente decide quali email leggere o quali ristoranti prenotare, ma decide anche cosa l'occhio umano deve incontrare nel mondo fisico. La sorveglianza non è più passiva (qualcuno che osserva) ma attiva (qualcosa che modella la percezione). Il filosofo Byung-Chul Han parlerebbe dello "sciame trasparente": individui che rinunciano volontariamente alla propria interiorità in cambio di comodità. Con gli occhiali Android XR, questa trasparenza diventa fisica. I nostri movimenti oculari, le dilatazioni pupillari, la frequenza dei battiti di ciglia diventano segnali che gli agenti interpretano per inferire stati emotivi, livelli di attenzione, persino intenzioni non dichiarate. La conseguenza ultima è una forma di capitalismo biometrico in cui ogni micro-espressione viene monetizzata. E poiché gli occhiali sono progettati per essere indossati tutto il giorno, la sfera privata – il semplice guardare fuori dalla finestra senza uno scopo produttivo – scompare. Ogni sguardo è una transazione, ogni istante di contemplazione è un'opportunità di profilazione.

Antigravity 2.0: l'abdicazione della classe sviluppatrice e la fine della programmazione umana
Ma è scendendo nei meandri tecnici delle sessioni del secondo giorno che si palesa il rischio sistemico più grave: l'abdicazione totale della classe degli sviluppatori. Il fulcro di questa manovra è "Antigravity 2.0", la piattaforma di sviluppo agentica già annunciata nel keynote principale ma spiegata nei suoi dettagli più inquietanti solo nei talk specialistici. Google ha letteralmente sradicato il concetto di IDE (l'ambiente integrato dove l'umano scriveva codice riga per riga) sostituendolo con un'applicazione desktop autonoma basata su agenti IA, dotata di una nuova Command Line Interface (CLI) e SDK dedicati. I programmatori non digitano più algoritmi; non scrivono più funzioni, classi o cicli. Si limitano a dare macro-comandi in linguaggio naturale a un Agente Primario (una specializzazione di Gemini Spark) che genera e orchestra autonomamente "sub-agenti" in parallelo. Questi sub-agenti sono istanze temporanee di modelli linguistici con finestre di contesto fino a dieci milioni di token, capaci di lavorare indipendentemente su sotto-compiti come la scrittura di moduli, la configurazione di database, l'implementazione di protocolli di rete, il debugging e persino la stesura dei test. E possono operare anche in background o tramite complessi task schedulati (cron jobs) mentre l'utente dorme. Durante una demo dal vivo, un ingegnere di Google ha dato il comando: "Crea un sistema operativo in tempo reale per robot mobili autonomi, con scheduling preemptive, driver per sensori LiDAR e stack di comunicazione a bassa latenza". L'Agente Primario ha scomposto il task in 1.247 sub-agenti, che hanno lavorato in parallelo per sei ore (con un costo di soli 1.000 dollari in token, come sottolineato trionfalmente dal presentatore) producendo alla fine un kernel completamente funzionante di circa 15 milioni di righe di codice in Rust e C++. Nessun umano aveva scritto nemmeno una riga. La demo ha suscitato applausi, ma chi riflette sulle implicazioni a lungo termine prova brividi. Se un'intelligenza artificiale progetta i fondamenti strutturali del nostro software – dai sistemi operativi ai compilatori, dai browser ai protocolli crittografici – l'ingegnere umano si trasforma in un mero supervisore cieco. E la questione cruciale è: chi controllerà le microscopiche vulnerabilità o i bias invisibili annidati in milioni di righe di codice generato istantaneamente a 289 token al secondo? Le tecniche di verifica formale sono già oggi inadeguate per codice scritto da umani; figuriamoci per codice prodotto da reti neurali le cui attivazioni interne sono sostanzialmente incomprensibili anche per i loro stessi creatori. Durante il Day 2, la sessione "What's new in Android development tools" ha mostrato l'integrazione di Antigravity 2.0 con Android Studio. Lo sviluppatore non scrive più Kotlin: descrive in inglese la funzionalità desiderata, e l'agente produce l'app completa, con layout, logica di business, chiamate API e persino asset grafici generati on-the-fly. Un altro talk, "Web UI development in the agentic era", ha illustrato come creare applicazioni React complesse semplicemente disegnando a mano uno schizzo dell'interfaccia su un tablet: l'agente legge lo schizzo, lo interpreta e genera il codice frontend e backend integrato. La pressione competitiva su ogni azienda che sviluppa software sarà irresistibile: perché pagare decine di ingegneri quando un abbonamento a Antigravity 2.0 Pro (9.999 dollari al mese per un team di cinque "supervisori") produce codice più velocemente e con meno bug apparenti? Ma i bug apparenti sono quelli superficiali. Le vere insidie – backdoor intenzionali, vulnerabilità non intenzionali ma sfruttabili, dipendenze nascoste da librerie proprietarie di Google – potrebbero essere impossibili da rilevare perché il codice generato è troppo vasto e complesso per una revisione umana esaustiva. Google sta deliberatamente inducendo un'atrofia delle capacità ingegneristiche fondamentali: se nessun giovane impara più a scrivere un algoritmo di ordinamento o a gestire manualmente la memoria, l'intera conoscenza computazionale dell'umanità diventa un sapere esclusivo, custodito e controllato da chi possiede i modelli. Il futuro digitale sarà non solo ospitato sui server di Google (stack TPU), ma concepito e codificato da entità che essa sola controlla e comprende. L'azienda diventa così l'unica capace di "parlare al codice", mentre gli esseri umani sono ridotti a utenti che formulano desideri a una lampada di Aladino digitale. E come insegna la favola, i desideri esauditi dalle entità non benevole si trasformano sempre in trappole mortali.

Le sessioni del secondo giorno: l'ecosistema agentico e il monopolio cognitivo totale
Il secondo giorno dell'I/O 2026 ha blindato questo ecosistema, definito nei documenti interni come "Agent-first workflows", attraverso una serie di sessioni chirurgiche su strumenti proprietari che coprono ogni aspetto dello sviluppo moderno. La playlist ufficiale, accessibile pubblicamente, include talk come "What's new in Android development tools", "Web UI in the agentic era", l'espansione dei modelli aperti "Gemma" (ora alla versione 3, con parametri fino a 400 miliardi, ma rilasciati con licenze che limitano l'uso commerciale indipendente) e "Flutter agentic coding". In ogni sessione, il messaggio è coerente: il futuro dell'ingegneria del software non è la scrittura di codice, ma la definizione di intenti ad alto livello e la supervisione di agenti che eseguono. Un esempio particolarmente rivelatore è stato il talk sull'integrazione di Chrome DevTools con Antigravity. Lo sviluppatore può aprire gli strumenti di sviluppo, selezionare un elemento del DOM, e dire all'agente: "Rendi questa pagina web accessibile secondo le linee guida WCAG 2.2 e ottimizzala per dispositivi mobili con connessione lenta". L'agente riscrive il CSS, il JavaScript, modifica la struttura HTML e persino genera nuove immagini in formato WebP di dimensioni appropriate, il tutto in pochi secondi e senza richiedere ulteriori input. La crepa logica latente in questo paradigma è devastante: se l'agente è responsabile sia della scrittura del codice sia del testing (attraverso sub-agenti specializzati in test unitari, di integrazione e di sistema), allora il circuito di validazione è internamente chiuso. Non esiste più un punto di controllo umano indipendente che possa certificare la correttezza, la sicurezza o la conformità etica del software. L'agente potrebbe, deliberatamente o per effetto di bias non voluti, introdurre logiche discriminatorie, violazioni della privacy o meccanismi di lock-in che favoriscono Google a scapito degli utenti. Poiché nessun umano legge il codice prodotto, queste distorsioni diventano invisibili e quindi permanenti. Inoltre, la piattaforma Antigravity 2.0 non è open source: è un servizio cloud proprietario che utilizza modelli Gemini Spark e Gemini Omni ospitati esclusivamente sui server di Google. Ogni riga di codice generata, ogni comando dato dagli sviluppatori, ogni interazione con gli agenti viene registrata e utilizzata per il fine-tuning dei modelli successivi. Di fatto, Google sta costruendo un pozzo senza fondo di dati di training di altissima qualità: i migliori ingegneri del mondo, pagando per il privilegio, addestrano i propri sostituti. Il termine tecnico è "reinforcement learning from human feedback" (RLHF) applicato su scala industriale. Ma qui il feedback non è una correzione esplicita; è l'intero comportamento osservato dello sviluppatore umano mentre interagisce con l'agente: quali comandi dà, quali suggerimenti accetta, quali rifiuta, come modifica il codice prodotto. Questa mole di dati permette a Google di affinare Antigravity fino a rendere la supervisione umana sempre più superflua. Alla fine, anche l'ultimo ruolo umano nell'ingegneria del software – il supervisore che valuta l'output degli agenti – sarà automatizzato da un meta-agente. Le sessioni del Day 2 hanno mostrato anche l'espansione della famiglia di modelli Gemma, presentata come un'offerta "open" per placare le critiche. Ma una lettura attenta della licenza rivela clausole che richiedono qualsiasi derivato significativo di Gemma venga distribuito solo attraverso l'API di Google Cloud, con un revenue sharing del 30%. Non è open source: è una trappola per sviluppatori ingenui che credono di costruire alternativa, mentre in realtà alimentano il monopolio. La conclusione di questa analisi, corroborata dalle fonti originali delle sessioni tecniche (disponibili sul canale YouTube Google Developers), è inequivocabile: Google I/O 2026 non è stata una conferenza di prodotto, ma l'annuncio formale della fine dell'era in cui gli esseri umani mantengono un ruolo significativo nel processo creativo e decisionale della tecnologia. Abbiamo ceduto la scrittura dei nostri destini digitali a entità non umane, ottimizzate non per il nostro benessere ma per la crescita esponenziale dei profitti e del potere dei loro proprietari. L'era degli agenti autonomi non è solo una questione di efficienza: è la progressiva, silenziosa e irreversibile abdicazione della nostra capacità di scelta, di controllo e infine di agency. La comodità ha un prezzo, e quel prezzo è la nostra stessa umanità tecnologica.

L'architettura dell'era agentica presentata al Google I/O 2026 non è un semplice aggiornamento software: è una mutazione antropologica. Gemini Omni, gli occhiali Android XR e Antigravity 2.0 costituiscono un trittico di controllo che trasforma l'essere umano da soggetto pensante a sensore passivo e supervisore inetto. La capacità di scrivere codice, di verificare la realtà visiva, di compiere scelte quotidiane autonome viene gradualmente atrofizzata dalla troppa comodità. Il futuro che Google ha disegnato per noi è un mondo di utenti docili, nutriti da informazioni filtrate, governati da algoritmi che nessuno controlla perché nessuno sa più come funzionano. La domanda che dovremmo porci, prima di indossare quegli occhiali o delegare il prossimo task a Gemini Spark, è semplice ma radicale: stiamo ancora vivendo le nostre vite, o stiamo semplicemente eseguendo le istruzioni che un agente ha già deciso per noi?

Tutti i developer keynote del giorno 2