Google annuncia l'introduzione di Agentic Vision in Gemini 3 Flash e trasforma l’analisi delle immagini. In pratica, il modello non si limita più a guardare un’immagine una volta sola e a rispondere: ora può pianificare da solo dove zoomare, quali porzioni ritagliare, che calcoli eseguire e come annotare visivamente ciò che vede, prima di arrivare a una conclusione.
Questo approccio è pensato per risolvere un limite strutturale dei modelli di visione tradizionali. Un modello classico osserva l’immagine in un’unica passata; se manca un dettaglio sottile – come un numero di serie su un componente o un’informazione piccola in un grafico – è costretto a indovinare. Il modello deve comunque generare una risposta a partire da un contesto visivo incompleto, con il rischio di errori o allucinazioni.
Con Agentic Vision, Gemini 3 Flash può invece costruire un piccolo “piano di lavoro” sul contenuto visivo, eseguire codice Python per manipolare e analizzare le immagini e riportare nel proprio contesto i risultati di questi passaggi. Secondo Google DeepMind, abilitare la code execution con Gemini 3 Flash porta un miglioramento di qualità del 5-10% sui principali benchmark di visione (fonte: Google DeepMind, gennaio 2026). Il dato arriva direttamente dall’annuncio ufficiale pubblicato sul blog di Google.
Il cuore dell’annuncio è l’introduzione del loop “Think – Act – Observe” nelle attività di visione di Gemini 3 Flash. Il modello non tratta più l’immagine come un input statico da elaborare in un unico passo, ma come un contesto da esplorare attivamente attraverso più azioni successive. Gemini 3 Flas esegue una sequenza di operazioni sull’immagine e sulle sue trasformazioni per arrivare a una risposta più solida.
Nel passaggio “Think”, il modello analizza la domanda dell’utente e l’immagine iniziale e formula un piano multi-step. Questo piano specifica, ad esempio, che cosa conviene fare: zoomare su una certa area, ritagliare un dettaglio, contare degli oggetti, trasformare dei valori presenti in un grafico. In questa fase, il modello definisce un insieme di azioni che dovranno essere applicate a regioni o componenti dell’immagine per raccogliere informazioni aggiuntive.
Nel passaggio “Act”, entra in gioco la code execution. Gemini 3 Flash può generare e poi eseguire codice Python come strumento integrato. Questo codice permette di manipolare concretamente le immagini: ritagli, rotazioni, annotazioni con riquadri e etichette, conteggi di elementi, operazioni matematiche su dati estratti. Gemini 3 Flash utilizza Python per trasformare l’immagine di partenza in nuove versioni arricchite, che contengono esattamente i dettagli che servono per rispondere.
Google mostra tre esempi emblematici di questi comportamenti:
Dopo ogni azione, si entra nella fase “Observe”: le immagini trasformate, con ritagli e annotazioni, vengono aggiunte al contesto di Gemini 3 Flash. Il modello le “riguarda” e aggiorna la propria comprensione della scena prima di formulare la risposta testuale definitiva. Questo ciclo “Think – Act – Observe” converte la visione da atto statico a processo iterativo basato su evidenze.
Infine, Google dichiara che l’abilitazione di code execution con Gemini 3 Flash porta un miglioramento consistente del 5-10% sui benchmark di visione (fonte: Google DeepMind, gennaio 2026). Il dato si riferisce a test standardizzati nel campo della visione artificiale e segnala che l’uso sistematico di strumenti espliciti (zoom, annotazioni, calcoli) aiuta il modello a ridurre gli errori rispetto a un approccio puramente “end-to-end”.
Google chiarisce che non tutte le capacità di Agentic Vision sono ancora completamente implicite. Oggi, Gemini 3 Flash è addestrato a zoomare automaticamente su dettagli minuti quando ha senso farlo, ma altre azioni – come ruotare immagini o svolgere attività di visual math – spesso richiedono ancora un’indicazione esplicita nel prompt per attivarsi. Il soggetto (Google) riconosce che alcune capacità restano su base esplicita, con l’obiettivo dichiarato di renderle più automatiche in futuro.
La roadmap annunciata per Agentic Vision si articola in tre direzioni principali. La prima riguarda l’aumento dei comportamenti impliciti guidati dal codice: Google sta lavorando perché sempre più trasformazioni visive, come rotazioni, correzioni e calcoli su dati estratti, vengano attivate automaticamente dal modello quando la situazione lo richiede, senza che lo sviluppatore debba specificarlo ogni volta nel prompt.
La seconda direzione è l’introduzione di più strumenti a disposizione del modello. Oltre al codice, la roadmap include l’esplorazione di strumenti come il web search e la reverse image search, con l’obiettivo di permettere a Gemini di ancorare ancora di più la propria comprensione del mondo a fonti esterne, combinando ciò che vede nell’immagine con ciò che recupera online.
La terza direzione riguarda l’estensione a più dimensioni di modello oltre a Flash. Al momento dell’annuncio, Agentic Vision è legata a Gemini 3 Flash, ma Google dichiara l’intenzione di estendere questa capability anche ad altri “tagli” di modello, così che l’ecosistema Gemini offra visione agentica su una gamma più ampia di opzioni, sia per casi d’uso leggeri sia per scenari più complessi.
Agentic Vision è disponibile tramite Gemini API in Google AI Studio e in Vertex AI. È anche in fase di roll-out nell’app Gemini, dove può essere attivata selezionando l’opzione “Thinking” dal menu del modello e abilitando “Code Execution” nella sezione Tools. In questo modo, il soggetto (sviluppatore) può sperimentare Agentic Vision in modo guidato all’interno di AI Studio prima di integrarla in applicazioni più strutturate.
Che cosa significa esattamente “Agentic Vision”? Significa che il modello tratta la visione come un processo attivo: pianifica i passi, esegue codice per manipolare e analizzare le immagini, osserva i risultati e poi risponde, invece di limitarsi a un’unica elaborazione statica.