Gemini, il modello generativo sviluppato da Google, è un LLM (Large Language Model) multimodale, questo significa che è in grado di gestire diverse tipologie di contenuti, comprese le immagini. Fino ad ora però, cioè fino al lancio della nuova versione Gemini 1.5 Flash, le sue funzionalità per l’editing sono state abbastanza limitate.
Tali novità non sono ancora disponibili per gli utenti ma dall’analisi del codice dell’APK è risultata evidente la presenza di strumenti appositamente dedicati alla modifica delle immagini create con Gemini. In sostanza esse potranno essere aggiornate, alterate, corrette e completate senza che la procedura debba essere effettuata ogni volta dall’inizio.
Gli utenti non dovranno più riscrivere la propria richiesta includendo le modifiche che desiderano apportare, basterà formulare un nuovo prompt e l’AI sarà in grado di operare sull’immagine creata in precedenza. In sostanza Gemini terrà conto delle interazioni già avvenute nel corso della medesima sessione per perfezionare quanto già fatto.
Gemini will soon allow you to fine-tune your generated images (APK teardown) https://t.co/h34R9U8Pt0
— Android Authority (@AndroidAuth) July 28, 2024
Tale feature potrebbe risultare molto utile quando il primo output generato dal modello di Mountain View presenta delle caratteristiche molto simili a quelle desiderate dall’utilizzatore. In questo caso riformulare la medesima richiesta, anche se più dettagliata, potrebbe rivelarsi poco produttivo e il risultato dell’elaborazione imprevedibile.
L’utente potrà richiedere ad esempio l’inserimento di un nuovo elemento o la modifica di un elemento specifico, senza influenzare il resto dei contenuti di un’immagine. Nello stesso modo si potranno selezionare soltanto determinate porzioni di un’immagine, senza doverle specificare tramite un prompt testuale, e agire esclusivamente su quelle.