Gemini, il modello generativo di Google, é ora disponibile in una nuova versione, la 1.5. Tale novità riguarda la release Pro del progetto ed é accessibile tramite le piattaforme AI Studio e Vertex AI della Google Cloud Platform nonché dagli sviluppatori che desiderano utilizzare le API (Application Programming Interface) del servizio nelle proprie applicazioni.
A rendere questa evoluzione più avanzata della precedente vi é innanzitutto l’architettura MoE (Mixture-of-Experts) che rende le sessioni di training molto più produttive e migliora le modalità con cui vengono soddisfatte le richieste. Essa ha anche un ruolo rilevante nel miglioramento delle performace in quanto riduce notevolmente le latenze.
In December, we launched Gemini 1.0 Pro. Today, we're introducing Gemini 1.5 Pro! ??
This next-gen model uses a Mixture-of-Experts (MoE) approach for more efficient training & higher-quality responses. Gemini 1.5 Pro, our mid-sized model, will soon come standard with a… pic.twitter.com/m2BNufHd8C
— Sundar Pichai (@sundarpichai) February 15, 2024
In sotanza MoE attiva i modelli in modo selettivo, questo significa che quando riceve un prompt abilita solo la porzione del modello che serve per restituire l’output con un vantaggio per le prestazioni. In questo modo vengono ridotti anche i consumi energetici necessari per l’elaborazione degli input e il processo diventa meno impattante dal punto di vista ambientale.
Un altro punto di forza di Gemini 1.5 riguarda la finestra di contesto che questa volta arriva a ben 128 mila token contro gli "appena" 32 mila della release 1.0. Sono stati però effettuati dei test per finestre di contesto da 10 milioni di token e gli utenti Cloud e gli sviluppatori hanno la possibilità di accedere ad una preview che supporta 1 milione di token.
Si tratta naturalmente di un modello multimodale, quindi in grado di gestire diverse tipologie di contenuti. A conferma di ciò Mountain View ha pubblicato i risultati di alcuni benchmark durante i quali la versione 1.5 si sarebbe dimostrata in grado di elaborare 700 mila parole, 30 mila righe di codice sorgente, 11 ore di tracce audio e una di video.