Ora che Sam Altman è tornato alla guida di OpenAI il gruppo che lui stesso ha fondato sarebbe nuovamente al lavoro per lo sviluppo di GPT-5, prossima major release del modello generativo alla base di ChatGPT. Prima di quest’ultimo potrebbe (il condizionale è d’obbligo) essere disponibile GPT-4.5, release su cui non sono state ancora fornite anticipazioni ufficiali.
In mancanza di notizie da parte della casa madre l’unica alernativa è quella di affidarsi ai rumors e, stando alle indiscrezioni circolate nelle scorse ore tra le pagine di Reddit che potrebbero anche non essere vere, GPT-4.5 dovrebbe essere innanzitutto un modello multimodale. Migliorando in questo modo le feature che già caratterizzano la quarta versione del LLM (Large Language Model).
Un modello multimodale è in sostanza un modello agnostico rispetto al contenuto che gli viene fornito in input o che deve restituire in output. è quindi in grado di elaborare i testi, come i più tradizionali modelli linguistici, ma anche le immagini, come i modelli a diffusione, i modelli tridimensionali così come i video e i prompt vocali inviati tramite microfono o registrati.
Fino a qui le buone notizie, quelle meno buone dovrebbero riguardare i prezzi per l’utilizzo delle API in applicazioni di terze parti. Si dovrebbero pagare infatti 0.06 dollari per mille token in input (circa 750 parole) con la release standard di GPT-4.5, il costo salirebbe invece a 0.12 per GPT-4.5-64k mentre con GPT-4.5-audio-and-speech si scenderebbe a 0.012 dollari.
Prezzi in aumento anche per gli output, con 0.18 dollari per GPT-4.5, 0.36 per GPT-4.5-64k e 0.024 per GPT-4.5-audio-and-speech. In ogni caso OpenAI è sempre più decisa a puntare sui modelli multimodali, soprattutto perché la concorrenza di Google in questo settore comincia a farsi sentire nonostante le polemiche che hanno coinvolto la demo di Gemini.