OpenAI: o3 e o4-mini hanno troppo allucinazioni

Alcuni giorni fa gli sviluppatori di OpenAI hanno lanciato due nuovi modelli di intelligenza artificiale, o3 e o4-mini, entrambi progettati per eccellere nei compiti che richiedono un ragionamento approfondito. Secondo alcuni test questi modelli mostrerebbero perรฒ un tasso di “allucinazioni” superiore rispetto ai modelli precedenti. Un dato sorprendente, considerando che le versioni piรน recenti dovrebbero essere in teoria anche le piรน affidabili.

Cosa sono le allucinazioni delle AI

Le allucinazioni delle intelligenza artificiali sono errori in cui un modello genera delle informazioni false o inventate. Possono riguardare dati inesistenti, citazioni sbagliate o azioni impossibili. Si tratta di un problema abbastanza comune nei modelli linguistici. Essi infatti “non sanno realmente di cosa parlano”, si limitano invece a prevedere dei termini su base probabilistica e a concatenarli senza “distinguere il vero dal falso”.

Pubblicitร 

Ciรฒ non riguarda solo gli LLM di OpenAI. Famoso รจ per esempio il caso delle AI Overviews di Google che alcuni mesi fa consigliavano di utilizzare la colla per fare in modo che il formaggio aderisce piรน facilmente alla base della pizza.

Gli errori dei nuovi modelli di OpenAI

Durante i test il modello o3 di OpenAI avrebbe prodotto allucinazioni nel 33% dei casi su PersonQA, un benchmark interno per le conoscenze sulle persone, mentre o4-mini avrebbe raggiunto un preoccupante 48%. Al confronto, i modelli precedenti o1 e o3-mini si sarebbero fermati al 16% e 14,8%. Un passo indietro non trascurabile in termini di accuratezza.

Una delle ipotesi formulate dai ricercatori รจ che i metodi di reinforcement learning utilizzati per addestrare questi modelli potrebbero amplificare i comportamenti indesiderati, come per esempio l’invenzione di dati o eventi mai accaduti. In un caso o3 avrebbe sostenuto di aver eseguito del codice su un MacBook del 2021 al di fuori di ChatGPT, cosa tecnicamente impossibile.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicitร 
Claudio Garau
Claudio Garau
Web developer, programmatore, Database Administrator, Linux Admin, docente e copywriter specializzato in contenuti sulle tecnologie orientate a Web, mobile, Cybersecurity e Digital Marketing per sviluppatori, PA e imprese.

Leggi anche...

Zoom lancia AI Docs, AI Sheets e AI Slides per competere con Office

Zoom, conosciuta principalmente come piattaforma per videoconferenze, sta ampliando...

6G e intelligenza artificiale: la rivoluzione della rete mobile

La transizione al 6G rappresenta un passo significativo nell'evoluzione...

ChatGPT introduce grafici interattivi per insegnare matematica e scienze

ChatGPT, il modello di linguaggio sviluppato da OpenAI, ha...

I giovani e lโ€™AI: come ChatGPT e Claude stanno rivoluzionando il flirtare

Negli ultimi anni, l'uso dell'intelligenza artificiale (AI) ha preso...

Anthropic fa causa al Pentagono: l’IA in gioco tra libertร  di espressione e guerra

Anthropic, una delle principali aziende nel campo dell'intelligenza artificiale...

OpenAI Codex Security: l’agente AI che identifica le vulnerabilitร  nel software

OpenAI ha recentemente presentato Codex Security, un agente innovativo...
Pubblicitร