Apple vuole rendere gli LLM più piccoli

Alcuni ricercatori di Apple hanno pubblicato un articolo intitolato "LLM in a flash: Efficient Large Language Model Inference with Limited Memory" nel quale viene descritto un sistema con cui memorizzare i dati necessari al funzionamento di un modello generativo all’interno dell’unità SSD di un device. Ciò renderebbe più efficienti i Large Language Model di dimensioni contenute.

Tecnicamente l’idea è quella di utilizzare l’SSD per sostituire la memoria RAM come riferimento per l’archiviazione dei dati. Stando ai risultati dei benchmark effettuati questa soluzione dovrebbe garantire una velocità di elaborazione nettamente superiore rispetto a quelle che si potrebbero ottenere tramite il caricamento su CPU o GPU.

Apple announces LLM in a flash: Efficient Large Language Model Inference with Limited Memory

paper page: https://t.co/g34pds8gB3

Large language models (LLMs) are central to modern natural language processing, delivering exceptional performance in various tasks. However, their… pic.twitter.com/N0KlBVBRtn

— AK (@_akhaliq) December 20, 2023

In sostanza l’uso delle unità SSD porterebbe a velocità 4 o 5 volte superiori rispetto all’allocazione su CPU e addirittura a 20 o 25 volte superiori rispetto a quella su scheda grafica. In questo modo sarebbe più facile sviluppare LLM on-device e farli interagire con piattaforme come per esempio l’assistenze digitale intelligente Siri della stessa Apple.

Per ottenere questo risultato la Casa di Cupertino ha implementato un nuovo sistema di compressione che prende il nome di EELBERT. Grazie ad esso è possibile ridurre le dimensioni di un LLM senza perdita di dati fondamentali per il suo funzionamento e qualità degli output, il modello BERT di Google è stato reso ad esempio 15 volte più piccolo con una regressione minima.

Un’altra novità di Cupertino in tema di AI è il sistema STEER (Semantic Turn Extension-Expansion Recognition). Tale progetto è stato lanciato per il miglioramento di Siri fornendogli maggiori capacità di riconoscere il contesto di una richiesta, in questo modo l’assistente dovrebbe essere sia in grado di fornire risposte che di prevedere le domande successive.

Per restare sempre aggiornato seguici su Google News! Seguici

Apple vuole rendere gli LLM più piccoli

Leggi anche...

L’US Air Force rivoluziona i droni con software AI in volo

Apple introduce la verifica dell’età: impatti su app e privacy

Anthropic accusa le cinesi DeepSeek, Moonshot e MiniMax di “distillazione” del modello Claude

ChatGPT introduce l’opzione ‘Naughty chats’ per adulti

Apple presenta nuovi tool per la verifica dell’età

Prompt injection e SEO “tossica”: come si manipolano i chatbot

Apple vuole rendere gli LLM più piccoli

Articoli Correlati

Leggi anche...

L’US Air Force rivoluziona i droni con software AI in volo

Apple introduce la verifica dell’età: impatti su app e privacy

Anthropic accusa le cinesi DeepSeek, Moonshot e MiniMax di “distillazione” del modello Claude

ChatGPT introduce l’opzione ‘Naughty chats’ per adulti

Apple presenta nuovi tool per la verifica dell’età

Prompt injection e SEO “tossica”: come si manipolano i chatbot