Da sempre conosciamo le differenze tra lingua "scritta" e lingua "parlata", due versioni del medesimo idioma che presentano delle peculiarità sia dal punto di vista stilistico che da quello sintattico. è forse meno noto il fatto che esistono delle lingue unicamente "parlate", delle quali non è presente una versione scritta a cui fare riferimento.
Questa particolarità ha un’importanza fondamentale nello sviluppo delle tecnologie per la traduzione automatica, ciò avviene perché i modelli sviluppati fino ad ora sono stati incentrati principalmente sull’acquisizione di documenti e sul miglioramento della comprensione del linguaggio naturale tramite un confronto tra lingua scritta e parlato.
Ciò ha portato ad una sostanziale marginalizzazione delle lingue che vengono "solo parlate", si pensi per esempio agli idiomi utilizzati da diverse popolazioni indigene sparse in tutto il mondo, per tale motivo i ricercatori di Meta hanno deciso di trovare una soluzione sviluppando Intelligenze Artificiali in grado di tradurre anche queste ultime.
Attualmente infatti esistono circa 7 mila lingue e il 40% di esse non sarebbero associate ad un sistema di scrittura adottato universalmente. Tradurle diventa spesso difficile per via della scarsità di dati prodotti in quelle lingue, per questa ragione Meta ha deciso di utilizzare un nuovo sistema di apprendimento automatico basato sulle lingue "intermedie".
Risultati di buon livello in questo campo sarebbero stati raggiunti ad esempio nella traduzione dall’Inglese all’Hokkien, un’insieme di dialetti parlati da Cinesi residenti in zone del Sud-est asiatico e a Taiwan, per la quale come lingua intermedia è stato utilizzato il Cinese Madarino che ha permesso di integrare il modello con dati non disponibili tramite l’Hokkien.