Oltre la Torre di Babele: L’Evoluzione del Multilinguismo nell’Era dell’Intelligenza Artificiale
Siamo ormai talmente abituati ad usare ChatGPT in Italiano o in Inglese, da darne per scontate le capacità linguistiche. Tuttavia non è così per tutte le lingue.
Come l’Inglese Domina l’Addestramento di ChatGPT e le Sue Implicazioni
ChatGPT e modelli simili di intelligenza artificiale generativa (AI) sono stati maggiormente addestrati con dati in lingua inglese. Questo perché l’inglese è la lingua più rappresentata nel corpus di dati disponibili su Internet, che sono utilizzati per addestrare questi modelli. Di conseguenza, le prestazioni di questi sistemi sono generalmente migliori in inglese rispetto ad altre lingue, specialmente quelle meno rappresentate online.
Sorprendenti Prestazioni dell’Italiano in GPT-4
Nonostante non siano pubblici i dettagli specifici riguardanti i volumi di dati di addestramento, i benchmark presenti sul sito di OpenAI rivelano una prestazione sorprendentemente elevata dell’italiano in GPT-4, con performance molto vicine a quelle dell’inglese (84.1% contro 85.5%). Questo dato suggerisce che la lingua italiana ha beneficiato di un’attenzione significativa nel processo di addestramento. Confrontando queste cifre con, ad esempio, il punteggio del Telugu, una lingua dravidica dell’India centro-meridionale parlata da oltre 80 milioni di persone, che si attesta al 62%, emerge una netta discrepanza. Tale divario evidenzia come l’efficacia di uno stesso modello possa variare ampiamente tra le lingue con abbondanti dati di addestramento e quelle ancora in via di sviluppo nel contesto digitale.
Tuttavia, ci sono sforzi in corso per aumentare la capacità dei modelli di intelligenza artificiale di lavorare efficacemente in più lingue attraverso l’addestramento su set di dati multilingue e l’ottimizzazione delle tecniche di elaborazione del linguaggio naturale.
Affrontare il Problema dei Token nell’AI: Ostacoli per le Lingue Meno Diffuse
In questo contesto, uno dei problemi più significativi è quello dei token, che rappresenta una sfida particolarmente ardua per le lingue meno diffuse o quelle con strutture grammaticali complesse. La tokenizzazione, il processo di scomposizione del testo in unità più piccole per l’elaborazione, spesso privilegia l’inglese a scapito di altre lingue, portando a un divario di efficienza e precisione. In lingue come il Telugu, una lingua dravidica dell’India centro-meridionale parlata da oltre 80 milioni di persone, ad esempio, la frase “Hi, how are you?” che in inglese vale 4 token, in Telugu ne richiede 70 a causa dello sviluppo limitato di token di dimensioni maggiori, rallentando significativamente la generazione di testo e aumentando il consumo di tempo e risorse.
Innovazioni nella Tokenizzazione e l’Apprendimento Multilingue nell’AI
Un approccio innovativo al problema dei token è l’introduzione di sistemi di tokenizzazione dinamica che si adattano alle strutture linguistiche complesse. Questi sistemi mirano ad identificare modelli ricorrenti nelle lingue e creare token più efficienti che rappresentano meglio frasi e concetti complessi. Un altro metodo emergente è l’uso di modelli multilingue pre-addestrati che comprendono e incorporano regole grammaticali e sintattiche di molteplici lingue, consentendo loro di gestire meglio il contesto e la semantica. Questi modelli sono addestrati su dataset estensivi in molte lingue, permettendo loro di ‘tradurre’ conoscenze da una lingua molto rappresentata a una meno rappresentata. L’uso di tecniche di transfer learning, dove i modelli apprendono compiti in una lingua e trasferiscono quella conoscenza ad un’altra, sta anche guadagnando terreno come soluzione promettente.
Verso una AI Linguisticamente Inclusiva: Esperienze dall’India e dagli Emirati Arabi
Per affrontare queste e altre sfide legate al bias linguistico nei modelli di lingua, diversi governi e organizzazioni stanno intervenendo con soluzioni innovative. Un caso interessante è l’India, che ha adottato diversi approcci per migliorare la rappresentazione delle lingue locali nell’AI. Ad esempio il governo ha lanciato un chatbot per gli agricoltori che integra un sistema di traduzione verso l’inglese per elaborare le richieste che verranno poi elaborate da LLM “occidentali”, evidenziando un approccio rudimentale ma funzionale. Inoltre, la startup Sarvam AI ha ottimizzato la tokenizzazione per l’hindi con il suo modello OpenHathi, riducendo significativamente i costi.
Un altro caso interessante proviene dagli Emirati Arabi, dove è stato sviluppato un modello chiamato Jais che riflette un impegno simile verso l’inclusività linguistica nell’AI. Tale modello nonostante abbia un sesto dei parametri di ChatGPT-3, offre prestazioni comparabili in arabo, un risultato ragguardevole, considerando le complessità intrinseche all’arabo, una lingua ricca di sfumature dialettali e di una struttura grammaticale che si discosta significativamente da quella delle lingue occidentali.
Oltre l’Inglese: Il Futuro del Multilinguismo nell’Intelligenza Artificiale
La discussione su come i modelli linguistici gestiscono diverse lingue evidenzia l’importanza di raccogliere dati di addestramento in lingue diverse dall’inglese e di sviluppare tecniche di addestramento che possano beneficiare tutte le lingue, non solo quelle maggiormente rappresentate online. La sfida rimane nel trovare e utilizzare dati non in inglese in quantità sufficiente e di qualità paragonabile a quelli in inglese, un problema che si sta cercando di risolvere attraverso la raccolta di grandi quantità di dati in lingue diverse e la creazione di modelli veramente multilingue.
Questi sforzi rappresentano passi importanti verso la realizzazione di sistemi di AI veramente globali e inclusivi, che possano servire utenti in tutto il mondo in una varietà di lingue, contribuendo a superare le barriere linguistiche e culturali nell’accesso alla tecnologia.
Per chi volesse approfondire:
- il problema della tokenizzazione della lingua Telugu
- gli approcci nella gestione del multilinguismo nell’AI di India e Emirati Arabi
- i benchmark di OpenAI sulle performance di GPT4 nelle diverse lingue
Pingback: AI, Multilinguismo e Democrazia: Il Caso di Aya - 00lab