
Wolof e Pulaar nei modelli di Intelligenza Artificiale Open Source
Ho l’opportunità di tornare su due temi che ho già toccato in passato – il multilinguismo e l’Africa – grazie ad Orange, la maggiore compagnia telefonica francese, che ha annunciato un’iniziativa per integrare delle lingue regionali africane in alcuni modelli di intelligenza artificiale.
Il progetto prevede il fine-tuning del modello di riconoscimento vocale Whisper di OpenAI e del modello linguistico Llama di Meta e mira a supportare inizialmente Wolof e Pulaar, lingue parlate da circa 20 milioni di persone tra Senegal e Guinea.
L’obiettivo dichiarato è migliorare la comunicazione tra i clienti africani e i servizi di Orange, ma non solo. I modelli addestrati su queste nuove lingue, infatti, saranno resi disponibili gratuitamente per applicazioni non commerciali – come la sanità pubblica e l’istruzione – con l’intento di ridurre il divario tecnologico e promuovere l’inclusione digitale.
Il progetto, che partirà nel 2025, rappresenta un passo avanti per coinvolgere chi, per motivi linguistici o di alfabetizzazione, è stato finora escluso dalle opportunità offerte dall’Intelligenza Artificiale.
Un aspetto fondamentale che rende possibile questo progetto è l’uso di modelli open source. Whisper e Llama, messi a disposizione rispettivamente da OpenAI e Meta, permettono di partire da una base solida e di essere adattati alle esigenze specifiche del contesto africano. Questa accessibilità è essenziale per iniziative che, come quella di Orange, puntano a creare soluzioni su misura per comunità locali.
L’open source non è solo una scelta tecnica, ma un’opportunità strategica. Permette di ridurre i costi di sviluppo e di accelerare la condivisione delle innovazioni, favorendo un ecosistema tecnologico più inclusivo. Orange, infatti, non si limita a utilizzare queste tecnologie per scopi interni: i modelli così adattati saranno disponibili per organizzazioni e startup locali, incoraggiando ancor più l’uso dell’AI.
Nonostante i buoni auspici, il progetto non sarà affatto una passeggiata. L’Africa è un continente, con le sue oltre 3.000 lingue parlate, estremamente diversificato dal punto di vista linguistico, Questo rende difficile raccogliere e standardizzare i dati necessari per addestrare modelli di linguaggio accurati e rappresentativi. Molte lingue – come le stesse Wolof e Pulaar oggetto del progetto – non dispongono di una vasta documentazione scritta, complicando ulteriormente il processo di addestramento.
C’è poi il tema etico legato al lavoro di annotazione e addestramento dei modelli. In passato, altre aziende tecnologiche sono state criticate per le condizioni lavorative imposte a chi lavora alla raccolta di dati linguistici. Orange dovrà dimostrare che il suo approccio sarà sostenibile e rispettoso delle comunità coinvolte.
L’iniziativa di Orange non è solitaria. Start-up locali, come la sudafricana Lelapa, stanno sviluppando modelli multilingue per lingue africane, e il coinvolgimento di grandi aziende come Orange potrebbe dare una spinta decisiva al settore.