Contributo di The African Languages Lab
Le lingue africane costituiscono quasi un terzo di tutte le lingue del mondo. Eppure, delle oltre 2.000 lingue parlate in tutto il continente, solo 49 sono disponibili su piattaforme di traduzione come Google Translate. Ancora peggio, uno sbalorditivo 88% delle lingue africane è "gravemente sottorappresentato" o "completamente ignorato" nella linguistica computazionale (Joshi et al., 2020).
L'intelligenza artificiale (AI) offre la possibilità di proteggere le lingue sottorappresentate, ma l'orientamento e le garanzie sono fondamentali. Senza di essi, i modelli linguistici di grandi dimensioni (LLM) rischiano di rafforzare le lingue istituzionali e di accelerare il declino di altre. Le conseguenze sono disastrose: il 40% delle lingue a livello globale è a rischio di estinzione, centinaia delle quali sono parlate in Africa. (UNESCO, 2022).
L'African Languages Lab (All Lab) è una collaborazione guidata da giovani impegnata a preservare le lingue africane documentandole, digitalizzandole, traducendole e potenziandole attraverso sistemi avanzati di intelligenza artificiale e di elaborazione del linguaggio naturale (NLP). Insieme a partner come Smartling, stiamo facendo passi da gigante nell'affrontare il divario digitale per le lingue africane. Ecco come.
La necessità di una documentazione linguistica in Africa
La diversità linguistica è una delle maggiori risorse del continente africano, ma presenta anche sfide monumentali. Molte, soprattutto le comunità più piccole, parlano lingue uniche che non sono ben documentate. Questi linguaggi "a basse risorse" non dispongono dei set di dati necessari per l'uso computazionale, rendendo difficile, se non impossibile, la traduzione automatica (MT), l'elaborazione vocale, la trascrizione automatizzata e altre applicazioni NLP.
La sfida è ampia: meno del 5% delle lingue africane dispone di risorse digitali significative. (Associazione per la linguistica computazionale, 2019) È chiaro che dobbiamo documentare meglio queste lingue, ma il processo non è un compito da poco.
La sfida di documentare le lingue africane con scarse risorse (Issaka et la., 2024)
- Scarsità di dati: La maggior parte delle culture africane ha storicamente posto una forte enfasi sulle tradizioni orali. Di conseguenza, molti esistono principalmente in forma orale e la documentazione scritta è spesso scarsa o inesistente. Senza il linguaggio scritto, l'assemblaggio dei dati del corpus, ovvero una raccolta di linguaggio scritto e parlato necessario per addestrare i modelli di apprendimento automatico, diventa complicato.
- Politiche governative e finanziamenti limitati per la ricerca: La maggior parte dei governi africani ha dato priorità alle lingue ufficiali come l'inglese e il francese, spesso residui del dominio coloniale, fornendo al contempo scarso supporto istituzionale per documentare, preservare e sviluppare le lingue indigene. L'insufficiente finanziamento accademico a causa dello scarso interesse limita anche la ricerca e lo sviluppo delle tecnologie linguistiche indigene.
- Istruzione per la prima infanzia: Alcuni paesi africani mirano a preservare le lingue indigene nell'istruzione, ma gli sforzi spesso non sono sufficienti. Ad esempio, in Ghana, una politica impone l'istruzione nella prima lingua di un bambino dalla scuola materna alla terza elementare prima di passare all'inglese. Tuttavia, limita l'istruzione a 11 lingue sponsorizzate dal governo, con conseguente riduzione delle risorse, dell'attenzione e dei parlanti per le lingue rimanenti. Anche con queste politiche, gli educatori spesso si affidano all'inglese come principale mezzo di istruzione a causa delle risorse e della formazione limitate.
- Mancanza di ortografie standardizzate: La raccolta di dati per molte lingue africane con scarse risorse, come l'hausa e il fulani, è molto impegnativa a causa della loro ampia distribuzione geografica e delle significative variazioni dialettali. Pertanto, la creazione di risorse digitali unificate per queste lingue richiede un coordinamento e una standardizzazione accurati e importanti.
- Barriere alla raccolta dei dati: In alcune regioni, il conflitto attivo o l'emarginazione di alcuni gruppi linguistici influisce negativamente sulla raccolta dei dati e sulle iniziative di sviluppo linguistico. Inoltre, molti parlanti di lingue con scarse risorse vivono in comunità rurali o remote con accesso limitato a Internet e alle tecnologie digitali, rendendo la raccolta di dati linguistici ancora più difficile.
Innovare per l'equità linguistica
All'African Languages Lab, stiamo utilizzando sistemi di intelligenza artificiale e PNL per digitalizzare, tradurre e preservare le lingue africane e creare risultati positivi per le persone in tutto il continente. Il nostro approccio basato su quattro pilastri supporta attualmente 40 lingue, dal bantu parlato al khoisan meno conosciuto, che rappresentano diverse culture, regioni e famiglie linguistiche in tutto il continente.
In che modo l'African Languages Lab supporta le lingue con poche risorse
- Raccolta, estrazione, pulizia e archiviazione dei dati: Raccogliamo dati linguistici da diverse fonti, li curiamo e li standardizziamo rimuovendo le incongruenze e li archiviamo in modo sicuro per l'uso del modello di intelligenza artificiale.
- Ricerca e sviluppo di modelli: Conduciamo ricerche per costruire modelli di intelligenza artificiale che migliorino la comprensione e l'applicazione delle lingue africane.
- Coinvolgimento della comunità e crowdsourcing: Collaboriamo con istituzioni, comunità e persone madrelingua per raccogliere e tradurre dati, garantendo una rappresentazione autentica e una sostenibilità a lungo termine attraverso le nostre tecnologie innovative basate sull'intelligenza artificiale.
- Implementazione della tecnologia: In collaborazione con i leader del settore e le istituzioni accademiche, utilizziamo sistemi di intelligenza artificiale e NLP per tradurre i nostri dati in output linguistici utilizzabili che alimentano piattaforme come la nostra app All Voices e un chatbot multilingue, integrato nell'applicazione mobile Base.
I Paesi che integrano le lingue locali nell'istruzione e nei contenuti digitali tendono ad avere tassi di alfabetizzazione più elevati e una maggiore ritenzione culturale.
La tecnologia che rende possibile il nostro lavoro
L'attuazione dei nostri quattro pilastri richiede la tecnologia giusta e i partner collaborativi. Pertanto, abbiamo stretto una partnership strategica con Smartling, leader nella tecnologia di traduzione e localizzazione. Questa partnership ci consente di sfruttare gli strumenti all'avanguardia di Smartling per la traduzione linguistica, la gestione e l'accuratezza contestuale, trasformando il modo in cui le lingue con poche risorse vengono documentate e condivise digitalmente.
Ecco come la tecnologia sta guidando i nostri progressi nella digitalizzazione e nella traduzione delle lingue africane.
Compilazione di dati esistenti: aggregazione di corpus
Per molte lingue africane, mancano dati linguistici centralizzati. Raccogliamo e standardizziamo i dati da varie fonti, sfruttando gli script Python per pulire, standardizzare e convertire i dati in un formato comune con l'obiettivo di creare un corpus centralizzato per un ampio utilizzo. Il consolidamento e il perfezionamento dei dati linguistici garantiscono coerenza e accessibilità, consentendo alle comunità di creare risorse educative, strumenti di traduzione e contenuti digitali.
L'African Languages Lab ha raccolto oltre 400 GB di dati vocali e testuali per 40 lingue africane con scarse risorse, migliorandone la documentazione e la disponibilità digitale.
Reinventare il crowdsourcing: All Voices
Come accennato in precedenza, i dati incompleti sono una lacuna fondamentale per la conservazione della lingua che può essere difficile da colmare in alcune comunità africane. La nostra innovativa app per la raccolta dati, All Voices, consente alle istituzioni, alle comunità e ai madrelingua di documentare e digitalizzare la propria lingua locale. I collaboratori possono registrare il parlato per 40 lingue africane, supportando la nostra esigenza collettiva di acquisire dati per le lingue con poche risorse.
In futuro, All Voices colmerà le lacune comunicative nelle comunità e renderà le lingue locali accessibili a tutti. Tradurrà anche tra lingue africane e lingue popolari come l'inglese e il francese. Con una traduzione accurata e senza soluzione di continuità in un'ampia varietà di lingue, All Voices mira a promuovere uno scambio culturale più profondo, contribuendo anche a un crescente set di dati linguistici con poche risorse.
Gestione dei dati: dall'archiviazione alla traduzione
L'aggregazione e l'organizzazione dei dati linguistici, oltre alla disponibilità della comunità, sono fondamentali per il nostro lavoro presso The All Lab. Smartling svolge un ruolo fondamentale nell'intero processo di gestione dei dati, dalla raccolta dei dati, all'archiviazione, alla traduzione. Con Smartling, possiamo caricare, organizzare e archiviare i dati di più progetti in un sistema sicuro e centralizzato.
L'API di Smartling ci consente non solo di condividere i nostri dati su larga scala su più piattaforme, ma anche di apportare aggiornamenti in tempo reale, assicurando che ogni membro della nostra community abbia accesso al corpus digitale più accurato e completo.
Ci siamo affidati alla memoria di traduzione di Smartling, alle traduzioni basate sull'intelligenza artificiale e a traduttori qualificati per supportare contenuti coerenti e accurati in diverse lingue africane. Il nostro archivio linguistico strutturato e accessibile è essenziale per espandere gli sforzi di accessibilità e conservazione digitale in tutta la diversità linguistica dell'Africa.
Mettere a frutto i nostri dati
Il nostro lavoro presso l'All Lab, supportato dalle tecnologie di cui sopra, genera set di dati linguistici africani strutturati, che svolgono un ruolo fondamentale nella digitalizzazione delle lingue con poche risorse. Questi set di dati sono fondamentali per lo sviluppo di nuovi strumenti di traduzione automatica, riconoscimento vocale e conservazione della lingua. In definitiva, i nostri dati aiutano a far progredire la ricerca linguistica africana e supportano lo sviluppo di modelli linguistici più accurati e culturalmente rilevanti.
Rendiamo disponibili i nostri set di dati anche attraverso piattaforme ad accesso aperto come Huggingface. Il nostro lavoro promuove lo sviluppo dell'intelligenza artificiale basato sulla comunità e incoraggia maggiori investimenti nelle tecnologie linguistiche africane.
Fare passi avanti e guardare al futuro
Al Laboratorio di lingue africane, abbiamo compiuto progressi sostanziali nell'affrontare il divario digitale per le lingue africane attraverso la raccolta di dati, l'aggregazione, la standardizzazione, il crowdsourcing e lo sviluppo e l'implementazione di modelli. Siamo orgogliosi del nostro corpus di dati linguistici in crescita e robusto, che misura circa mezzo terabyte, strumenti di traduzione avanzati e della riuscita espansione dell'accesso alle risorse linguistiche.
Ad oggi, abbiamo raccolto oltre 400 GB di set di dati vocali e testuali per 40 lingue africane con scarse risorse, supportandone la documentazione e il progresso tecnologico. Attraverso partnership con istituzioni accademiche come l'UCLA MARS Lab e leader del settore come Smartling, stiamo sfruttando la ricerca e la tecnologia all'avanguardia per portare avanti la nostra missione. Stiamo anche aumentando attivamente la consapevolezza sul panorama linguistico africano attraverso seminari, conferenze e documenti tecnici.
Guardando al futuro, lavoreremo per preservare un maggior numero di lingue africane con scarse risorse, oltre le attuali 40. Puntiamo anche ad ampliare la disponibilità dei nostri set di dati e strumenti. Inoltre, ci impegniamo a promuovere ulteriormente l'innovazione nella traduzione automatica, nella conservazione della lingua e nella ricerca linguistica basata sull'intelligenza artificiale in tutta l'Africa. Insieme, faremo in modo che il patrimonio linguistico dell'Africa non solo sopravviva, ma prosperi nell'era digitale.