
Le Monde – Demandez à ChatGPT d’énumérer les noms des pays africains. Jusqu’ici, tout va bien. Compliquez un peu les choses en lui posant la question en tigrinia, une langue parlée en Erythrée et dans le nord de l’Ethiopie. « Le résultat est un charabia, avec un mélange d’amharique [un autre idiome d’Ethiopie], de tigrinia et de mots inventés qui n’ont de sens dans aucune des deux langues », observe l’informaticien éthiopien Asmelash Teka Hadgu, après avoir ainsi mis au défi le robot conversationnel conçu par OpenAI.
La même expérience aurait aussi bien pu être menée avec l’éwé (Ghana, Togo), le yoruba (Nigeria, Bénin) ou le tsonga (Afrique du Sud, Mozambique). L’écrasante majorité des quelque 2 000 langues parlées sur le continent sont quasi inexistantes sur Internet, et donc pas ou mal reconnues par les systèmes d’intelligence artificielle (IA) tels que ChatGPT, Google Translate ou Siri. Elles sont dites « à faibles ressources », contrairement à une poignée de langues « à fortes ressources », anglais en tête, qui dominent aujourd’hui le Web mondial.
Comme Asmelash Teka Hadgu, un nombre grandissant d’entrepreneurs et de chercheurs africains s’attellent aujourd’hui à combler ces lacunes. Etabli à Berlin, l’Ethiopien a cofondé en 2019 la start-up Lesan, consacrée aux langues de son pays natal. L’entreprise a mis au point un outil de traduction automatique entre le tigrinia, l’amharique et l’anglais, et prévoit d’ajouter bientôt l’oromo et le somali. Faute de pouvoir s’appuyer sur un grand nombre de ressources en ligne (à titre d’exemple, il existe seulement 15 000 articles Wikipédia en amharique, une langue parlée par 30 à 50 millions de personnes), l’équipe doit faire preuve de créativité pour collecter ses données.
Une bonne partie est recueillie dans des ouvrages, magazines et documents grâce à l’aide de contributeurs locaux. Ceux-ci identifient les contenus les plus pertinents, puis les numérisent et les traduisent, le tout en s’appuyant sur un système de reconnaissance optique de caractères. « Cela demande beaucoup de travail, notamment manuel, reconnaît l’entrepreneur. Mais nous constatons qu’il est possible de construire un modèle qualitatif en s’appuyant sur de petits ensembles de données soigneusement sélectionnés. »
La pertinence de la méthodologie en question
Les géants de la tech affirment aussi vouloir participer à la promotion de ces idiomes sous-représentés, alors que selon les spécialistes, près de 7 000 langues dans le monde sont menacées d’invisibilité voire de mort numérique. La version 4 de ChatGPT en intègre certaines, comme l’islandais. Google Translate a quant à lui inclus une quinzaine de langues africaines lors de mises à jour en 2020 et 2022. Mais le niveau de traduction proposé est souvent insuffisant, et les chercheurs africains questionnent la pertinence d’une méthodologie qui ne répond pas aux spécificités des langues d’Afrique.
« Le manque de ressources écrites sur le Web est un défi majeur mais ce n’est pas le seul, souligne David Adelani, chercheur nigérian en informatique et en sciences du langage à l’University College de Londres. Il y a aussi la question des opportunités commerciales. Dans les pays occidentaux, le niveau de culture numérique est plus élevé, ce qui les rend plus attractifs en matière d’investissement. La technologie est ainsi développée selon un biais qui leur est favorable. » Aucun de ces obstacles n’est toutefois insurmontable, assure M. Adelani, qui souligne le « grand potentiel » des technologies vocales pour les populations du continent dotées d’une forte culture orale.
Source : Le Monde
Diffusion partielle ou totale interdite sans la mention : Source www.kassataya.com