Facebook Files : hors des Etats-Unis, les failles de la modération dans des dizaines de langues

Le Monde – Dans des pays à haut risque, les systèmes de modération du réseau social face aux discours de haine et aux manipulations ne sont pas suffisants, révèlent des documents internes de l’entreprise.

Comment un utilisateur afghan peut-il signaler un contenu haineux sur Facebook afin de le faire retirer ? La tâche n’est pas facile, car l’interface est très mal traduite en pachtou et en dari, deux langues importantes parmi les trente parlées dans le pays, regrette un employé du réseau social. « Dans un pays comme l’Afghanistan, où la part de la population qui comprend l’anglais est extrêmement réduite, s’assurer que le système est irréprochable en traduction, au minimum, semble d’une importance cruciale », écrit-il, d’autant que Facebook est « le premier réseau social du pays ».

Extrait de l’un des document anonymisés transmis au Congrès américain mettant en exergue les défaillances de la modération de Facebook en Afghanistan.

Cet extrait est tiré d’une note de janvier 2021 sur l’Afghanistan. Celle-ci fait partie des milliers de pages de documents internes à Facebook, récupérés par Frances Haugen, une ancienne employée qui a quitté Facebook en mai 2021, et transmis par une source parlementaire américaine à plusieurs médias, dont Le Monde. Ces fichiers sont souvent des présentations, des rapports et des études menés par des membres de l’équipe « integrity » de Facebook, chargée de veiller à la sécurité de la plate-forme.

—

Les « Facebook Files », une plongée dans les rouages de la machine à « likes »

Les « Facebook Files » sont plusieurs centaines de documents internes à Facebook copiés par Frances Haugen, une spécialiste des algorithmes, lorsqu’elle était salariée du réseau social. Ils ont été fournis au régulateur américain et au Congrès, puis transmis par une source parlementaire américaine à plusieurs médias, expurgés des informations personnelles des salariés de Facebook. En Europe, ces médias sont, outre Le Monde, le quotidien allemand Süddeutsche Zeitung, les chaînes de télévision WDR et NDR, le Groupe Tamedia, Knack, Berlingske et l’OCCRP.

Ils montrent que Facebook consacre davantage de ressources à limiter ses effets néfastes en Occident, au détriment du reste du monde. Ils attestent que ces effets sont connus en interne mais les signaux d’alerte pas toujours pris en compte. Enfin, ils prouvent que les algorithmes de Facebook sont devenus d’une complexité telle qu’ils semblent parfois échapper à leurs propres auteurs.

—

Ces documents offrent une vision rare sur l’intérieur de la machine du premier réseau social du monde, avec 2,9 milliards d’utilisateurs, dont 90 % hors des Etats-Unis. Ces fichiers révèlent certaines failles du géant américain, dont une des principales concerne ses activités internationales : dans des dizaines de langues et des pays parfois à risques ou en proie à des conflits, les systèmes de protection et de modération, tant humains qu’automatiques, ne sont pas suffisants.

« 40 % de faux comptes » dans l’ouest du Bengale

« Aujourd’hui, Facebook ne traite pas les Etats-Unis et le reste du monde sur un pied d’égalité, dénonce Frances Haugen. L’entreprise est hypocrite car elle n’investit pas dans les mécanismes de protection adéquats pour l’ensemble des utilisateurs qui ne parlent pas anglais. » « Les pays les plus fragiles ont la version la moins sécurisée de Facebook », ajoute la lanceuse d’alerte.

Hasard du calendrier, ce constat a été prolongé par la toute nouvelle Prix Nobel de la paix, Maria Ressa. « Facebook priorise la diffusion de mensonges mêlés de colère et de haine plutôt que celle des faits », a estimé le 9 octobre la journaliste philippine. Ces déclarations s’ajoutent à une première série d’articles du Wall Street Journal sur les travers de Facebook et de sa filiale Instagram, qui ont plongé l’entreprise dans sa pire crise politique depuis 2018, quand il avait été révélé que Cambridge Analytica, prestataire de la campagne de Donald Trump, avait pu accéder à des millions de profils.

De fait, les employés des équipes de lutte contre les abus de Facebook mettent en avant dans les documents l’ampleur du défi à relever pour le réseau social en dehors des Etats-Unis. Par exemple, en Inde, dans un échantillon des utilisateurs postant le plus de contenus politiques dans l’ouest du Bengale, « 40 % étaient des faux comptes », explique l’auteur d’une note. Dans un « test utilisateur » mené en février 2019 par un employé, un nouveau compte témoin créé en Inde se voit recommander par Facebook des contenus attisant les tensions entre hindous et musulmans : après trois semaines, son fil d’actualités est devenu « un flot de contenu nationaliste clivant, de désinformation et de violence visuelle ». Ce test, qui pointe le rôle des algorithmes de recommandation de contenus, n’est pas spécifique à l’Inde et a été reproduit, notamment aux Etats-Unis.

Extrait de l’un des documents anonymisés transmis au Congrès américain, dans lequel l’auteur s’alarme de la montée des discours de haine dans les fils des utilisateurs indiens de Facebook.

De son côté, Facebook se félicite, dans un autre document, d’avoir plutôt bien géré le déroulement des élections générales d’avril et de mai 2019 dans la péninsule. Plus globalement, le réseau social souligne ses efforts constants pour améliorer la sécurité de sa plate-forme : dans ce domaine, Facebook dit avoir investi 13 milliards de dollars (plus de 11 milliards d’euros) depuis 2016 et disposer d’une équipe de 40 000 personnes au total. Plus récemment, l’entreprise a constitué une « cellule de suivi des pays à risques », après avoir été accusée de contribuer à la diffusion d’appels au génocide des musulmans Rohingya en Birmanie, en 2018. Quant aux reproches de Frances Haugen, l’entreprise de Mark Zuckerberg les dépeint comme un tableau « non fidèle à la réalité », inspiré par des extraits de documents « volés ».

Douze nouvelles langues, dont le créole haïtien

Il n’empêche, la lecture des documents illustre la gestion nécessairement épineuse d’un service mondial de communication et de publication – presque une tour de Babel –, « disponible dans plus de 100 langues [avec] des bureaux dans plus de 30 pays », selon son rapport annuel, cité dans une plainte déposée par M^me Haugen auprès du gendarme des marchés américains, accusant l’entreprise de minimiser, auprès des investisseurs, ses difficultés à sécuriser sa plate-forme. Facebook défend ses progrès et affirme que son équipe de suivi des pays à risques contient des locuteurs de « 50 langues ».

Mais, comme l’illustre l’exemple afghan, le règlement de la plate-forme, interdisant notamment les discours de haine ou les discriminations, n’est parfois pas traduit. Au total, il n’est disponible que dans 49 langues. Parmi elles, l’oromo, l’amharique ou le somali, répandues en Ethiopie, où Facebook est accusé, notamment par M^me Haugen, d’avoir hébergé des contenus attisant le conflit qui oppose depuis 2020 le pouvoir à la rébellion tigréenne. Mais l’ajout est assez récent : en 2019, les conditions d’utilisation manquaient encore à l’appel dans ces langues, selon l’agence Reuters. Depuis, Facebook fait valoir ses efforts pour les élections éthiopiennes de juin 2021 : une équipe de suivi, des partenariats avec des ONG ou la limitation du « repartage » de contenus d’amis d’amis, comme cela avait déjà été fait en Birmanie ou au Sri Lanka.

Accusé de ne disposer que de deux modérateurs parlant le birman avant les violences de 2018, Facebook assure en avoir désormais une centaine

La question des langues s’étend à un autre domaine crucial : les modérateurs chargés d’analyser si les contenus signalés violent les règles. Le nombre de ces employés, gérés par des prestataires extérieurs, est désormais de 15 000. Ils ne sont répartis que dans vingt lieux dans le monde mais couvrent 70 langues, assure Facebook. Outre des locuteurs en amharique, oromo ou tigréen, l’entreprise affirme avoir ajouté, ces derniers mois, douze nouvelles langues, dont le créole haïtien. Accusé de ne disposer que de deux modérateurs parlant le birman avant les violences de 2018, Facebook dit en avoir désormais une centaine et a annoncé en février bannir les comptes liés à la junte militaire. Dans un document interne rédigé avant les élections de 2019 en Inde, pays connu pour ses centaines de langues, un employé se félicite aussi que « 12 dialectes » aient été ajoutés à l’hindi, au pendjabi et au bengali.

Pourtant, Facebook a toujours refusé de publier son nombre de modérateurs par pays ou par langue, malgré les demandes répétées des responsables politiques et des journalistes. Et pour l’arabe, troisième langue parlée sur le réseau, les documents internes montrent que ces employés, principalement installés au Maroc et en Allemagne, ne maîtrisent pas certains des principaux dialectes. « L’équipe de modérateurs a des moyens, mais il y a quand même des trous dans certaines zones et langues, parfois couvertes par un seul locuteur, raconte Katie Harbath, une autre ex-employée. Dans certains cas, ce manque n’était pas lié à un refus de recruter mais à une difficulté à trouver des personnes qualifiées pour ce travail. »

Les problèmes du réseau social se renforcent les uns les autres car une des sources majeures pour détecter des contenus problématiques est le signalement par des internautes. Or, dans certains pays, où les traductions manquent et où certains utilisateurs maîtrisent mal le numérique ou l’écrit, ces dénonciations sont moins nombreuses. Les taux de signalement d’utilisateurs sont ainsi plus bas en Afrique qu’ailleurs, car « certains ne savent même pas que la plate-forme a un règlement », a expliqué à l’agence Reuters en 2019 Ebele Okobi, responsable des affaires publiques sur le continent pour Facebook, qui dit toutefois mener des campagnes de sensibilisation.

Systèmes de repérage automatique

L’autre source de détection des discours de haine ou discriminants provient des logiciels d’intelligence artificielle créés pour analyser les contenus. Mais les documents internes montrent que ceux-ci sont également limités par les langues. Selon la note sur l’Afghanistan, seuls 2 % des contenus haineux modérés dans le pays sont ainsi repérés automatiquement, contre plus de 90 % en moyenne dans le monde entier. Le problème est que ces systèmes informatiques ont besoin de « classifiers », des catégories qui leur permettent de reconnaître un type de contenu problématique, par exemple sexuel ou haineux, mais qui nécessitent un entraînement à partir d’un grand volume de données dans la langue correspondante. « Cela prend du temps », constate un employé dans un document.

Dans un tableau dévolu aux pays les plus risqués, daté de juin 2020, il est ainsi précisé que des « classifiers » de désinformation manquent en Birmanie, au Pakistan, en Ethiopie, en Syrie ou au Yémen. Idem pour les contenus trompeurs ou dangereux sur le Covid-19, en pendjabi ou en oromo, ainsi que pour les discours de haine en oromo et en amharique. « Notre manque de classifiers en hindi et en bengali signifie que beaucoup de ces contenus ne sont pas signalés ou modérés », regrette un employé dans la note sur l’Inde, citant des propos « antimusulmans » sur des pages liées au groupe nationaliste hindou RSS.

Interrogé, Facebook assure que ses systèmes de repérage automatique fonctionnent désormais dans 50 langues pour les discours de haine, dont l’hindi, le bengali, l’oromo ou l’amharique ; et dans 19 langues pour la désinformation liée au Covid-19. L’entreprise ne donne toutefois pas de nombre de « classifiers » pour la désinformation en général. Quant à la propagande terroriste, les logiciels étaient censés la détecter dans 19 langues en 2019, selon Reuters.

Pour les contenus haineux, 26 % du temps a été consacré à l’anglais, contre 8 % à l’espagnol, 7 % à l’arabe ou 4 % au français

Globalement, les contenus problématiques sont moins bien combattus s’ils ne sont pas en anglais, car Facebook investit proportionnellement moins, conclut Frances Haugen. Sur une semaine, en août 2019, les dépenses de modération humaine des contenus haineux ont été consacrées à 37,7 % à l’anglais américain, loin devant l’espagnol (4,8 %) ou le portugais (4,7 %), selon un document consacré aux coûts de cette activité et aux pistes pour les contrôler, voire les réduire, notamment grâce aux logiciels.

Et, pour ces derniers, des déséquilibres peuvent aussi exister : en 2020, 87 % des heures passées par des modérateurs à entraîner les systèmes de détection automatique de désinformation ont été consacrées aux contenus venant des Etats-Unis, selon un autre document. Pour les mêmes logiciels dédiés aux contenus haineux, 26 % du temps a été consacré à l’anglais, contre 8 % à l’espagnol, 7 % à l’arabe ou 4 % au français. De son côté, Facebook met en garde contre les chiffres « sortis de leur contexte » et assure « que la majorité de ses efforts de lutte contre la désinformation sont dédiés à du contenu publié hors des Etats-Unis ».

Plus largement, le réseau social cherche à orienter le débat vers la notion de « prévalence », destinée à mesurer la présence d’un type de contenu : pour la haine en ligne, celle-ci serait de 0,05 %, soit 5 vues sur 10 000, et elle aurait baissé de 50 % ces neuf derniers mois. Toutefois, ce calcul maison n’est qu’une moyenne mondiale, qui ne dit rien des concentrations de contenus problématiques dans certains groupes ou dans certaines zones. Et Facebook ne communique toujours aucun chiffre sur la modération par pays ou par langue.

L’entreprise californienne insiste enfin sur le réseau de médias partenaires qu’elle a tissé depuis 2017 pour vérifier les fausses informations sur sa plate-forme. Ceux-ci – dont Le Monde – se voient signaler des contenus, les analysent et, s’ils sont trompeurs, Facebook leur accole un avertissement et réduit leur diffusion sur sa plate-forme. Ce réseau compte aujourd’hui 80 partenaires, dont l’agence française AFP, présente dans 84 pays. Et couvrirait désormais 60 langues.

Des collègues frustrés

Malgré les efforts de l’entreprise, Frances Haugen estime insuffisants les moyens consacrés par Facebook à la sécurité hors des Etats-Unis et aux activités de l’équipe « integrity », dont elle faisait partie. Au sein de ce service chargé d’étudier les abus sur la plate-forme et de proposer des solutions, son unité dévolue à la « désinformation civique » ne comptait que quatre membres, regrette-t-elle. Cette critique rejoint celle de Sophie Zhang, une autre lanceuse d’alerte qui a quitté l’équipe « integrity » et Facebook en septembre 2020. Celle-ci a raconté avoir mis au jour des cas de « fausse activité » menés sur le réseau par des acteurs politiques au Honduras ou en Azerbaïdjan, mais elle reproche à la direction de ne pas avoir agi, ou trop tard, car ces sujets étaient peu médiatiques aux Etats-Unis. De son côté, Facebook se félicite d’avoir, depuis 2017, supprimé « 150 réseaux d’influence visant à manipuler le débat public », dont une majorité à l’étranger.

Un « tsunami électoral » se profile pour 2024 : présidentielle américaine, européennes et élections au Royaume-Uni, en Inde, en Indonésie, en Ukraine, à Taïwan, au Mexique

« Le manque de moyens pour développer des outils décrits par Frances Haugen, était réel, dans la partie de l’équipe “integrity” dédiée à la politique ou dans l’équipe élections », estime Katie Harbath, qui dirigeait l’équipe d’une trentaine de personnes chargée du suivi des élections dans le monde au sein de « public policy », un service séparé d’« integrity ». Celle-ci se souvient de collègues frustrés de ne pouvoir développer de nouveaux classifiers pour un type de contenus dangereux dans une langue, ou un outil pouvant repérer les fausses dates d’élections destinées à tromper les électeurs, comme aux Etats-Unis.

Alexandre Piquard

Source : Le Monde

Diffusion partielle ou totale interdite sans la mention : Source www.kassataya.com

kassatayaoctobre 25, 2021