L’intelligence artificielle (IA), comme les humains qui donnent indirectement l’exemple aux algorithmes, peut être biaisée. Voire même alimenter des discriminations. C’est aussi le cas de la reconnaissance faciale, comme le révèle une étude réalisée par le MIT et Microsoft, parue dans la publication spécialisée Proceedings of Machine Learning Research. Ces scientifiques ont testé divers algorithmes de reconnaissance faciale supposés déterminer le genre de quelqu’un à partir de sa photo. Et ses résultats sont préoccupants : plus la carnation des personnes est foncée, plus le taux d’erreur grimpe en flèche ! Le maximum est atteint pour les femmes noires, avec un taux d’erreur pouvant s’élever jusqu’à 35%. Un problème récurrent : en 2015 déjà, Google avait été accusé d’étiqueter les photos de personnes noires comme des “gorilles” dans son applications Google Photos…
Les chercheurs ont construit un jeu de données de 1270 visages à partir de portraits d’hommes et de femmes politiques de diverses nationalités. Ils ont ensuite testé l’efficacité de 3 systèmes de reconnaissance faciale aujourd’hui commercialisés : celui de Microsoft, celui d’IBM, mais également Megvii Face++, qui est officiellement utilisé par les autorités chinoises avec un accès à la base de données personnelles centralisée par le gouvernement.
Résultat ? Ce sont les hommes blancs qui s’en sortent le mieux : ils n’ont été pris par des femmes par l’algorithme que dans moins de 1% des cas. Pour les femmes blanches, le taux d’erreur monte à 7%, contre respectivement 12% de taux d’erreur pour les hommes noirs mais surtout 35% pour les femmes noires. “Globalement, les hommes sont mieux répertoriés par l’algorithme que les femmes. La même tendance s’observe pour les sujets à la peau pâle par rapport à ceux dont la carnation est plus foncée, écrivent les auteurs. Et d’un point de vue intersectionnel, lorsqu’on croise les discriminations raciales et sexistes, on observe les pires performances pour les femmes à la peau noire.” Dans les jours qui ont suivi la parution de l’étude, IBM a réagi à travers une note de blog (en anglais). L’occasion, pour le géant américain, de rappeler que son logiciel est celui présentant le taux d’erreur le plus bas, entre les 3 testés.
Les biais mis en évidence par ce travail de recherche peuvent avoir d’importantes répercussions selon les applications technologiques. En septembre 2017, une étude défrayait la chronique en pensant pouvoir déterminer l’orientation sexuelle grâce à le reconnaissance faciale en dépit de biais méthodologiques évidents. Une tendance inquiétante lorsqu’on voit qu’en Chine, des systèmes prédictifs sont parfois utilisés afin d’interpeller des suspects. Aux États-Unis, ces technologies peuvent avoir des conséquences dramatiques lorsqu’elles sont utilisées par les autorités juridiques. En avril 2016, le titre américain The Atlantic (lien en anglais) montrait que les systèmes de vidéosurveillance automatisée étaient beaucoup moins performants sur les Afro-américains, pouvant mener à des arrestations d’innocents.
Ces biais proviennent en fait indirectement du choix des données qui vont venir alimenter l’algorithme lors de son apprentissage. On lui fournira ainsi un grand nombre d’exemples de personnes annotées “homme” ou “femme”. “Lorsqu’il est au point, un algorithme de prédiction a appris à retrouver ces étiquettes à partir des seules images“, décryptait Francis Bach, chercheur à l’Inria, pour Sciences et Avenir. “Mais le contexte importe, notamment l’origine ethnique : un algorithme ayant appris à partir de photos où les blancs sont sur-représentés par rapport à la population moyenne sera moins performant !”
Autrement dit, les pratiques de développement de ces logiciels ont leur importance. Or, les créateurs de ces programmes sont aujourd’hui principalement des hommes blancs (en tout cas en Europe et aux États-Unis, à l’exception de la Chine), observait le Guardian fin décembre 2017 (lien en anglais). Même si ces biais ne sont pas forcément intentionnels, et peuvent résulter de biais inconscients dans le choix des données d’apprentissage, leurs effets sont bien là.
“Les technologies de vision artificielle étant utilisées dans des domaines à forts enjeux comme la santé, la police ou la justice, il y a grand besoin de plus de travaux pour les valider sur plusieurs groupes démographiques et phénotypiques”, soulignent les deux auteurs de l’étude. Et ce, en dépit des allégations commerciales des sociétés du secteur du profilage vidéo, qui se targuent parfois d’un taux de succès “supérieur à 95%”. Un pourcentage susceptible de chuter si l’on n’est pas un homme blanc, semblerait-il.
Merci à Neuneu