Comme beaucoup l’ont appris pour la première fois tantôt cette année lorsque l’indignation populaire avait forcé Facebook et Google à révéler publiquement la valeur des données personnelles qu’ils recueillent de leurs utilisateurs, les entreprises de technologie savent presque tout sur nous, y compris les établissements que nous fréquentons, ce que nous achetons et les gens que nous connaissons. Et la plus récente démonstration de cette quantité de détails intégrés à notre insu dans nos profils de médias sociaux, ce sont les chercheurs de l’University College London et de l’Alan Turing Institute qui nous la donne en montrant qu’ils peuvent identifier avec exactitude un utilisateur de twitter avec un stupéfiant pourcentage du temps: 96,7 % en utilisant seulement leurs tweets et les métadonnées accessibles au public par le biais d’un algorithme de machine-learning. [apprentissage-machine]
Pour les utilisateurs qui s’engagent occasionnellement dans le tweeting anonyme, cette révélation ne devrait pas passer inaperçue. Dans leur étude, les chercheurs ont découvert que leur algorithme le plus élémentaire pouvait identifier correctement un utilisateur individuel dans un groupe de 10 000 personnes en utilisant seulement 14 métadonnées de leurs messages sur Twitter dans près de 96,7 % des cas. De plus, les tentatives d’obscurcir l’identité des individus en altérant les données ont été remarquablement inefficaces : Les chercheurs ont constaté qu’ils pouvaient toujours identifier les utilisateurs avec une précision de plus de 95 % lorsque 60 % de leurs métadonnées avaient été altérées. Lorsque les chercheurs ont élargi leur champ d’application aux 10 candidats les plus probables, la précision de l’algorithme est passée à 99,2 %. Un seul tweet contiendrait 144 champs de métadonnées, selon RT.
“C’est la mentalité avec les métadonnées”, a déclaré Beatrice Perez, co-auteure principale de l’étude, de l’University College London, à Wired. “Les gens pensent que ce n’est pas grave.”
Les résultats de l’étude ont des implications majeures pour la confidentialité des données, comme l’expliquent les chercheurs dans leur introduction :
Les travaux précédents montrent que le contenu d’un message posté sur une plate-forme OSN révèle une mine d’informations sur son auteur. Grâce à l’analyse de texte, il est possible de dériver l’âge, le sexe et l’orientation politique des individus (Rao et al. 2010) ; l’humeur générale des groupes (Bollen, Mao et Pepe 2011) et l’humeur des individus (Tang et al. 2012). L’analyse d’images révèle, par exemple, le lieu de prise de vue (Hays et Efros 2008), le lieu de résidence du photographe (Jahanbakhsh, King et Shoja 2012), ou encore le statut relationnel de deux individus (Shoshitaishvili, Kruegel et Vigna 2015). Si nous regardons les données de mobilité des réseaux sociaux géolocalisés, le comportement d’enregistrement des utilisateurs peut nous indiquer leurs antécédents culturels (Silva et al. 2014) ou identifier les utilisateurs de manière unique dans une foule (Rossi et Musolesi 2014). Enfin, même si un attaquant n’avait accès qu’à des ensembles de données anonymes, en examinant la structure du réseau, quelqu’un pourrait être en mesure de réidentifier les utilisateurs (Narayananan et Shmatikov 2009).
L’objectif de l’étude était de “déterminer si l’information contenue dans les métadonnées des utilisateurs est suffisante pour avoir les empreintes digitales d’un compte”, et elle a montré que même les algorithmes rudimentaires avaient des taux de réussite élevés lorsqu’il s’agissait d’identifier correctement les utilisateurs. Au cours de l’étude, les chercheurs ont utilisé des métadonnées comme la date de création du compte, ses adeptes, les comptes qu’il suit et les tweets qu’il aime, et l’ont fait passer par trois algorithmes d’apprentissage machine différents. Cette méthode, selon RT, pourrait être utilisée pour identifier un compte si un utilisateur change de nom, ou crée plusieurs comptes – ou pour dire si un compte légitime a été piraté.
Alors que les chercheurs ont utilisé Twitter pour leurs données, ils ont averti que “les méthodes présentées dans ce travail sont génériques et peuvent être appliquées à une variété de plateformes de réseaux sociaux”.