L’anonymisation est encore parfois critiquée pour être une pratique qui rend les données inutiles, car supprimant de l’information importante. La Cnil a décidé de prouver le contraire avec le projet Cabanon mené courant 2017. Elle s’est notamment appuyée sur la plateforme big data TeraLab de l’IMT pour anonymiser les données de taxis new-yorkais et montrer la possibilité de créer un service de transport.
Le 10 mars 2014, une infographie publiée sur Twitter par le régulateur des taxis new-yorkais éveille la curiosité de Chris Whong. Ce n’est pas tant le taux d’occupation des véhicules à l’heure de pointe renseignée sur le graphique qui intéresse le jeune urbaniste. Son regard est plutôt attiré par la source des données, indiquée en bas, ayant permis à la New York City’s Taxi and Limousine Commission (NYC TLC) de réaliser l’illustration. Par un commentaire du tweet, il se joint à la demande d’un autre utilisateur du réseau social, Ben Wellington, afin de savoir si les données brutes sont disponibles. S’ensuit un échange qui permet à Chris Whong de récupérer le jeu de données via une procédure fastidieuse, mais accessible à toute personne suffisamment déterminée pour entrer dans les méandres de la paperasse administrative. Une fois en possession de ces données, il les met en ligne. Grâce à cela, Vijay Pandurangan, ingénieur en informatique, montrera que l’identité des chauffeurs, des clients, ainsi que leurs adresses peuvent être retrouvées à partir des informations stockées sur les courses.
Les problèmes d’anonymisation des jeux de données ouvertes ne sont pas nouveaux. Ils ne l’étaient d’ailleurs déjà pas en 2014 lorsque l’histoire des données de la NYC TLC est apparue. Pourtant ce genre de cas persiste encore aujourd’hui. L’une des raisons est que les jeux de données anonymisées sont réputés être moins utiles que leurs équivalents non filtrés. Supprimer la possibilité de remonter à l’identité revient à supprimer de l’information. Dans le cas des taxis new-yorkais, cela signifie par exemple limiter la localisation des taxis à des zones géographiques, plutôt que d’indiquer des coordonnées au mètre près. Pour les créateurs de service qui souhaitent bâtir des applications, mais également pour les responsables des données qui veulent que celles-ci soient utilisées le plus efficacement possible, anonymiser, c’est perdre de la valeur.
Fervente défenseuse de la protection des données personnelles, la Commission nationale informatique et libertés (Cnil) a décidé de confronter cette idée reçue. Le projet Cabanon, mené par son laboratoire d’innovation numérique (le Linc) en 2017, a relevé le défi d’anonymiser le jeu de données de la NYC TLC et de les utiliser dans des scénarios concrets de création de nouveaux services. « Il y a plusieurs façons d’anonymiser des données, mais aucune n’est une solution miracle qui conviendrait à tous les usages » avertit Vincent Toubiana, en charge de l’anonymisation des jeux de données sur le projet — passé depuis de la Cnil à l’Arcep. L’équipe de Cabanon a donc réfléchi à une solution dédiée.
Dégrader spatialement et temporellement
Première étape : les coordonnées GPS ont été remplacées par le code ZCTA, équivalent américain de nos codes postaux. C’est la méthode choisie par Uber pour garantir la sécurité des données personnelles. Cette opération dégrade la donnée spatiale ; elle noie les positions de départ et d’arrivée des taxis dans des zones regroupant plusieurs pâtés de maison. Cependant, elle peut s’avérer insuffisante pour vraiment garantir l’anonymat des clients et des chauffeurs. À certaines heures de la nuit, il arrive qu’un seul taxi effectue une course d’une zone à une autre. Même si les positions GPS sont effacées, il est alors tout de même possible de lier position géographique et identité.
« En plus de la dégradation spatiale, nous avons donc introduit une dégradation temporelle » ajoute Vincent Toubiana. Les tranches horaires sont adaptées pour éviter le problème du client unique. « Dans chaque zone de départ et d’arrivée, nous regardons toutes les personnes qui prennent un taxi sur des tranches de 5, 15, 30 et 60 minutes » poursuit-il. Dans le jeu de données, le calibrage temporel est réglé de sorte qu’aucun segment horaire ne compte moins de dix personnes. Si malgré tout ce cas se présente sur le segment le plus large de 60 minutes, la donnée est tout simplement supprimée. Pour Vincent Toubiana « le but est de trouver les meilleurs compromis d’un point de vue mathématique pour garder un maximum de données en ayant les intervalles de temps les plus petits possible ».
Sur les données de 2013 utilisées par la Cnil — celles-là mêmes rendues publiques par Chris Whong — la NYC TLC comptait plus de 130 millions de trajet. La double opération de dégradation demande donc de grosses ressources de calcul. La manipulation des données pour les traiter en fonction des différentes découpes temporelles et spatiales a nécessité de faire appel à TeraLab, plateforme big data de l’IMT. « Passer par TeraLab était essentiel afin de faire des requêtes sur la base de données pour voir les intervalles de 5 minutes, ou pour tester combien de personnes nous pouvions regrouper au minimum » assure Vincent Toubiana.
La dataviz’ au service de l’usage des données
Une fois le jeu de données anonymisé de la sorte, reste à démontrer son utilité. Pour faciliter sa lecture, une data visualisation sous forme de carte choroplèthe a été réalisée — comprendre : une représentation géographique associant à chaque zone une couleur en fonction du volume des courses. « L’expérience visuelle permet à la fois de mieux réaliser la différence entre les données anonymisées et celles qui ne le sont pas, et de faciliter l’analyse et la narration autour de ces données » souligne Estelle Hary, designer à la Cnil ayant réalisé la data visualisation.
Sur la base de cette carte, une réflexion a été enclenchée sur les services à créer avec les données anonymisées. Elle a permis d’identifier des points à Brooklyn d’où les personnes commandent des taxis pour terminer leur trajet vers chez eux. « Nous sommes partis sur l’idée d’un réseau de transport privé qui viendrait en complément des transports publics new-yorkais » raconte Estelle Hary. Moins chers que les taxis, ces transports en commun privés pourraient combler les zones délaissées par les bus. « C’est typiquement un exemple de service viable que des données anonymisées permettent de créer » poursuit-elle. Dans ce cas, l’information perdue pour protéger les données personnelles n’a pas d’impact. Le jeu de données traité est tout aussi efficace. Et ce n’est qu’un exemple d’utilisation. « En couplant un jeu de données anonymisées avec d’autres données publiques, les possibilités deviennent vraiment multiples » pointe la designer. Une façon de dire que la valeur d’un jeu de données ouvertes se joue aussi sur la capacité à être créatif.
Certes, il existera toujours des cas où la dégradation des données brutes est une limite à la création d’un service. C’est le cas notamment pour les services les plus personnalisés. Mais peut-être faut-il alors imaginer l’anonymat non pas comme une valeur binaire, mais comme un gradient. Plutôt que de voir l’anonymat comme une caractéristique présente ou absente des jeux de données, n’est-il pas plus pertinent de considérer plusieurs degrés d’anonymat accessibles en fonction de l’exposition du jeu de données et du contrôle exercé sur l’utilisation ? C’est ce que propose la Cnil en conclusion du projet Cabanon. Les données pourraient être publiquement accessibles sous une forme complètement anonymisée. En complément, le même jeu de données pourrait être accessible dans des versions de moins en moins anonymes, avec en contrepartie un niveau de contrôle sur l’usage de plus en plus important.