IA et vie privée

Master 2 : Smart City et gouvernance de la donnée

Victor VILA

Au programme :

14h00 - Présentations
14h15 - Objectifs
14h20 - Introduction : l'IA
15h00 - Le projet
15h15 - Le marché public
15h30 - Les données de test
16h00 - Le registre
16h15 - Pause café
16h30 - Le lancement de l'application
16h45 - La boîte noire
17h00 - Le piratage
17h15 - Le biais
17h30 - Déclaration algorithme
17h45 - Récap & Retours

Objectifs :

Comprendre le fonctionnement des IA dans ses grandes lignes
Identifier ses impacts sur la vie privée
Appliquer ces connaissances dans le cadre d'un projet

Ce cours n'est pas :

Une compilation de la législation autour de l'IA

Un cours de programmation

Introduction : l'intelligence artificielle

Présentation des concepts de base de l'IA à l'intention des profils non techniques.

Présentation

IA : démêler le vrai du faux

Bienvenue à l'équipe Smart City

Vous travaillez au sein de la mission Smart City d'une grande ville.

Les défis auxquels vous ferez face aujourd'hui sont nombreux et nécessitent de beaucoup de réactivité pour tenir les délais.

Commençons !

Le projet

Le conseil municipal, fraîchement élu, souhaite se lancer dans un projet qui puisse donner à la ville une image plus moderne et attractive.

Pour cela, on vous confie la tâche d'imaginer et de mettre en place ce projet.

Vous avez une grande liberté dans le choix du projet, mais il y a tout de même une contrainte : il faut que votre idée fasse appel aux dernières technologies et en particulier à l'intelligence artificielle. Pas de problème, vous êtes au fait de ce que les IA peuvent faire.

De plus, souhaitant que ce projet rende service aux habitants de la ville, vous n'hésitez pas à traiter des données à caractère personnel.

Travail en équipe

Le conseil municipal vous pose ces questions :
- Quel problème résout votre projet ?
- Quelles données à caractère personnel utilise-t-il ?
- Comment l’intelligence artificielle utilise ces données ?

L'un des conseillers municipaux rappelle le scandale de Target il y a quelques années

Target avait développé une IA pour prédire si l'une de ses clientes était enceinte, sur la base de ses habitudes d'achat. L'entreprise leur envoyait alors des coupons de réduction pour produits bébé à domicile.

Ce type d'action prédictive s'est avéré problématique, p.ex. lorsqu'un pére a contacté Target en leur demandant pourquoi ils envoyaient ces coupons à sa fille lycéenne. Mais cela a aussi impacté des femmes réticentes de partager cette information avec leur compagnon.

Le coupon envoyé par La Poste avait entraîné la divulgation de leurs informations personnelles.

Autres risques

La personne a un problème de santé et les assurances ne voudront plus l’assurer
Pertes financières : perte d’une allocation / subvention
Discrimination à l'embauche

Clearview AI

Moteur de recherche d'identification d'individus à partir de photographies.

30+ milliards d'images collectées (y compris enfants).

Amende de 20M€ par la CNIL en octobre 2022

Image : t3n.de

Clearview AI commercialise un moteur de recherche servant à identifier des individus à partir de photographies.
Sa cible commerciale sont les services d'ordre et de sécurité.
La recherche est possible grâce à une base de gabarits biométriques des visages des personnes que Clearview AI a construit en collectant 30+ milliards d'images sur lesquelles apparaissent des visages.
Les images sont extraites des millions de sites web librement accessibles, des réseaux sociaux (X, Facebook, ...), des sites professionnels contenant des photographies de leurs salariés ...) et des vidéos.
Cette collecte concerne des images de personnes majeures comme mineures.
La CNIL a sanctionné Clearview AI avec une amende de 20M€ pour absence de base juridique et manquement aux obligations de respecter le droit d’accès, le droit à l'effacement et l’obligation de coopérer avec les services de la CNIL.

Crédits images : https://www.clearview.ai/post/how-we-store-and-search-30-billion-faces

Cambridge Analytica

Collecte fraudeleuse de données à caractère personnelles, utilisées ensuite pour influencer des élections.

Source : Le Monde , Wikipédia

En 2014, un chercheur de Cambridge a obtenu une authorisation de Facebook pour collecter des données via son API. Cambridge Analytica a embauché le chercheur pour développer un test psychologique remunéré avec 2 à 5$.
Mais pour toucher la récompense il fallait se connecter à Facebook et donner l'accord pour accéder à son profil sur Facebook. Mais à cette époque si on avait l'accès à un profil, on pouvait également siphoner le profil de ses amis
L’algorithme introduit dans l'ordinateur de la victime pouvait parcourir la liste de ses « amis » (contacts dans Facebook), en effectuant pour ces derniers le même processus d'extraction de données. C’est ainsi que 87M de personnes ont sans le savoir été victimes d'un gigantesque vol de données personnelles
En 2015 Cambridge Analytica commence à travailler dans les primaires présidentielles du Parti républicain américain de 2016.
Les données commencent à être utilisées par Ted Cruz pour influencer les primaires républicaines.
A ce moment Facebook coupe l'accès à l'API et demandé à CA de supprimer les données.
En 2016, le comité de campagne de Donald Trump (qui a payé 6M$ à CA) semble avoir modifié les intentions de vote (ou provoqué l'abstention) d'un nombre suffisamment important d'électeurs-clé pour conquérir le pouvoir grâce à des publicités ultra-ciblées.
Plus tard, dans le cadre du Brexit, 4 partis partisans du "Leave" ont payé 3.5M livres pour ces données
Et l'IA ? modélisation de personnalités, croisement de données, aide à la prise de décisions
Collecte sans consentement, détournement de finalité, fraude à la démocratie

Les images de Google Street View de votre maison peuvent prédire votre risque d'accident de voiture

Les images de Google Street View de votre maison peuvent prédire votre risque d'accident de voiture.

Cette découverte montre comment les données à caractère personnel peuvent être déduites de données à priori inofensives

Source : MIT , Arxiv

https://www.technologyreview.com/2019/04/30/135556/how-a-google-street-view-image-of-your-house-predicts-your-risk-of-a-car-accident/ Comment une image Google Street View de votre maison prédit votre risque d'accident de voiture Les compagnies d'assurance, les banques et les organisations de soins de santé peuvent considérablement améliorer leurs modèles de risque en analysant les images des maisons des assurés, selon des chercheurs. Google Street View est devenu une façon surprenante d'en apprendre davantage sur le monde sans y mettre les pieds. Les gens l'utilisent pour planifier leurs voyages, explorer des destinations de vacances, et épier virtuellement amis et ennemis. Mais des chercheurs ont trouvé des usages plus insidieux. En 2017, une équipe de chercheurs a utilisé les images pour étudier la répartition des types de voitures aux États-Unis, puis utiliser ces données pour déterminer la composition démographique du pays. Il s'avère que la voiture que vous conduisez est un proxy étonnamment fiable de votre niveau de revenu, de votre éducation, de votre profession et même de votre vote lors des élections. Maintenant, un autre groupe est allé encore plus loin. Łukasz Kidziński de l'Université Stanford en Californie et Kinga Kita-Wojciechowska de l'Université de Varsovie en Pologne ont utilisé des images Street View des maisons des gens pour déterminer leur probabilité d'être impliqués dans un accident de voiture. C'est une information précieuse qu'une compagnie d'assurance pourrait utiliser pour fixer les primes. Les résultats soulèvent d'importantes questions sur la façon dont les informations personnelles peuvent fuiter à partir de jeux de données en apparence inoffensifs et sur la possibilité pour les organisations d'utiliser ces données à des fins commerciales. La méthode des chercheurs est simple. Ils ont commencé avec un jeu de données de 20 000 dossiers de personnes ayant souscrit une assurance automobile en Pologne entre 2013 et 2015. Celles-ci avaient été sélectionnées de façon aléatoire dans la base de données d'une compagnie d'assurance non divulguée. Chaque dossier comprenait l'adresse de l'assuré et le nombre de sinistres déclarés pendant la période 2013-2015. L'assureur a également partagé sa propre prédiction de sinistres futurs, calculée à l'aide de son modèle de risque à la pointe qui prend en compte le code postal de l'assuré et l'âge, le sexe, les antécédents de sinistre, etc. de la conducteur. Kidziński et Kita-Wojciechowska ont cherché à savoir s'ils pouvaient faire une prédiction plus précise en utilisant une image Google Street View de la maison de l'assuré. Pour le savoir, ils ont rentré chaque adresse d'assuré dans Google Street View et téléchargé une image de la résidence. Ils ont classé ce logement selon son type (maison individuelle, maison mitoyenne, immeuble), son âge et son état. Enfin, ils ont croisé ces données pour voir leur corrélation avec la probabilité que l'assuré fasse un sinistre. Les résultats sont surprenants. Il s'avère qu'une résidence est un prédicteur étonnamment bon de la probabilité qu'un assuré déclare un sinistre. "Nous avons constaté que les caractéristiques visibles sur une photo de maison peuvent être prédictives du risque d'accident de voiture, indépendamment de variables classiquement utilisées comme l'âge ou le code postal", disent Kidziński et Kita-Wojciechowska. Lorsque ces facteurs sont ajoutés au modèle de risque à la pointe de l'assureur, ils améliorent sa puissance prédictive de 2%. Pour mettre cela en perspective, le modèle de l'assureur est meilleur qu'un modèle nul de seulement 8% et est basé sur un jeu de données beaucoup plus important incluant l'âge, le sexe et les antécédents de sinistres. Cette technique utilisant Google Street View a donc le potentiel d'améliorer significativement la prédiction. Et le travail actuel n'est qu'une preuve de concept. Les chercheurs disent que sa précision pourrait être améliorée en utilisant des jeux de données et des analyses de données plus importants. L'approche des chercheurs soulève un certain nombre de questions importantes sur la façon dont les données personnelles devraient être utilisées. Les assurés polonais pourraient être surpris d'apprendre que leurs adresses résidentielles avaient été entrées dans Google Street View pour obtenir et analyser une image de leur résidence. Une question intéressante est de savoir s'ils ont donné leur consentement éclairé à cette activité et si une compagnie d'assurance peut utiliser les données de cette manière, étant donné les strictes lois européennes sur la protection des données. "Le consentement donné par les clients à l'entreprise pour stocker leurs adresses ne signifie pas nécessairement un consentement pour stocker des informations sur l'apparence de leurs maisons", disent Kidziński et Kita-Wojciechowska. Cette approche pourrait ouvrir une boîte de Pandore en matière d'analyse de données. Si les compagnies d'assurance peuvent en bénéficier, pourquoi pas les autres entreprises ? "L'industrie de l'assurance pourrait rapidement être suivie par les banques, étant donné qu'il existe une corrélation prouvée entre les modèles de risque d'assurance et le scoring de risque de crédit", disent Kidziński et Kita-Wojciechowska. La capacité à collecter, analyser et exploiter les informations a considérablement augmenté ces dernières années. Cette capacité a dépassé la compréhension que la plupart des gens ont de ce qui est possible avec leurs données, et elle a certainement dépassé la vitesse à laquelle la législation peut être adoptée pour la contrôler. Bien sûr, Google n'est pas la seule entreprise à collecter des images de rues. "Cette pratique soulève cependant des préoccupations quant à la vie privée des données stockées dans des ensembles de données Google Street View, Microsoft Bing Maps Streetside, Mapillary ou équivalents privés comme CycloMedia", disent Kidziński et Kita-Wojciechowska. Ce type de travail soulèvera probablement la question de savoir si ces entreprises devraient être autorisées à collecter et stocker ces images. En Allemagne, où la vie privée est une question importante de débat public, Google s'est déjà vu interdire de collecter des images Street View. Ce ne sera peut-être pas le dernier endroit à introduire une telle interdiction. Réf: arxiv.org/abs/1904.05270: Google Street View Image of a House Predicts Car Accident Risk of Its Resident"

Risques des IA pour la vie privée

Biais
IA manipulable, p.ex. Tay
Opacité (black box)
Limitation ou refus de droits, p.ex. assurance
Manipulation de personnes, p.ex. Cambridge Analytica
Désanonymisation (ré-identification)
Inférence d'information privée, p.ex. Target
Impact sur la vie privée des deep fakes
Non conformité au RGPD, p.ex. détournement de finalité
...

Le projet est approuvé !

La DPO vient tout juste de prendre connaissance du projet.

L'aviez-vous prévenue ?

Le marché public

Faute de compétences des ressources internes, les développements informatiques associés à votre projet seront confiés à un prestataire qui sera choisi dans le cadre d'un marché public.

La DPO frappe à votre porte et vous sollicite pour l'aider à définir les clauses qui encadreront cette sous-traitance.

Travail en équipe

- Listez les principales informations qui doivent contenir ces clauses
- Décrivez l'un des traitements de données à caractère personnel réalisés par l'IA tel qu'il apparaîtra dans l'avenant de sous-traitance

Les données de test

Le prestataire a besoin de données pour tester son algorithme et il vous les demande.

Que faîtes-vous ?

Le registre

Très impressionnée par votre performance avec les clauses du marché public, la DPO vous demande de l'aider à remplir le registre de traitements en ce qui concerne votre projet.

Concrètement elle vous demande de :

Travail en équipe

- Lister les traitements de données à caractère personnel de votre projet
- Renseigner les informations obligatoires des traitements réalisés par l'IA (finalité, durée, ...)

Le lancement de l'application

Les développements sont finis, votre application testée et mise en production.

Le conseil municipal vous félicite pour ce lancement longuement attendu qui placera votre ville parmi les fleurons du numérique national.

Mais ..., il se peut que quelqu'un ait oublié une démarche par rapport aux données à caractère personnel ...

Travail en équipe

- De quoi s'agit-il ?
- Identifiez les actions correctrices et son contenu

La boîte noire

Cette fois-ci est la bonne.

Vous avez la certitude que tout est rentré dans l'ordre et que le projet est parfaitement maîtrisé quand le téléphone sonne ... Encore un oubli ?

Le service de communication de la mairie vous signale que plusieurs citoyens sont en désaccord avec les décisions de l'intelligence artificielle et demandent à que quelqu'un leur explique comment ces décisions sont prises !

Présentation

Les black boxes

Rappel : l'algorithme

La boîte noire est un système algorithmique dont il est possible d’observer les données d’entrée (X), les données de sortie (Y) mais dont on comprend mal le fonctionnement interne

Pourquoi ?

Certains problèmes ne peuvent pas être résolus avec des règles pré-établies à l'avance (p.ex. reconnaissance d'images, transcription d'audio, etc).

Les techniques permettant de le faire comme le deep learning, basent leur apprentissage sur des calculs qui peuvent mobiliser des millions de paramètres, ce qui provoque l’incapacité à décrire de façon intelligible le résultat produit sur chaque nouveau cas.

Comment "voit" une image un réseau neuronal ?

L’explicabilité : impact sur la vie privée

En tant que société, on ne peut admettre que certaines décisions importantes puissent être prises sans explication.

Accepteriez-vous des décisions injustifiables dans des domaines aussi décisifs pour votre vie comme l’accès au crédit, à l’emploi, au logement, à la justice ou à la santé ?

Lorsque ces décisions automatisées s'appuient sur des données à caractère personnel on parle de profilage.

Le profilage

Toute forme de traitement automatisé de données à caractère personnel visant à évaluer les aspects personnels relatifs à une personne physique, notamment pour analyser ou prédire des aspects concernant le rendement au travail de la personne concernée, sa situation économique, sa santé, ses préférences ou centres d'intérêt personnels, sa fiabilité ou son comportement, ou sa localisation et ses déplacements, dès lors qu'il produit des effets juridiques concernant la personne en question ou qu'il l'affecte de façon similaire de manière significative.

La réaction du RGPD

Transparence des informations et des communications
Art. 12.1 RGPD Le responsable du traitement prend des mesures appropriées pour fournir toute information [...] d'une façon concise, transparente, compréhensible [...]

Décision individuelle automatisée, y compris le profilage
Art. 22.1 RGPD La personne concernée a le droit de ne pas faire l'objet d'une décision fondée exclusivement sur un traitement automatisé, y compris le profilage, produisant des effets juridiques la concernant ou l'affectant de manière significative de façon similaire.

Droit d'accès
Art. 15.1.h) RGPD l'existence d'une prise de décision automatisée, y compris un profilage, [...] des informations utiles concernant la logique sous-jacente, ainsi que l'importance et les conséquences prévues de ce traitement pour la personne concernée.

Le piratage

Après 6 mois d'exploitation de votre application, vous pensez qu'il est salutaire de faire auditer votre application par une société externe.

Trois semaines plus tard, les résultats de l'audit vous sont remis.

Votre application utilise des capteurs connectés en Wi-Fi au serveur central pour éviter les câbles. Cependant, le système utilise les codes d'accès d'usine qui n'ont pas été changés !

La faille a été utilisé par des hackers qui ont récupéré la base de données y compris les données à caractère personnel. Les données n'ont pas été rendues publiques et aucune demande de rançon n'a été formulée.

Travail en équipe

- S'agit-il d'une violation de données ?
- Déclarer à la CNIL ? Quelles sont les informations à consigner ?
- Communiquer aux personnes concernées ? Que faut-il leur dire ?
- Y-a-t-il des exceptions à cette communication ?

Casino hacké par l'aquarium

Un casino aux Etats-Unis a installé un aquarium dans le hall d'entrée. La connexion IoT de l'aquarium lui permettait de surveiller à distance la température, la salinité et d'automatiser les repas. Pour s'assurer que ces communications restent séparées du réseau commercial, le casino a configuré le réservoir pour qu'il utilise un VPN individuel afin d'isoler les données du réservoir.

Après quelque temps, la sécurité a remarqué que le réservoir avait envoyé environ 10 Go de données en Finlande concernant les clients du casino et leurs dettes. Le casino avait été piraté via l'aquarium.

Le biais

Deux ans déjà !

Vous examinez les résultats de votre IA et vous remarquez que depuis un certain temps elle a tendance à favoriser un certain profil de citoyen. Cette tendance semble s'accentuer avec le temps.

Qu'est-ce qui se passe ?

Présentation

Les biais

Les IA peuvent être très utiles pour automatiser certaines tâches. Pour cela, elles s'appuient sur les relations qu'elles trouvent entre les données qui lui sont fournies pour les entrainer.

Si ces données ne sont pas neutres l'algorithme reproduira les discriminations déjà présentes dans les jeux de données qu’on lui fournit.

Types de biais

Amazon RH

Rêvant d'automatiser le processus de recrutement, Amazon a lancé un projet d'IA en 2014 basé sur l'examen des CV des candidats. En 2015, Amazon s'est rendu compte quel'IA ne notait pas les candidats de manière équitable et qu'il présentait des préjugés à l'égard des femmes.

Les données utilisées pour entrainer l'IA contenaient des préjugés contre les femmes car il y avait une domination masculine dans l'industrie technologique et les hommes formaient 60% des employés d'Amazon. Le système de recrutement d'Amazon a donc appris à tort que les candidats masculins étaient préférables. Il a pénalisé les CV comportant le mot "féminin", comme dans "capitaine du club d'échecs féminin". Amazon a donc cessé d'utiliser cette IA.

Biais et boîte noire

La problématique du biais peut être renforcée si l'algorithme est une boîte noire : dans ce cas, il n'est pas possible de savoir si le biais vient de l'algorithme lui-même ou des données.

Déclarer son algorithme

Vous épluchez une newsletter de veille et vous découvrez un webinaire d'Etalab qui parle de l'obligation de déclarer ses algorithmes. Auriez-vous loupé quelque chose ?

Présentation

- Les obligations concernant les algorithmes

En synthèse ...

https://guides.etalab.gouv.fr/algorithmes/guide/

Travail en équipe

- Préparez une déclaration succincte de votre algorithme
- Inspiration : https://data.nantesmetropole.fr/pages/algorithmes_nantes_metropole/

Bravo !

Vous avez survécu à ce projet !

Analyse de nouveaux projets

Vous êtes victimes de votre succès et vous êtes reconnus comme experts des risques qu'un projet utilisant l'IA peut présenter via-à-vis de la vie privée. En conséquence, les demandes d'analyse ne cessent plus d'arriver sur votre bureau...

Présentation

Cas d'usage de l'IA dans le secteur public

IA et vie privée

Au programme :

Objectifs :

Ce cours n'est pas :

Introduction : l'intelligence artificielle

Présentation

Bienvenue à l'équipe Smart City

Le projet

Travail en équipe

Clearview AI

Cambridge Analytica

Les images de Google Street View de votre maison peuvent prédire votre risque d'accident de voiture

Risques des IA pour la vie privée

Le projet est approuvé !

Le marché public

Travail en équipe

Les données de test

Le registre

Travail en équipe

Le lancement de l'application

Travail en équipe

La boîte noire

Présentation

Rappel : l'algorithme

Rappel : l'algorithme

Pourquoi ?

L’explicabilité : impact sur la vie privée

Le profilage

La réaction du RGPD

Le piratage

Travail en équipe

Casino hacké par l'aquarium

Le biais

Présentation

Types de biais

Amazon RH

Biais et boîte noire

Déclarer son algorithme

Présentation

En synthèse ...

Travail en équipe

Bravo !

Vous avez survécu à ce projet !

Analyse de nouveaux projets

Présentation

Récap ...

... et retours