Respect du RGPD dans un projet de data lake : mission impossible ?
Avec Léa Richard, Data Protection Officer, ex-TikTok et Ledger
Alors que je mets la dernière main à cette édition sur le data lake, je me pose quelques minutes pour me rappeler pourquoi parler de ce sujet qui peut sembler super technique :
Il n’y a pas un département de l’entreprise pour lequel la donnée ne représente pas un enjeu. Analyses financières, détection de fraudes, protection des données sensibles, analyses de comportements, identification de problèmes ou de sources d’économie, création de tableaux de bord multi-sources, etc., tous ces sujets font partie de la gestion courante de l’entreprise.
La donnée est non seulement constitutive du capital de l’entreprise mais sa protection est également au coeur de sa réputation et de la confiance que les consommateurs accordent à une marque. On ne peut pas ignorer les conséquences désastreuses d’un manquement dans ce domaine.
Compte-tenu de ce qui précède, peu importe la plateforme technique. En tous cas, j’ai eu envie de comprendre les concepts de base du data lake et les implications d’un point de vue protection des données. Autant savoir de quoi on parle lorsqu’on a à coeur l’expérience client et la réputation de l’entreprise.
Et par alignement favorable, une personne de mon réseau m’a présenté Léa Richard, qui a exercé son métier de Data Protection Officer chez TikTok et pour la fintech Ledger. Avec Léa, nous discutions en détail des différents aspects de la question.
Comme elle le dit si bien :
La mise en oeuvre du RGPD est à 80% opérationnelle et technique....Je préfère parle de project management, customer success, et d’optimisation de l’acquisition des outils.
🤧 A propos de données personnelles, j’en partage une avec vous : j’ai le Covid depuis la semaine dernière, après deux ans sans encombres et malgré les vaccins. Et je ne m’attendais pas un tel niveau de fatigue ! Du coup pas de rubrique Everything Bagel cette fois-ci. Je ne sais pas comment je l’ai attrapé, peut-être en faisant mes courses sans masque. Alors si vous y avez échappé, continuez à vous protéger et prenez soin de vous.
A quoi sert un data lake ?
Première surprise en explorant le sujet, j’ai découvert que je faisais une erreur assez commune, qui est de confondre le data lake avec le data warehouse.
Dans cet excellent article, l’auteur explique bien la différence entre les deux :
Le data lake (lac de données) permet de stocker des données de toutes sortes (structurées et non structurées), provenant de multiples sources différentes,
Le data warehouse (entrepôt de données) accueille des données “propres” qui ont été processées (pour les amener à l’entrepôt), structurées et nettoyées. Il ne sert donc que pour les données qui ont un intérêt pour les métiers.
Le data warehouse peut être alimenté par le data lake, ou directement par les sources initiales, avec un processus qu’on appelle ETL (Extract, Transform, Load).
Il n’est pas obligatoire d’avoir un data lake. Mais cela présente un intérêt si :
Votre organisation a besoin de stocker un gros volume de données de multiples sources différentes (y compris IoT, internet, mobile, etc.),
Dans votre organisation, des data-scientists ont besoin de données brutes, par exemple pour alimenter des modèles de machine-learning,
Certaines applications de l’entreprise ont besoin de consommer des données de sources et de nature différentes, par exemple pour des tableaux de bord,
Il y a un potentiel de monétisation des données, qui incite à converser un grand volume d’informations,
Vous avez des obligations légales de conservation de données. Cela peut-être le cas de banques, par exemple.
Les dangers du “data swamp”
🤢 Ou comment votre beau lac se transforme en infâme marécage.
Tous les professionnels du secteur avertissent qu’il faut d’abord définir sa stratégie de gestion des données, et la gouvernance associée, pour éviter le syndrôme du marécage de données.
Entre autres conseils pour concevoir son data lake IBM mentionne trois points très importants :
Ancrer la conception sur les besoins business, et pas sur la technologie, et adopter une topologie qui sert ces besoins.
Utiliser les innovations dans le cloud, l’automatisation, et la gestion des données, pour alléger les coûts, améliorer la sécurité et faciliter la prise en main.
Prévoir dès la conception la sécurité et la protection des données.
Interview : data lake et protection des données avec Léa Richard, DPO
Connaissez-vous l’Autrichien Max Schrems et son incroyable ténacité ?
En 2011, Schrems étudie le droit pour un semestre à l’université de Santa Clara. Il assiste à une présentation d’un des cadres de Facebook et est stupéfait par son ignorance du droit européen en matière de protection des données. Il décide de faire son essai de fin de semestre sur le sujet. C’était le début d’une lutte qui dure encore aujourd’hui (voir ici) et qui a fait évoluer la législation européenne. Le dernier volet en date a conduit à la révocation du Privacy Shield et à la signature d’un nouvel accord entre l’EU et les Etats-Unis pour mieux garantir la protection des citoyens européens. Accord qui laisse cependant Schrems sceptique, comme mentionné dans l’article de TechCrunch.
Celle qui m’a parlé de ce personnage, c’est Léa Richard, une juriste non moins passionnée que Schrems par la protection des données. Elle est tombée dans la marmite dès son stage de fin d’étude chez Yahoo, où elle a travaillé trois ans. Cela l’a emmené dans un think tank, puis elle a exercé sa passion chez Tik Tok et Ledger. Son livre de chevet, c’est sur la protection des données. Et son enthousiasme est communicatif : nous avons parlé data lake et protection des données pendant une heure et quart !
Je vous livre l’essentiel dans deux vidéos de dix-douze minutes, où nous abordons les sujets liés au RGPD dans le cadre d’un projet de data lake :
Partie 1 :
L'enjeu d'un data lake d'un point de vue RGPD
La définition des données sensibles
Les ressources à impliquer dans un projet de data lake.
Partie 2 :
Le rôle des éditeurs de logiciel dans la protection des données
Le traitement des données non structurées
La planification du droit d'accès des clients
La planification des accès internes aux données
L'importance d'une culture de la protection des données dans l’entreprise
Voici les références apportées par Léa au cours de notre entretien :
Ethyca, Gretel et Leto, des solutions logicielles pour la mise en conformité
Guide de la CNIL sur la prospection commerciale
Site de l’Association Française des Correspondants à la Protection des Données à caractère Personnel
Site de The International Association of Privacy Professionals (IAPP)
Merci à Léa pour ses explications ! Elle m’a convaincue que la protection des données n’est pas que l’affaire des juristes, mais fait partie des enjeux business de l’entreprise.
A la prochaine édition, on reparle no-code avec l’interview d’une star du domaine…
Bonne quinzaine et prenez soin de vous,
Aurélie