mercredi 17 juillet 2013

Le plus grand data center du monde


Voyage au cœur du plus grand data center du monde

REPORTAGE | Entre l'internaute et la page recherchée, il n'y a presque rien, si ce n'est de titanesques centres de traitement de données comme celui d'OVH. Visite chez le premier hébergeur européen, externalisé dans la banlieue de Montréal.
Le 
Repris de Thomas Bécard - Télérama n° 3313
 Le data center, vu de l'intérieur. © David Giral pour...
Le data center, vu de l'intérieur. © David Giral pour Télérama.
Un coup de badge électronique, la porte s'ouvre, et l'on doit arborer la même expression qu'Ali Baba découvrant la ­caverne des quarante voleurs. De loin, l'enchevêtrement de fils rouges et gris fait penser à une matière organique, un rêve biomécanique à la H.R. Giger. En s'approchant, on s'aperçoit vite qu'en fait, malgré la complexité des connexions, sans doute une vingtaine par étagère, chaque câble est strictement rangé à sa place, reliant les serveurs et leurs composants au système de refroidissement.

Un couloir ventilé et bardé d'équipements informatiques, cela a un nom : un data center, soit, comme ces mots anglais l'indiquent, un centre de traitement de données. Oui, mais quelles données ? Les miennes, les vôtres. Celles auxquelles on accède en surfant sur un site Web, en regardant une ­vidéo sur YouTube ou en écoutant une chanson sur Spotify. Celles que l'on produit en envoyant un message sur Gmail, en postant une photo sur Facebook ou en relayant une information sur Twitter.

En 2006, le sénateur américain Ted Stevens avait provoqué l'hilarité de millions d'internautes en s'embarquant dans une description hasardeuse, expliquant qu'Internet « ce n'est pas un gros camion, mais une série de tubes ». Si la première partie de la proposition est assurément vraie – même si l'on ne voit pas très bien où

il voulait en venir avec cette histoire de camion –, la seconde affirmation demanderait à être précisée. Oui, Internet, c'est bien une histoire de tuyaux. Mais on a souvent tendance à oublier que ces tuyaux aboutissent quelque part. Et, en général, ils mènent à un data center. Un lieu où l'on stocke des rangées d'ordinateurs en réseau (des serveurs), qui eux-mêmes hébergent un gros, gros paquet de fichiers informatiques que l'on peut consulter ou manipuler à distance.

Le premier hébergeur européen… hebergé au Canada

Mon data center au Canada ! C'était le rêve d'une société française, OVH, premier hébergeur européen, bien décidée à venir titiller le marché nord-américain en s'installant à Beauharnois, petite ville d'une dizaine de milliers d'habitants de la grande banlieue de Montréal, de l'autre côté du Saint-Laurent. Pour se rendre rue de l'Industrie, il faut d'abord traverser le quadrillage de voies rectilignes bordées de maisons en bois peint. Les habitations les plus cossues sont tout au bord du lac Saint-François, et il n'est pas rare de voir un bateau garé dans l'allée du garage.

Au bout de la route, après la zone industrielle, il y a la centrale hydroélectrique. Mise en service en 1932, elle a nécessité le creusement d'un canal de 25 kilomètres le long du tronçon du fleuve situé entre les lacs Saint-François et Saint-Louis. Le bâtiment Art déco en briques, long de près d'un kilomètre, posé sur l'embouchure du canal, abrite trente-huit groupes turbines-alternateurs qui transforment en continu le flot d'eau en électricité. Mais si OVH a choisi de s'implanter ici, c'est aussi parce qu'existait un autre grand édifice, en briques lui aussi, à 300 mètres de la centrale : une ancienne fabrique d'aluminium, fermée en 2009 par Rio Tinto Alcan, après plus de soixante-cinq ans d'activité.


Le data center, vu de l'extérieur.© David Giral

Le data center, vu de l'extérieur.© David Giral pour Télérama.

« Ici, nous construisons le plus grand data center du monde. » Jérôme Arnaud, responsable des opérations nord-américaines d'OVH, dit cela sereinement, pour un petit Français qui s'amuse à faire la nique à Google, Microsoft ou IBM. Car OVH n'est pas vraiment un géant de l'informatique : six cents employés, un siège à Roubaix et un nom peu connu du grand public (« OVH, la face cachée de l'Internet français », titrait récemment Le Monde Economie). Une entreprise familiale créée par un surdoué des ordinateurs, Octave Klaba (la légende dit qu'il a programmé son premier PC à l'âge de 6 ans), et dirigée par le père de ce dernier, Henryk.

Mais alors, vraiment le plus grand data center du monde ? « Beauharnois, c'est déjà le plus grand en surface, reprend Jérôme Arnaud. Si l'on compte le nombre de serveurs, on en a 10 000 en service, 20 000 dans un mois, et à terme, 360 000 ! » Nombre faramineux. Mais difficile à comparer puisque Google, Microsoft et consorts n'aiment pas vraiment communiquer à propos de leurs data centers – le seul dont Google ait jamais ouvert les portes à un journaliste (de Wired), à Lenoir, en Caroline du Nord, abritait 49 923 serveurs en octobre 2012.

En attendant que quelqu'un d'autre revendique le titre, c'est donc OVH qui tient le bon bout. « En voyant le bâtiment d'Alcan, on s'est exclamé : "La vache !", raconte Octave Klaba sur l'un des forums de discussion d'OVH. On a tout de suite compris que c'était ce qu'il nous fallait pour pouvoir exporter notre technologie dans un pays froid. » L'ex-usine d'aluminium convenait parfaitement. Pour fabriquer l'aluminium, il faut de l'électricité – l'alumine, extraite de la bauxite, est dissoute par électrolyse dans un bain qui dépasse 950 degrés Celsius. Et évidemment, avec une telle température, l'usine doit être conçue de manière à être bien ventilée.

De l’air frais

Justement, l'électricité et la ventilation sont deux ingrédients primordiaux pour la construction d'un data center, car un serveur doit être maintenu à une température comprise entre 20 et 25 degrés. L'équipe d'OVH a alors l'idée de reproduire, à l'intérieur de l'usine d'Alcan et à une échelle plus petite, l'architecture de Roubaix 4, l'un de ses data centers du Nord. Début 2012 commence la construction d'une première tour carrée, en murs de tôle percés de gros ventilateurs qui injectent de l'air frais parmi les rangées de serveurs, qu'un large puits central évacue ensuite.
Mais, attention, ventilation n'est pas climatisation, et OVH s'enorgueillit d'avoir inventé un système maison, moins gourmand en électricité. « Début 2000, les fabricants de processeurs étaient lancés dans une course au gigahertz, l'unité qui mesure la vitesse de calcul, explique Germain Masse, directeur des opérations d'OVH. Du coup, ces processeurs produisaient de plus en plus de chaleur. On s'est rendu compte que l'on consommait davantage d'énergie pour refroidir les serveurs que pour les alimenter. Henryk Klaba, qui est un peu notre Géo Trouvetou, a mis au point ce système qui fonctionne comme un radiateur de voiture : l'eau passe en circuit fermé au plus près des composants et maintient leur température. »


Avant-après : la première tôle ér

Avant-après : la première tôle érigée là où autrefois était fondu l'aluminium. © David Giral pour Télérama.


Redescendant de la salle des serveurs, on s'arrête au milieu de l'un des quatre immenses halls de l'ancienne aluminerie. A côté de la première tour, une deuxième sera bientôt terminée. Si tout va bien, d'ici à quelques années, il y en ­aura trente-six. Qui alors se rappellera qu'étaient auparavant ­alignées là les cuves d'où l'on sortait l'aluminium en fusion ? Denis Viau, lui, pourra dire qu'il s'en souvient. Car il a toujours travaillé là : entré à l'âge de 21 ans chez Alcan, en 1975, comme électricien, il est superviseur technique chez OVH. Les énormes transformateurs posés à l'extérieur, c'est son rayon.

« En fait, je ne suis pas trop dépaysé, dit-il avec son accent rocailleux. L'aluminium était fabriqué vingt-quatre heures sur vingt-quatre, on ne pouvait pas arrêter les cuves. Aujourd'hui non plus, on ne peut pas arrêter les serveurs. » De fait, un serveur qui s'arrête, c'est un client pas content. Des salles de contrôle permettent de s'assurer en permanence que tout fonctionne. Sur un mur bardé d'écrans, les techniciens gardent un œil sur la partie électrique, le système de refroidissement, les allées et venues du personnel, et évidemment le réseau Internet.

Car, là encore, le service doit être impeccable : un internaute qui interroge une base de données doit pouvoir obtenir sa connexion instantanément. « On est à 8 ou 9 millisecondes de New York, souligne Germain Masse. C'est aussi pour cela que l'on est venu ici : on est tout près des Etats-Unis. » Pour garantir ce temps de réponse et ne pas dépendre de fournisseurs tiers, OVH est allé jusqu'à déployer son propre réseau de fibres optiques chez le voisin américain, une grande boucle passant par New York, Miami, Los Angeles et Palo Alto, au cœur de la Silicon Valley. Et puis, on ne sait jamais : en ces temps où l'on « découvre » que le gouvernement de Washington met en place des systèmes de surveillance généralisée, il est toujours plus sûr de garder le contrôle de ses infrastructures. Ça peut permettre d'éviter de laisser échapper ses données…


Des géants énergivores

Selon un rapport conduit en 2010 par Jonathan G. Koomey, un universitaire de Stanford, entre 1,1 et 1,5 % de l’électricité consommée dans le monde l’était par des data centers. Pour les seuls Etats-Unis, le chiffre était situé entre 1,7 et 2,2 %. Toujours selon la même étude, cette consommation électrique aurait progressé de 56 % entre 2005 et 2010.
Derrière ce chiffre se cache tout de même une (presque) bonne nouvelle : on s’attendait plutôt à ce que la consommation électrique double pendant cette période. C’est qu’entre-temps, on a commencé à s’en préoccuper et à construire des data centers aux dépenses énergétiques plus efficaces. Et tous les grands de l’Internet, à commencer par Google, communiquent désormais sur l’utilisation d’énergie renouvelable.

Open Data : RATP


Repris de OpenData : la RATP ouvre une nouvelle ligne de données

Sommaire : Début 2011 la réflexion internet allait bon train pour actualiser la stratégie internet de la RATP avec au menu l'exploration du potentiel de l'opendata. Le 31 octobre 2012 un portail opendata est ouvert data.ratp.fr, que de chemin parcouru.
Début 2011 la réflexion allait bon train à la RATP pour actualiser la stratégie internet, avec au menu l'exploration du potentiel de l'opendata et une recommandation d'ouvrir quelques données. Une recommandation qui demandait encore de convaincre en interne, par exemple de montrer que cela ne posait aucun problème de sécurité si ces données arrivent dans des mains mal intentionnées.
Quand soudainement à l'Eté 2011 l'actualité s'est invitée dans le débat avec l'initiative d'une jeune pousse, CheckMyMetro. Cette jeune impertinente sors une application iPhone s'appuyant sur la liste des stations pour offrir un service d'informations géolocalisées entre utilisateurs depuis leur smartphone. Un service gratuit pour leur permettre de signaler la présence dans une station d'incidents sur la ligne, de pickpockets et surtout pour les premiers utilisateurs de l'application, de... contrôleurs.
Ce qui n'était pas pour plaire à tout le monde à la RATP, surtout ceux qui n'étaient pas convaincus par l'opendata. S'en est suivi une partie de bras de fer entre la RATP et une communauté formée autour de CheckMyMetro, dont l'enjeu s'est vite centré sur l'ouverture de la carte du métro propriété de la RATP (voir : Peut-on resister à l'opendata, le cas de la RATP)
Cette première aventure s'est finalement avérée comme un formidable accélérateur interne pour aborder l'opendata. C'est-à-dire construire une démarche en coordination avec unécosystème, avec l'objectif de développer de nouveaux services pour les usagers.
Après cette crise, la station suivante sur la ligne de l'ouverture fut la découverte de cette communauté de développeurs pour comprendre les données et les formats qu'ils cherchent pour réaliser des applications mobiles. Ce fut via l'organisation d'un "barcamp" fin 2011, c'est-à-dire une rencontre qui prend la forme d'ateliers participatifs où le contenu est fourni par les participants qui doivent tous, à un titre ou à un autre, apporter quelque chose :
  • Le thème: la cartographie des transports en commun
  • Les participants: la communauté Open Street Map, très active pour l'ouverture des données géographiques
  • Le lieu : La cantine, pour être sur un terrain porteur d'idées en germes.. et oublier le terrain juridique ;-)
Le barcamp fut fertile et une liste de données à ouvrir a été coproduite. Les premières données ne posant pas de problème furent rapidement ouvertes sur le portail de l'Etat (data.gouv) et mises en ligne sur ratp.fr quand la licence d'ouverture n'était pas compatible avec celle de data.gouv.
Aujourd'hui RATP passe à la station suivante sur la ligne de l'ouverture de ses données et ouvre son propre portail data.ratp.fr
A la clef de nouvelles données, notamment un important jeu de données de tous les arrêts de bus géolocalisés. Sur le plan technique, pour aller vite, c'est la même plateforme opensource que celle de Rennes ou Nantes qui a été utilisée. Pour l'instant on est encore dans de la donnée fixe, échangée par fichiers, mais les équipes travaillent déjà sur les premières API qui seront ouvertes, notamment pour la mise à jour de données ou la diffusion de données au fur et à mesure de leur production.
Les échanges avec les premiers qui ont abordé l'opendata, montrent les réticences des états majors  sur l'ouverture des données (même dans le secteur public) quand les enjeux ne sont pas mis en avant pour les compenser :
  • les données ont de la valeur... même si on ne l'exploite pas
  • des données ça se protège et ça se défend
  • on est les seuls a pouvoir le faire, car nous savons prendre les bonnes précautions pour diffuser ces informations
  • on risque de voir qu'elles ne sont pas toutes bonnes...
En interne cet exercice a donc demandé la mobilisation d'un comité pilotage transverse de l'opendata composé de la Direction de la Communication, du Département Commercial et bien sûr de la Direction Générale. C'est un véritable changement d'esprit interne qui s'est produit et une nouvelle perception des enjeux de l'ouverture et de la force de "l'open innovation" déjà abordée dans plusieurs billets de GreenSI. Oui ouvrir n'est pas simple, mais ne pas ouvrir (quand on peut résister) est aussi une perte d'opportunités non accessibles.
C'est maintenant l'occasion de préparer des applications s'appuyant sur ces données, ou des données à ouvrir, qui vont enrichir les services en ligne de la RATP et surtout les services mobiles. La pénétration des smartphones en France fait que les utilisateurs du réseau de Bus ont accès à internet avant et pendant leur trajet. Mais avec l'arrivée de l'ouverture de l'internet dans le métro et le RER, ces applications de mobilité prendront encore plus d'importance sur l'ensemble des usagers.
Et en plus des services proposés par la RATP, c'est surtout l'incitation de l’écosystème à développer des applications que la RATP n'aurait pas faites elle même qui va jouer. Pour cela des concours d'applications seront lancés prochainement.
C'est au final un retour d'expérience très intéressant que nous offre la RATP, avec en 18 mois beaucoup de chemin qui a été parcouru et le plus important bien sûr la perception interne que l'ouverture était vraiment une carte à jouer.

A propos de 

Passionné de technologies et d'innovation, Frédéric Charles est responsable de la stratégie et de la gouvernance du SI dans un grand groupe. Il analyse la transformation des systèmes d'information qui préfigure l'entreprise et la ville numérique de demain.

lundi 15 juillet 2013

Données de santé : Quoi ? Pour quoi ? Pour qui ? Comment ?

La Gazette publie en exclusivité un article de Norbert Paquel, consultant, et spécialiste de l'économie du secteur sanitaire et social et de l'utilisation des TIC dans le domaine, et de Denis Berthault, co-animateur du groupe de travail « Données publiques » du Groupement français de l'industrie de l'information. Les deux auteurs dressent un panorama complet, pédagogique et technique des enjeux de l'open data appliqué aux données de santé.

La rencontre entre les affaires du Mediator et des pilules de 3e génération Diane 35 d’une part et le mouvement d’ouverture des données publiques d’autre part a produit un débat aussi étrange qu’opportun. Il a mis au premier plan un domaine essentiel pour la société mais encore souvent opaque aux citoyens, celui de l’information produite par le système de santé et de protection sociale, de sa qualité, de sa gestion et de son utilisation.
Etrange situation, où la santé est de plus en plus importante dans les préoccupations de la société et donc dans les médias et où pourtant les circuits d’information qui sont indispensables tant à la santé publique qu’à la recherche sont peu connus et peu questionnés en dehors de cercles finalement restreints.
Etrange débat aussi car on questionne plus l’ouverture des données que, simplement et pour commencer, leur nature et leur gestion. Pourtant, les problèmes de fond commencent inévitablement de se révéler. 
Comme dans tous les domaines, ce sont bien les données et non les systèmes d’information des uns et des autres qui, de plus en plus massives, sont les enjeux et le moyen des politiques d’information.
L’article de Jean de Kervasdoué et Didier Sicard dans le Monde du 16 janvier et la réponse de Marcel Goldberg le 31 janvier ont rendu public un débat qui va inévitablement mettre en lumière, en amont de la question des données de tel ou tel, les objectifs, l’organisation et les responsabilités politiques et sociales au sein du vaste système socio-sanitaire français. 
Il va conduire les citoyens à s’interroger sur ce système, une des armatures essentielles de notre vivre ensemble, alors que beaucoup confondent encore, par exemple, assurance maladie et puissance publique.
C’est une avancée importante pour la démocratie. Une Initiative Transparence Santé s’est créée et a lancé une pétition “Libérez les données de santé“, signée notamment par l’UFC-Que choisir, 60 millions de consommateurs ainsi que par Etienne Caniard, président de la Mutualité et par le Collectif Interassociatif sur la Santé, représentant les associations de patients. 
La pétition souligne le retard de la France en matière d’ouverture des données car dans d’autres pays, notamment anglo-saxons, “l’open data” a largement gagné le secteur.
Etats généraux des données de santé - Constatant la montée des demandes, le Premier ministre a mandaté Etalab et le Secrétariat général pour la modernisation de l’action publique (SGMAP) afin d’organiser rapidement une grande concertation citoyenne sur l’Open data en santé. 
Ces états généraux des données de santé seront organisés avec le ministère des affaires sociales et de la santé, en partenariat avec l’Institut des données de santé (IDS – cf. infra). De son côté, Marisol Touraine a demandé des rapports à Pierre-Louis Bras, Inspecteur général des affaires sociales ainsi qu’à un membre du Conseil d’Etat.
Jusqu’ici, le secteur de la santé avait fait l’objet d’un consensus inexprimé et reposant sur des incompréhensions mutuelles. Les données y étaient sensibles, personnelles et ne pouvaient en aucune façon relever de politiques de transparence, d’ouverture de données publiques voire de réutilisations. Le mouvement pour l’ouverture des données publiques ne pouvait s’approcher de cette forteresse.
Le problème est que cette vue simpliste se désagrège dès qu’on passe de formulations quelque peu médiatiques et passionnelles à une analyse plus sereine d’un monde extrêmement complexe.
SOMMAIRE

1 Les données de santé et leur mise à disposition : un état des lieux et des tensions 

1.1 Donnée de santé ?

La donnée de santé n’est définie dans aucun texte et il faut admettre qu’elle est un peu plus difficile à cerner que “donnée sur les comptes bancaires”. Les “données de santé” apparaissent au grand jour précisément (et ce n’est pas un hasard) au moment où la notion même de santé s’élargit pour englober de nombreux éléments de bien-être, de comportement, de situations sociales (santé au sens de l’OMS” depuis 1946 : “La santé est un état de complet bien-être physique, mental et social, et ne consiste pas seulement en une absence de maladie ou d’infirmité.”).
En premier lieu – un peu comme pour la culture -, les données de santé sont principalement définies en fonction de l’organisme ou du professionnel qui les a produites – eux-mêmes cernés précisément par le Code de la santé publique. C’est toujours au Code qu’il faut revenir dans toute analyse des données.
Ensuite, de nombreuses catégories de données relatives à la santé doivent être distinguées :
  • Données personnelles sur les citoyens / patients. Même si des moyens techniques spécifiques sont utilisés (hébergeurs agréés pour les données partagées, numéro d’identification spécifique, carte de professionnel de santé, etc.), les données relèvent du droit commun pour la protection des données individuelles et sont donc sous le contrôle de la CNIL. 
    Les techniques sont de la responsabilité principalement de l’Agence des systèmes d’information partagée de santé – ASIP Santé –, de la Caisse nationale d’assurance maladie des travailleurs salariés et du GIE SESAM-Vitale.
  • Données agrégées, statistiques épidémiologiques etc. qui résultent toujours de traitements de données individuelles collectées pour la gestion ou pour des enquêtes et études spéciales.
  • Données sur l’offre – caractéristiques et activité des hôpitaux, tarifs de professionnels etc. Celles-ci approchent une autre problématique, fréquente pour les données publiques : la protection de l’information sur l’entreprise.
Les données diffèrent aussi selon leur nature et, en fait, leur producteur – d’autant que chaque acteur les développe pour ses propres objectifs du moment, ce qui, comme on le verra, est de plus en plus handicapant.
La distinction la plus importante réside entre la santé et son financement, c’est-à-dire entre le système de soins (établissements publics et privés, professionnels de santé) et le système de l’assurance maladie (obligatoire et complémentaire).
Tensions entre acteurs institutionnels du système de santé -Cette distinction est bien plus importante que le débat actuel ne l’indique. En effet l’assurance maladie, y compris l’acteur central qu’est la CNAMTS (1), jouit d’une forte indépendance par rapport au ministère de la Santé, avec qui des tensions ont existé depuis sa création. 
La CNAMTS est en pratique un organisme réunissant les partenaires sociaux et dialoguant avec l’Etat. Or, c’est à propos des données qu’elle gère que le débat actuel s’est ouvert (cf. infra).
La sous-estimation de cette coupure est à l’origine du débat actuel. Pour s’en convaincre, il suffit de l’illustrer d’un exemple emblématique. Ainsi, lorsque la DREES, qui fait office de service d’étude des ministères sociaux, présente à la CNAMTS une demande d’accès à la grande base SNIIRAM (cf. infra), cette demande, alors que la DRESS figure sur une liste restrictive des entités autorisées à demander un tel accès, doit attendre jusqu’à plusieurs mois une décision du Conseil national de l’information statistique pour être agréée.
Par ailleurs, le caractère ambigu de l’appellation “donnée de santé” apparaît ici. En effet, un certain consensus existe entre spécialistes et responsables pour différencier les données d’assurance maladie et les données provenant du système de soins (même si les deux ensembles proviennent tous deux des producteurs de soins, qu’il s’agisse par exemple d’une analyse médicale ou de la feuille de soins correspondante).
Les acteurs s’entendent en général pour ne pas reconnaître aux données d’assurance maladie un statut de vraie donnée de santé. En effet, la feuille de soins et les autres documents liés au remboursement ne donnent que des informations sur les traitements, les consommations de médicament ou les appareillages mais pas le diagnostic correspondant ou les résultats, par exemple d’une analyse.
Chacun s’étonnera qu’une information sur des remboursements de médicaments coûteux, de traitement dans un centre anti-cancéreux ou d’implantation d’un pacemaker ne soient pas considérée comme une information de santé au sens strict, mais cette distinction opportune justifie des responsabilités et des réglementations différentes.
D’autres distinctions doivent être faites, qui portent sur l’origine des données et sur l’objectif de leur collecte. Il y a essentiellement trois types de sources de ce point de vue :
  • Données recueillies en vue de la gestion et du financement (en général dans des bases exhaustives)
  • Données recueillies pour le soin (les dossiers médicaux des établissements et des professionnels, jusqu’au Dossier médical personnel (DMP)
  • Données recueillies par enquête pour la santé publique, la veille sanitaire, la recherche épidémiologique.

1.2 Un monde complexe et compliqué, divers et fermé, protégeant des données fragmentées

La gestion compliquée des données de santé reflète la complexité – et aussi une certaine complication – du monde de la santé en France. Il n’est pas possible d’en donner ici plus qu’un aperçu : établissements de statuts divers, Caisses d’assurance maladie obligatoire (Régime général et Régimes particuliers) et organismes de protection complémentaire (mutuelles, Institutions de prévoyance, assurances privées) sont placés sous une tutelle complexe de l’Etat (selon les époques en fonction du regroupement ou non de la Santé avec la Protection sociale) et surtout se trouvent face à une grande diversité d’organismes en charge de collecter, traiter ou contrôler les données.
La CNAMTS et les autres Régimes (agricoles, indépendants, spéciaux) concentrent les feuilles de soins et l’information est maintenant associée aux données à vocation médico-économique venant des hôpitaux (PMSI – Programme de médicalisation du système d’information) au sein du Système national d’information interrégimes de l’assurance maladie, le SNIIRAM (le corps du délit pour ceux qui veulent plus d’ouverture) (2). Pour le transport des feuilles de soins, le GIE SESAM-Vitale assure les fonctions techniques dont le chiffrement.
Créé par la loi du 13 août 2004, l’Institut des données de santé (IDS) “a pour mission d’assurer la cohérence et de veiller à la qualité des systèmes d’information utilisés pour la gestion du risque maladie et de veiller à la mise à disposition de ses membres, de la Haute autorité de santé, des unions régionales des médecins exerçant à titre libéral ainsi que d’organismes désignés par décret en Conseil d’État, à des fins de gestion du risque maladie ou pour des préoccupations de santé publique, des données issues des systèmes d’information de ses membres, dans des conditions garantissant l’anonymat fixées par décret en Conseil d’Etat pris après avis de la Commission nationale de l’informatique et des libertés.”
L’IDS a été au départ créé pour permettre un accès contrôlé des assureurs maladie complémentaires aux données du SNIIRAM. Les membres sont les acteurs de l’assurance maladie obligatoire et complémentaire, les groupements professionnels de la santé et les associations de patients, auxquels s’ajoutent, dans une liste limitative d’invités, des agences publiques (HAS) ou la Direction des études du ministère de la Santé (DREES)…
D’autres organismes jouent un rôle important ; les plus notables sont :
  • l’Agence technique de l’information hospitalière (ATIH),
  • la Haute Autorité de santé (HAS),
  • l’Institut national de veille sanitaire (INVS),
  • la Direction de la recherche, des études, de l’évaluation et des statistiques (DREES) du ministère des affaires sociales et de la santé,
  • l’Institut national de prévention et d’éducation pour la santé (INPES),
  • l’Institut de recherche et de documentation en économie de la santé (IRDES),
  • l’Agence nationale du médicament et des produits de santé (ANSM).
Il y a aussi les équipes de recherche, unités ou non de l’Institut national de la santé et de la recherche médicale (INSERM), parfois en charge de la gestion de données à valeur nationale (ainsi, les Registres spécifiques d’affections comme le cancer, exhaustifs sur un territoire donné).
Enfin, l’ASIP Santé joue un rôle essentiel du point de vue des données puisqu’elle publie un Cadre commun d’interopérabilité pour les seules données de santé au sens strict (information médicale, dossiers etc.).
C’est d’abord entre tous ces acteurs que le débat se noue, et ce depuis longtemps, sur les accès aux données et sur leur partage – et l’exemple de la DREES ou, similaire, de l’ANSM montre que c’est toujours un parcours difficile.
Les équipes de recherche épidémiologique se plaignent de délais très longs pour obtenir l’autorisation d’accès à l’échantillon réduit (au 1/100e) du SNIIRAM. La fragmentation n’est pas seulement administrative : les données sont collectées pour des objectifs étrangers à ceux de nombreux utilisateurs, les normes sur les métadonnées et sur les données sont pratiquement inconnues.
Un domaine fermé - Au-delà des difficultés organisationnelles et techniques, les acteurs de la santé, au sens large, partagent pour la plupart une commune volonté d’en faire un domaine fermé. 
Même des bases scientifiques sont réservées aux professionnels – au titre du fait que les patients pourraient mal interpréter, par exemple, des recommandations pour les parcours de soins. Heureusement ou malheureusement, les bases québécoises sont là…
Autre exemple : le Vidal est réservé aux professionnels (grâce à une étonnante astuce).
Cette efficacité dans la défense d’un vaste territoire ne concerne pas que les bases d’informations individuelles. Elle s’est ainsi vue dans la longue résistance à l’ouverture des statistiques hospitalières, ou encore dans le refus opposé par la CNAMTS à FourmiSanté qui veut réutiliser la base relative aux tarifs des professionnels, pourtant publiés sur le site Ameli. Encore aujourd’hui, l’accès aux marchés publics hospitaliers reste difficile.
Cependant, il ne faudrait pas voir seulement dans la situation actuelle le résultat d’une incurie et de rivalités. Si les craintes des uns et des autres freinent, comme ailleurs, le partage, il ne faut pas négliger la complexité sous-jacente et des risques très réels.

1.3 Une vision médiatique partielle : ne pas se tromper de problèmes

Il est étrange que des problèmes de prescriptions inadaptées (Mediator, Diane35) aient abouti à se demander pourquoi les données de l’assurance maladie – car il s’agit d’elles seules dans ce cas – n’étaient pas ouvertes, afin que chercheurs, responsables de la santé publique, mais aussi associations, entreprises anciennes ou start-ups, puissent détecter un écart étonnant entre indications et prescriptions.
La première réaction dans ce pays serait-elle désormais que la puissance publique, dont une mission régalienne et de veiller à la santé des citoyens et de contrôler l’usage des médicaments, en serait devenue incapable ? Cela révèle ou révèlerait, en France, une évolution profonde et un peu inquiétante des mentalités.
En effet, même sur la lourde base qu’est le SNIIRAM, il n’est pas très difficile de détecter des prescriptions d’un médicament manifestement supérieures à ce que l’on sait de la prévalence dans la population des affections pour lesquels il est autorisé et recommandé.
Accès et gouvernance - Or, c’est bien de cela qu’il s’agit : de nombreuses protestations se sont fait jour pour pointer les difficultés d’accès, sans lesquelles ces écarts eussent été rapidement repérés. Pourtant, veiller à la santé publique est une fonction centrale d’un système d’information de santé national et public.
Déjà en 1980, une mission demandée par le ministre (Jacques Barrot) avait conclu à une faiblesse relative du système français de veille et d’alerte sanitaire. Avant de parler d’accès à des données, il conviendrait d’abord d’interroger la gouvernance, l’efficacité du système d’alerte et les possibilités et pratiques de coopération des acteurs publics.
Il faut aussi prendre en compte l’étrange bicéphalie d’un système où l’assureur public et la tutelle sont en opposition larvée et parfois publique, ce qui est une spécialité française en Europe (et existe aux Etats-Unis mais entre assureurs privés et pouvoir fédéral, comme l’ont montré les mésaventures de Clinton et d’Obama dans le domaine).
Des demandes notables sont révélatrices de ce point de vue ; ainsi, celle du sénateur Eric Doligé adressée à la ministre : ” Le remède à ces dysfonctionnements existe et est simple à mettre en application. Il suffit de mettre à disposition les outils informatiques nécessaires à l’analyse statistique, permettant de déceler les prescriptions et pratiques médicales non conformes aux stipulations des autorisations de mise sur le marché des spécialités pharmaceutiques…. Leur déploiement et leur généralisation [des outils] au profit des autorités sanitaires, et plus généralement des pouvoirs publics et des instituts de recherche, se heurtent toutefois à l’opposition de deux organismes placés sous son autorité, la Caisse nationale de l’assurance maladie des travailleurs salariés (CNAM-TS) et le GIE Sesam-Vitale, organisme normalisateur des flux de données de délivrances”.
Inversement, les données sur les hôpitaux sont chichement comptées à l’assurance maladie, et il n’est pas vraiment possible de les relier de façon homogène avec les soins de ville. Le rapport d’activité 2011 de l’IDS indique comme fait marquant “l’ouverture du Système National d’Information sur l’Hospitalisation géré par l’Agence Technique de l’Information Hospitalière aux membres de l’IDS, leurs adhérents directs et les membres associés de l’Institut.
Cet accès leur permet de disposer d’indicateurs sur l’activité des établissements de soins publics et privés, en complément des informations disponibles dans le SNIIRAM.” On peut s’étonner qu’on ne l’ait pas fait plus tôt (cf. ci-dessus les membres de l’IDS).
En allant encore plus profondément dans les responsabilités, on peut comprendre, tout en le réprouvant, pourquoi les laboratoires pharmaceutiques poussent à l’élargissement des indications d’un médicament.
En revanche, on ne peut que déplorer que les médecins suivent le mouvement. La faille est ici dans la formation et l’information, mais il faut comprendre que les médecins, en particulier généralistes, ont de moins en moins de temps et sont face à un ensemble de techniques et de produits de plus en plus divers et de plus en plus proliférants. Ils sont aussi face à des patients qui exigent des réponses et des médicaments pour tout problème, même quand en fait il n’y a pas de réponse adaptée.
L’informatique, le contrôle, ne peuvent rien si les professionnels et les citoyens ne sont pas mieux informés et formés et si les comportements n’évoluent pas. Les données n’y pourront en définitive rien. En revanche, la mise en lumière de problèmes graves peut être un choc salutaire.
Le débat actuel peut donc être l’occasion d’une amélioration de fond. Il serait catastrophique qu’il retombe dans de vieilles batailles et en particulier dans celle qui oppose, dans une tension récurrente, étonnante et typiquement française, la tutelle du système et son principal financeur. La “libération des données de santé” ne saurait se ramener à une offensive contre la CNAMTS, laquelle a d’ailleurs, au travers des partenaires sociaux qui la dirigent mais aussi de nombreux utilisateurs, de sérieux moyens de défense.

1.4 Pour quoi et pour qui ? D’un besoin urgent à un vaste potentiel

L’évolution actuelle du système de santé et de la conception même de la santé rendent l’ouverture de ce chantier particulièrement urgente. En effet, les frontières entre la santé, le médico-social et l’action sociale s’effondrent en raison de la prédominance croissante des maladies chroniques, du vieillissement, des soins et de la surveillance au domicile et en mobilité.
Des acteurs nouveaux sont concernés : collectivités territoriales en charge de l’APA ou finançant des maisons médicales et des EHPAD, associations de services à la personne à son domicile etc. Elles créent, gèrent, appliquent des procédures liées à l’état de santé et elles collectent des données personnelles.
Partout se pose donc la relation entre le “care” et le “cure”, que certains pays (l’Ecosse par exemple) commencent à fusionner. Il suffit de se reporter au rapport du Haut conseil pour l’avenir de l’assurance maladie sur la relation entre santé et dépendance pour comprendre que l’échange de données permettant de piloter le système sanitaire mais aussi le secteur médico-social et le secteur de l’action sociale est de plus en plus urgent.
Dans cette perspective, il faudra permettre l’accès à des données anonymisées, agrégées ou non, à des acteurs publics ou en charge de missions de service public mais aussi à des acteurs privés comme les grandes fédérations d’aide au domicile ou les sociétés privées du secteur. 
On sera au demeurant encore loin d’une banalisation des données de santé par rapport aux règles générales de l’open data, l’ouverture se faisant vers des acteurs publics ou contrôlés par une autorité publique. Comme pour la pharmacie, le problème des sociétés de l’information travaillant en direction de ces acteurs restera longtemps posé.
En 2013, le principe général est celui de la liste limitative et en tout cas de l’exclusion de tout acteur à but lucratif. “Aujourd’hui, seuls les organismes poursuivant un but non lucratif peuvent utiliser les données partagées au sein de l’IDS pour réaliser des études et des recherches en santé publique. 
La réflexion se poursuit concernant l’utilisation des données de santé par les organismes poursuivant un but lucratif réalisant des études et des recherches en santé publique à la demande notamment des pouvoirs publics.” (IDS – Rapport 2011)
Pourtant, des acteurs privés se sont invités dans le débat, comme Celtipharm, qui indique que ses outils lui auraient permis de repérer les écarts aberrants dans les prescriptions. 
Pourtant aussi, des acteurs comme Cegedim (leader français dans les services d’information vers l’industrie pharmaceutique) récupèrent des prescriptions transmises directement par un échantillon de médecins, avec l’autorisation de la CNIL – alors que pour l’instant les prescriptions dématérialisées ne circulent toujours pas au sein du système général.
Il est certain que les gisements de données de santé, même dans leur état actuel, permettraient de nombreux services et applications vers les entreprises de la santé comme vers les associations de citoyens et de patients et vers les patients eux-mêmes, au-delà de fonctions que de toutes façons la puissance publique doit assurer.

2 Vraies difficultés, vrais risques, vrais efforts, vraies fausses routes ? 

2.1 Un domaine particulier, une exigence forte et des difficultés de fond

Tant par son objet que par son enracinement dans la culture d’une société et par son impact économique et social, le secteur de la santé justifie partout une attention particulière en ce qui concerne la sécurité, la confidentialité des données, les risques présentées par des informations biaisées ou déformées.
C’est d’ailleurs pourquoi les deux règlements européens en préparation en 2013 sur la protection des données et sur l’identité et la confiance, conçus pour développer le marché intérieur, prévoient des mesures particulières à déterminer pour ce qui concerne la santé. En même temps, c’est précisément l’importance du domaine qui conduit à exiger une utilisation efficace des énormes masses de données qui y sont produites.
Le premier problème, pour des réutilisateurs – il y en a déjà beaucoup, dans les services publics et la recherche – est que les ensembles les plus importants sont des bases énormes (actuelles ou potentielles) constituées pour la gestion, voire demain pour le soin (dossier national ou ensemble de dossiers régionaux).
Comme le souligne le Professeur Daniel Goldberg, la mise en forme pour permettre des études et d’autres réutilisations est très coûteuse. Passer à de nouvelles versions pour que ces bases soient utilisables pour d’autres objectifs serait (sera ?) très difficile et coûteux.
Un autre problème se pose d’ores et déjà : le besoin d’informations et de traitements augmente en même temps que les ressources des organismes en charge de la veille sanitaire, du contrôle, de la recherche rencontrent des difficultés pour financer leurs travaux et leurs enquêtes propres et sont confrontés à des baisses d’effectifs.
Ce problème est lui aussi sous-jacent aux débats en cours. Dans un tel environnement, les possibilités de réutilisation par des acteurs à but lucratif ou de partenariat avec eux ainsi que les questions de tarification seront mises sur la table.

2.2 Le SNIIRAM : une base énorme et des efforts incontestables

L’objet du débat et, pour certains, du délit, est le SNIIRAM, alimenté par les informations générées par la prise en charge de la totalité des consommations de soins et des hospitalisations en France (mais avec des contenus différents pour celles-ci). La masse principale est apportée par 1,2 milliards de feuilles de soins chaque année, la volumétrie actuelle étant de 450 téraoctets. C’est sans doute la plus grande base au monde dans le domaine de la santé.
Des efforts importants ont été consentis sans conteste par la CNAMTS pour en faciliter l’utilisation depuis le démarrage en 2001. Constituée de données collectées pour la gestion et de référentiels, la base est exclusivement destinée aux études.
Les efforts ont en particulier porté sur le circuit de collecte, qui suppose obligatoirement une anonymisation et un chiffrement pour le transport. Pour l’anonymisation, un algorithme (FOIN Fonction d’Occultation des Identifiants Nominatifs) permet de conserver une possibilité de chaînage (essentielle en santé) en transformant le NIR (“le n° de Sécurité sociale”) en un autre identifiant sans possibilité de retour.
Par ailleurs, la CNAMTS met à disposition pour les chercheurs et les organismes publics en charge de la santé publique un échantillon de bénéficiaires au 1/100e, et des “datamart” pour les données agrégées.

2.3 Des critères d’accessibilité obsolètes

Toutes les informations dans le secteur sont accompagnées de listes restrictives d’organismes pouvant accéder aux données, avec des conditions précises. Comme le disent Jean de Kervasdoué et Didier Sicard, “on restreint l’accès aux données publiques de santé même une fois qu’elles sont totalement anonymisées, et c’est cela qui doit changer ! Il n’est pas normal que seulement les “bien-pensants” et les “bien-sachants” triés par les organismes sociaux détenteurs de ces informations aient droit d’accéder aux données publiques de santé.”.
En fait, l’exclusion des organismes à but lucratif est une contrainte floue puisque, par exemple, les groupements d’organismes d’assurance complémentaire comprennent des assureurs privés.
On a vu que l’IDS étudie d’ailleurs la possibilité de laisser accéder des sociétés d’étude mandatées par ses membres. L’exclusion vise en fait essentiellement l’industrie pharmaceutique et les sociétés travaillant pour elle, ce qui d’ailleurs conforte l’exclusivité de ces sociétés, qui ont constitué avec l’autorisation de la CNIL leurs propres panels.
Le domaine de la santé apparaît donc comme un monde où tout le monde se méfie de tout le monde, même dans un cercle restreint. Il faut croire que l’Etat craint le contrôle de l’assureur (y compris la CNAMTS), lequel ne doit pas tout connaître du patient et du diagnostic, tandis que l’assureur se méfie d’un Etat pouvant en permanence céder au totalitarisme.
L’exclusion des sociétés à but lucratif est par ailleurs caractéristique du secteur, où personne n’est censé travailler pour faire du profit (sauf cliniques, assureurs et industrie pharmaceutique, qu’il convient toujours de tenir officiellement à l’écart). Enfin, un consensus large s’est établi : mieux vaut laisser le citoyen en dehors de tout ça, car c’est beaucoup trop compliqué pour lui.

2.4 Les précautions pour l’accès et la réutilisation

En dehors des questions de sécurité, et comme dans tout débat sur l’accès aux données publiques, les perspectives de mésusage, d’incompréhension et la responsabilité des producteurs sont mises en avant pour freiner l’accès et la réutilisation.
Ces craintes ne sont pas toutes vaines : l’interprétation de statistiques par les citoyens suppose un arrière-plan de connaissances, au risque sinon de créer des angoisses, voire des paniques – un hôpital où le service de chirurgie a plus de décès qu’un autre est peut-être celui qui reçoit les cas graves…
Le fait qu’un médicament soit largement utilisé n’est pas forcément une garantie… et peut pousser une personne à le réclamer ou s’en procurer. Mais, en 2013, on ne résout pas les problèmes de ce type par la non information.
D’autres craintes sont liées aux rapports de force et aux négociations dans le secteur, ou au risque de fournir trop d’informations aux laboratoires leur permettant de cibler des médecins non prescripteurs. 
C’est sans doute cette crainte du « mauvais usage » (selon les critères du producteur) qui a poussé la CNAMTS et le GIE SESAM-Vitale à bloquer l’accès de Celtipharm à des données sur la consommation pharmaceutique, malgré une autorisation de la CNIL – en refusant l’accès aux outils de déchiffrage appliqués lors de la transmission à l’assurance-maladie. C’est aussi cette même crainte d’un mauvais usage par le secteur privé qui explique les restrictions pour des bases sur l’offre ou les bases statistiques.
Des réticences s’appuient aussi sur la protection du secret des affaires pour les entreprises et les professions libérales, en ce qui concerne les informations sur l’offre mais aussi les informations issues du SNIIRAM, les feuilles de soin permettant de calculer l’activité et le revenu de la plupart des prestataires.
Cependant, s’agissant de bases de données anonymisées issues de données personnelles, l’essentiel des arguments pour restreindre l’accès repose sur le risque pour la protection de la vie privée.

2.5 Vie privée : la protection par les identifiants spécifiques ?

Un débat dure depuis des années autour du Numéro d’identification au registre, le NIR, que tout le monde appelle N° de Sécu (même si, jusqu’ici, dans les fichiers, le citoyen ne se voit identifié par le sien que s’il est lui-même assuré, alors qu’il a un NIR à sa naissance). 
Porté par la carte Vitale, mais aussi par de nombreux documents administratifs et sociaux, le NIR ne doit légalement pas servir d’identifiant dans des fichiers de santé – ce qu’au demeurant même la plupart des médecins ignorent.
Ainsi, un hôpital devra enregistrer un dossier de prise en charge et de remboursements avec le NIR mais devra pouvoir repérer le dossier médical avec un autre identifiant (3).
Compte tenu du danger présenté par le NIR, trop souvent utilisé par des acteurs hors de la santé et qui plus est signifiant (mois et lieu de naissance), il a été décidé, à l’occasion du projet de Dossier médical personnel, de créer un Identifiant national de santé (INS), d’abord calculé par un algorithme à partir du NIR et d’autres données (INS-C) puis suivi par une version purement aléatoire (INS-A).
Encore une fois, la santé protège les citoyens, ou se protège, en traçant une frontière nette entre données de “santé” et autres. Le malheur est que cette frontière est de plus en plus floue et mouvante, comme cela a été indiqué.
Plusieurs pays, qui avaient fait un choix similaire, en reviennent à un identifiant national ou au moins à un identifiant social, le dernier en date étant la Belgique. Ils pensent qu’un n° spécial gêne surtout les utilisateurs honnêtes et non les gens mal intentionnés, comme on va le voir.
Au demeurant, les efforts pour préserver l’anonymat des données de santé ont été importants et techniquement remarquables puisque, dans le SNIIRAM, le chaînage pour un individu reste possible, ce qui est essentiel en santé.
Il faut cependant relativiser : déjà au niveau de bases locales (notamment hôpitaux), la sécurité est peut-être moins bien assurée, et il n’y a pas anonymisation. Aux Etats-Unis, souvent présentés à tort comme en avance sur la gestion de toute donnée et sur la e-santé, des dizaines de milliers de dossiers médicaux se sont déjà retrouvés sur le Net.
Surtout, il est de plus en plus facile de repérer les éléments clé relatifs à la santé d’une personne dans tout un ensemble d’autres informations. L’anonymisation permet de moins en moins de garantir la protection de la vie privée face à un acteur suffisamment équipé et compétent.
Ainsi, les banques peuvent, et ce depuis plusieurs années, repérer des clients ayant un problème de santé grâce à leurs outils de data mining – ce qu’elles font systématiquement devant une demande de prêt important. Il leur suffit de repérer les remboursements d’assurance maladie, le passage en ALD, les factures vers tel ou tel médecin ou établissement.
La chose est connue mais personne n’y peut rien puisqu’il n’est même pas besoin de créer un fichier. L’apport du Web et des traces qu’on y laisse en permanence termine l’affaire. L’ajout d’un nouvel identifiant risque de compliquer encore la circulation légitime d’information et d’alourdir les coûts.

2.6 Duplication, fragmentation, normes, nomenclatures

En dehors des barrières idéologiques et politiques, l’utilisation et la réutilisation des bases se heurtent à la non coordination des acteurs. Il en découle des bases de données produites en doublon, avec des ressaisies et des erreurs posant la question de leur fiabilité et complexifiant à l’excès les rapprochements.
Déjà les épidémiologistes se sont plaints que la conception du DMP n’incluait pas les besoins de la santé publique et de la recherche alors que la base devrait être à terme une ressource exceptionnelle. Dans cet espace fragmenté, il va de soi que peu de normes existent sur les données et sur les métadonnées. Le chantier est, il est vrai, immense.

3 Construire l’avenir 

3.1 Les enjeux

L’utilisation des données personnelles de la santé et de la vie sociale est un défi national. L’enjeu, reconnu par tous, est énorme tant pour la recherche et la santé publique que pour la gouvernance politique et l’efficience économique d’un système socio-sanitaire essentiel pour notre société et de plus en plus coûteux.
Il est aussi dans le gisement économique que représente l’élargissement de la santé à l’ensemble du mode de vie, à la prévention, à la dépendance. 
Le développement de ce secteur, associant grandes entreprises et start-ups, est déjà une réalité. Il bénéficierait beaucoup de traitements nouveaux de l’information et il est absurde d’opposer les traitements vertueux de la recherche ou d’agences publiques, qu’il faut évidemment faciliter et aider, et ceux que pourraient introduire des acteurs privés qui ont su jusqu’ici traiter des données sans qu’aucun scandale en soit résulté, malgré les alarmes initiales – y compris dans la santé par les sociétés qui collectent des prescriptions.
La qualité et la solidité du système français de santé et de protection sociale sont incontestables – nous nous en félicitons assez. Il est le seul à avoir rassemblé autant de bases d’information de grande qualité, et en particulier le SNIIRAM. C’est un gisement exceptionnel. Il est temps de profiter de l’expertise française en matière de traitement des grands gisements de données (“big data”) et de visualisation des données pour l’exploiter au mieux.

3.2 De la production à la réutilisation : une gouvernance d’ensemble est indispensable

Ce n’est pas seulement la réutilisation des données mais leur production et leur utilisation qui doivent être revues en fonction des nouvelles réalités sociales et bien sûr des techniques et pratiques actuelles. Le domaine des données de santé ne doit plus demeurer un champ clos où débattent leurs gestionnaires et quelques spécialistes mais être visible pour les professionnels et acteurs du système et pour les citoyens dans leur ensemble. Le lancement d’un chantier national par la ministre, avec Etalab et avec l’IDS, est un événement important.
La première urgence, et ce ne sera pas une tâche aisée, sera de mettre en place une coordination des différents systèmes et une gouvernance de l’ensemble du domaine. Elle devra couvrir un champ large, comprenant en particulier ce qu’il est convenu d’appeler le médico-social (handicap, établissements d’hébergement pour personnes âgées dépendantes). 
Elle devra aussi être capable de réguler, des points de vue organisationnel et technique, les passerelles avec les autres domaines, dont celui de l’action sociale.
Deux objectifs sont essentiels :
  • la progression vers une cohérence des données, évitant au passage les doublons et les incompatibilités,
  • la définition des processus d’accès et de réutilisation, avec des règles claires et simplifiées et une réponse rapide aux demandes de réutilisation et aux évolutions.
La définition de cette gouvernance et des principes qui la guideront sera le fait de l’Etat et d’ailleurs sans doute après le passage par une Loi, ou dans une Loi de réforme de la santé et de l’assurance maladie. Il s’agit en effet de modifier un pan de la Loi du 13 août 2004 relative à l’assurance maladie, qui a créé l’IDS.
Un cadre plus général est indispensable. Les états généraux devraient pouvoir formuler des propositions, permettant peut-être d’établir un Schéma national des données de santé (un tel Schéma directeur a été défini en 2010 pour les données sur l’eau).
En tout état de cause, la gouvernance devra s’appuyer à la fois sur une approche globale de la santé et du social et sur une vision large des données publiques et donc sur le Secrétariat général pour la modernisation de l’action publique, qui comprend en particulier la Mission Etalab.
En ce qui concerne le secteur sanitaire et social, plusieurs acteurs clé interviendront sous l’autorité du ministre en charge de la santé et de la sécurité sociale, en concertation avec les organismes de protection sociale dans le cadre d’un Conseil supérieur à définir (4) : Secrétariat général des ministères sociaux, Délégation à la stratégie des systèmes d’information de santé, HAS, ASIP Santé.
Par ailleurs, il faudrait se garder de rajouter une instance sans simplifier le système, déjà lourd et peu réactif – pratique hélas fréquente. 
L’Institut des données de santé, déjà rompu à la discussion avec les différentes parties, peut certainement, une fois profondément remanié pour élargir son champ et ses règles, être le pivot du système.
Cependant, les problèmes posés pour les données sont aussi le reflet des tensions et des divergences d’intérêt. La rationalisation du système de gestion et d’ouverture n’est qu’un élément, secondaire, dans l’évolution du système français de santé et d’assurance maladie qui est en cours. La nouvelle gouvernance devra pouvoir elle aussi évoluer dans ce cadre.
D’entrée, et cela dépasse aussi les accès aux données, un problème clé doit être réglé dans un domaine, celui de l’identité. Réelle difficulté mais aussi parfois prétexte, la gestion de l’identifiant reste à préciser et devra en tout état de cause évoluer, et ce dans le cadre de la Loi.
Aujourd’hui, l’accès à un fichier contenant le NIR exige, comme pour toute donnée personnelle, le passage devant la CNIL pour ce qui concerne l’application en cause, mais à ceci s’ajoute, pour le NIR, une autorisation cadre donnée par le Conseil d’Etat pour l’organisme (y compris administration d’Etat), puis l’avis de l’IDS.
En fait, la protection des données personnelles doit être assurée avec encore plus de vigilance que dans d’autres secteurs mais il faut la replacer tout de même dans un contexte global : l’interpénétration des espaces de données est inévitable et les moyens actuels sur le Web sont notoirement insuffisants. Des recherches sont ici indispensables (le Pr Goldberg recommande un effort dans ce sens), et doivent se replacer dans un effort trans-sectoriel et international.

3.3 Des principes pour la réutilisation

Avant même que le courant de l’ouverture des données n’ait atteint la santé, des propositions de bon sens étaient émises par le Comité d’experts de l’IDS en 2010, certes seulement (mais c’est le domaine de l’Institut) pour “l’utilisation de données de santé à des fins d’études et de recherches en santé publique”.
Ces conseils sont tout à fait valables dans une perspective plus large : “1/ Définir des critères centrés sur la finalité. 2/ Bâtir un modèle économique. 3/ Élaborer une cartographie des bases de données. 4/ Combler les lacunes existantes en matière de bases de données. 5/ Améliorer l’efficience des moyens tout en renforçant la protection des données. 6/ Clarifier et simplifier le champ de compétences des organismes appelés à intervenir. 7/ Mettre en place une « instance de concertation » auprès des pouvoirs publics.(5)
Par ailleurs, les données doivent de toute façon satisfaire auxrecommandations de la DISIC (SGMAP) pour l’urbanisation des SI de l’Etat qui portent sur la maîtrise des données. 
La DISIC recommande de définir “de bonnes pratiques, une doctrine générale sur la gouvernance des données”, portant notamment sur les responsabilités, le cycle de vie, les modélisation, les dictionnaires, l’administration, les métadonnées et la géolocalisation, la gestion des droits d’accès (avec des contrats ne pouvant être remis en cause par l’une des parties), l’auditabilité. 
Elle insiste sur l’importance des données “transverses” ou données de référence, pour lesquelles il faut définir les autorités, créer un dictionnaire, standardiser les services d’accès etc.
La question d’une certification des données et bases de données a été posée. Elle doit être résolue pour les producteurs publics. D’une manière générale, un annuaire des données doit préciser les sources, les caractéristiques des bases et les conditions de réutilisation.
En revanche, il est difficile de vérifier la conformité des données publiées par les réutilisateurs. Comme dans d’autres secteurs, on ne peut dépasser d’une part le respect des licences contractuelles, d’autre part le respect des lois et règlements. Même s’agissant de sites Web, le label “Health on the Net”, largement soutenu en Europe, ne s’est pas avéré très utile.
Quoi qu’il en soit, un premier changement profond sur lequel tous s’accordent, et notamment le Président de la CNAMTS, est qu’il faut cesser de limiter l’accès en fonction du statut du demandeur et ne prendre en compte que les finalités de la demande.
Le moins que l’on puisse dire est que les bases sont posées pour améliorer d’abord les données “de santé” mais aussi leur utilisation et leur réutilisation, mais qu’il y a fort à faire pour se rapprocher de tous ces excellents principes. C’est précisément pourquoi il faut commencer rapidement.

3.4 Un chantier qui est aussi technique

L’expérience de l’industrie de l’information permet d’éclairer les nécessaires démarches pour la mise en place d’une logique, nouvelle pour le monde de la santé. Plusieurs associations dont le Groupement français de l’industrie de l’information (GFII) travaillent à préciser des règles générales sur le traitement des données publiques.
De telles règles distinguent l’accès, l’ouverture simple imposant l’accès à des fichiers manipulables et encadrée par des règles fortes mais générales (par exemple la protection des données personnelles, à laquelle veille la CNIL) et enfin la réutilisation professionnelle, qui impose des contrats précis – en particulier sur le suivi, la qualité des données.
Les exigences portent sur les points techniques clé et rencontrent au demeurant celles qui ont été évoquées ci-dessus :
  • Formats standards et documentés ;
  • Importance de s’accorder sur les référentiels et sur les méta-donnés, ce qui n’est notoirement pas le cas actuellement ;
  • Publication d’un catalogue avec les conditions de réutilisation et des exemples de jeux de données, catalogue qui peut être relié à Etalab mais a une surface bien plus large puisqu’il serait souhaitable que des données ne dépendant pas de l’Etat, voire venant du secteur privé lucratif, puissent y être référencées ;
  • En même temps, une plate-forme commune devra vraisemblablement être mise en place, permettant aux producteurs du domaine de collaborer et servant de support aux référentiels, ou en tout cas de point d’accès unique pour ceux-ci et peut-être à terme pour l’ensemble des données couvertes par les régulations à mettre en place. 
    Il s’agit en particulier de gérer les nombreuses nomenclatures, qui diffèrent et même parfois beaucoup pour un même objet et dont il faudra identifier les usages sauf à parvenir à réduire les écarts – cas des nomenclatures de médicaments, par exemple. Il faut aussi mettre à disposition les dictionnaires de métadonnées – types d’information ou de spécialité, géolocalisation (amusant détail : les découpages géographiques des Caisses et de l’Etat diffèrent légèrement) etc.
Dans ces domaines techniques, l’acteur central en santé est l’ASIP Santé, ce qui suppose sans doute que ses missions soient étendues.
Enfin, il est important de lancer, comme cela a été évoqué ci-dessus, des programmes de recherche en matière de confidentialité et il faut aussi intégrer des travaux sur le traitement et le croisement de grandes bases d’information (“big data”).

Une tâche essentielle

Le monde de la santé et de la protection sociale est en pleine évolution. Son organisation suppose et accompagne une responsabilisation croissante de citoyens bien informés et une coordination efficiente d’acteurs administratifs, économiques et sociaux.
La production, la circulation, l’utilisation de vastes ensembles de données que le système français a commencé de créer est une lourde tâche mais c’est un enjeu national. Les discussions en cours doivent permettre une progression essentielle, rompant avec les blocages du passé tout en préservant, dans ce domaine comme dans tous les autres, le secret des données personnelles.
Note 01:
établissement public national à caractère administratif jouissant d'une personnalité juridique et d'une autonomie financière - Retourner au texte
Note 02:
Le SNIIRAM et les bases de données de l'Assurance maladie(Dominique Polton, Philippe Ricordeau – CNAMTS) , 2011 -Retourner au texte
Note 04:
Un Conseil supérieur des systèmes d'information de santé existe depuis 1997 mais l'objectif de cohérence et d'ouverture des données suppose une redéfinition. - Retourner au texte