La Gazette publie en exclusivité un article de Norbert Paquel, consultant, et spécialiste de l'économie du secteur sanitaire et social et de l'utilisation des TIC dans le domaine, et de Denis Berthault, co-animateur du groupe de travail « Données publiques » du Groupement français de l'industrie de l'information. Les deux auteurs dressent un panorama complet, pédagogique et technique des enjeux de l'open data appliqué aux données de santé.
La rencontre entre les affaires du Mediator et des pilules de 3e génération Diane 35 d’une part et le mouvement d’ouverture des données publiques d’autre part a produit un débat aussi étrange qu’opportun. Il a mis au premier plan un domaine essentiel pour la société mais encore souvent opaque aux citoyens, celui de l’information produite par le système de santé et de protection sociale, de sa qualité, de sa gestion et de son utilisation.
Etrange situation, où la santé est de plus en plus importante dans les préoccupations de la société et donc dans les médias et où pourtant les circuits d’information qui sont indispensables tant à la santé publique qu’à la recherche sont peu connus et peu questionnés en dehors de cercles finalement restreints.
Etrange débat aussi car on questionne plus l’ouverture des données que, simplement et pour commencer, leur nature et leur gestion. Pourtant, les problèmes de fond commencent inévitablement de se révéler.
Comme dans tous les domaines, ce sont bien les données et non les systèmes d’information des uns et des autres qui, de plus en plus massives, sont les enjeux et le moyen des politiques d’information.
Comme dans tous les domaines, ce sont bien les données et non les systèmes d’information des uns et des autres qui, de plus en plus massives, sont les enjeux et le moyen des politiques d’information.
L’article de Jean de Kervasdoué et Didier Sicard dans le Monde du 16 janvier et la réponse de Marcel Goldberg le 31 janvier ont rendu public un débat qui va inévitablement mettre en lumière, en amont de la question des données de tel ou tel, les objectifs, l’organisation et les responsabilités politiques et sociales au sein du vaste système socio-sanitaire français.
Il va conduire les citoyens à s’interroger sur ce système, une des armatures essentielles de notre vivre ensemble, alors que beaucoup confondent encore, par exemple, assurance maladie et puissance publique.
Il va conduire les citoyens à s’interroger sur ce système, une des armatures essentielles de notre vivre ensemble, alors que beaucoup confondent encore, par exemple, assurance maladie et puissance publique.
C’est une avancée importante pour la démocratie. Une Initiative Transparence Santé s’est créée et a lancé une pétition “Libérez les données de santé“, signée notamment par l’UFC-Que choisir, 60 millions de consommateurs ainsi que par Etienne Caniard, président de la Mutualité et par le Collectif Interassociatif sur la Santé, représentant les associations de patients.
La pétition souligne le retard de la France en matière d’ouverture des données car dans d’autres pays, notamment anglo-saxons, “l’open data” a largement gagné le secteur.
La pétition souligne le retard de la France en matière d’ouverture des données car dans d’autres pays, notamment anglo-saxons, “l’open data” a largement gagné le secteur.
Etats généraux des données de santé - Constatant la montée des demandes, le Premier ministre a mandaté Etalab et le Secrétariat général pour la modernisation de l’action publique (SGMAP) afin d’organiser rapidement une grande concertation citoyenne sur l’Open data en santé.
Ces états généraux des données de santé seront organisés avec le ministère des affaires sociales et de la santé, en partenariat avec l’Institut des données de santé (IDS – cf. infra). De son côté, Marisol Touraine a demandé des rapports à Pierre-Louis Bras, Inspecteur général des affaires sociales ainsi qu’à un membre du Conseil d’Etat.
Ces états généraux des données de santé seront organisés avec le ministère des affaires sociales et de la santé, en partenariat avec l’Institut des données de santé (IDS – cf. infra). De son côté, Marisol Touraine a demandé des rapports à Pierre-Louis Bras, Inspecteur général des affaires sociales ainsi qu’à un membre du Conseil d’Etat.
Jusqu’ici, le secteur de la santé avait fait l’objet d’un consensus inexprimé et reposant sur des incompréhensions mutuelles. Les données y étaient sensibles, personnelles et ne pouvaient en aucune façon relever de politiques de transparence, d’ouverture de données publiques voire de réutilisations. Le mouvement pour l’ouverture des données publiques ne pouvait s’approcher de cette forteresse.
Le problème est que cette vue simpliste se désagrège dès qu’on passe de formulations quelque peu médiatiques et passionnelles à une analyse plus sereine d’un monde extrêmement complexe.
SOMMAIRE
- 1 Les données de santé et leur mise à disposition : un état des lieux et des tensions
- 2 Vraies difficultés, vrais risques, vrais efforts, vraies fausses routes ?
- 2.1 Un domaine particulier, une exigence forte et des difficultés de fond
- 2.2 Le SNIIRAM : une base énorme et des efforts incontestables
- 2.3 Des critères d’accessibilité obsolètes
- 2.4 Les précautions pour l’accès et la réutilisation
- 2.5 Vie privée : la protection par les identifiants spécifiques ?
- 2.6 Fragmentation, normes, nomenclatures
- 3 Construire l’avenir
1 Les données de santé et leur mise à disposition : un état des lieux et des tensions
1.1 Donnée de santé ?
La donnée de santé n’est définie dans aucun texte et il faut admettre qu’elle est un peu plus difficile à cerner que “donnée sur les comptes bancaires”. Les “données de santé” apparaissent au grand jour précisément (et ce n’est pas un hasard) au moment où la notion même de santé s’élargit pour englober de nombreux éléments de bien-être, de comportement, de situations sociales (santé au sens de l’OMS” depuis 1946 : “La santé est un état de complet bien-être physique, mental et social, et ne consiste pas seulement en une absence de maladie ou d’infirmité.”).
En premier lieu – un peu comme pour la culture -, les données de santé sont principalement définies en fonction de l’organisme ou du professionnel qui les a produites – eux-mêmes cernés précisément par le Code de la santé publique. C’est toujours au Code qu’il faut revenir dans toute analyse des données.
Ensuite, de nombreuses catégories de données relatives à la santé doivent être distinguées :
- Données personnelles sur les citoyens / patients. Même si des moyens techniques spécifiques sont utilisés (hébergeurs agréés pour les données partagées, numéro d’identification spécifique, carte de professionnel de santé, etc.), les données relèvent du droit commun pour la protection des données individuelles et sont donc sous le contrôle de la CNIL.
Les techniques sont de la responsabilité principalement de l’Agence des systèmes d’information partagée de santé – ASIP Santé –, de la Caisse nationale d’assurance maladie des travailleurs salariés et du GIE SESAM-Vitale. - Données agrégées, statistiques épidémiologiques etc. qui résultent toujours de traitements de données individuelles collectées pour la gestion ou pour des enquêtes et études spéciales.
- Données sur l’offre – caractéristiques et activité des hôpitaux, tarifs de professionnels etc. Celles-ci approchent une autre problématique, fréquente pour les données publiques : la protection de l’information sur l’entreprise.
Les données diffèrent aussi selon leur nature et, en fait, leur producteur – d’autant que chaque acteur les développe pour ses propres objectifs du moment, ce qui, comme on le verra, est de plus en plus handicapant.
La distinction la plus importante réside entre la santé et son financement, c’est-à-dire entre le système de soins (établissements publics et privés, professionnels de santé) et le système de l’assurance maladie (obligatoire et complémentaire).
Tensions entre acteurs institutionnels du système de santé -Cette distinction est bien plus importante que le débat actuel ne l’indique. En effet l’assurance maladie, y compris l’acteur central qu’est la CNAMTS (1), jouit d’une forte indépendance par rapport au ministère de la Santé, avec qui des tensions ont existé depuis sa création.
La CNAMTS est en pratique un organisme réunissant les partenaires sociaux et dialoguant avec l’Etat. Or, c’est à propos des données qu’elle gère que le débat actuel s’est ouvert (cf. infra).
La CNAMTS est en pratique un organisme réunissant les partenaires sociaux et dialoguant avec l’Etat. Or, c’est à propos des données qu’elle gère que le débat actuel s’est ouvert (cf. infra).
La sous-estimation de cette coupure est à l’origine du débat actuel. Pour s’en convaincre, il suffit de l’illustrer d’un exemple emblématique. Ainsi, lorsque la DREES, qui fait office de service d’étude des ministères sociaux, présente à la CNAMTS une demande d’accès à la grande base SNIIRAM (cf. infra), cette demande, alors que la DRESS figure sur une liste restrictive des entités autorisées à demander un tel accès, doit attendre jusqu’à plusieurs mois une décision du Conseil national de l’information statistique pour être agréée.
Par ailleurs, le caractère ambigu de l’appellation “donnée de santé” apparaît ici. En effet, un certain consensus existe entre spécialistes et responsables pour différencier les données d’assurance maladie et les données provenant du système de soins (même si les deux ensembles proviennent tous deux des producteurs de soins, qu’il s’agisse par exemple d’une analyse médicale ou de la feuille de soins correspondante).
Les acteurs s’entendent en général pour ne pas reconnaître aux données d’assurance maladie un statut de vraie donnée de santé. En effet, la feuille de soins et les autres documents liés au remboursement ne donnent que des informations sur les traitements, les consommations de médicament ou les appareillages mais pas le diagnostic correspondant ou les résultats, par exemple d’une analyse.
Chacun s’étonnera qu’une information sur des remboursements de médicaments coûteux, de traitement dans un centre anti-cancéreux ou d’implantation d’un pacemaker ne soient pas considérée comme une information de santé au sens strict, mais cette distinction opportune justifie des responsabilités et des réglementations différentes.
D’autres distinctions doivent être faites, qui portent sur l’origine des données et sur l’objectif de leur collecte. Il y a essentiellement trois types de sources de ce point de vue :
- Données recueillies en vue de la gestion et du financement (en général dans des bases exhaustives)
- Données recueillies pour le soin (les dossiers médicaux des établissements et des professionnels, jusqu’au Dossier médical personnel (DMP)
- Données recueillies par enquête pour la santé publique, la veille sanitaire, la recherche épidémiologique.
1.2 Un monde complexe et compliqué, divers et fermé, protégeant des données fragmentées
La gestion compliquée des données de santé reflète la complexité – et aussi une certaine complication – du monde de la santé en France. Il n’est pas possible d’en donner ici plus qu’un aperçu : établissements de statuts divers, Caisses d’assurance maladie obligatoire (Régime général et Régimes particuliers) et organismes de protection complémentaire (mutuelles, Institutions de prévoyance, assurances privées) sont placés sous une tutelle complexe de l’Etat (selon les époques en fonction du regroupement ou non de la Santé avec la Protection sociale) et surtout se trouvent face à une grande diversité d’organismes en charge de collecter, traiter ou contrôler les données.
La CNAMTS et les autres Régimes (agricoles, indépendants, spéciaux) concentrent les feuilles de soins et l’information est maintenant associée aux données à vocation médico-économique venant des hôpitaux (PMSI – Programme de médicalisation du système d’information) au sein du Système national d’information interrégimes de l’assurance maladie, le SNIIRAM (le corps du délit pour ceux qui veulent plus d’ouverture) (2). Pour le transport des feuilles de soins, le GIE SESAM-Vitale assure les fonctions techniques dont le chiffrement.
Créé par la loi du 13 août 2004, l’Institut des données de santé (IDS) “a pour mission d’assurer la cohérence et de veiller à la qualité des systèmes d’information utilisés pour la gestion du risque maladie et de veiller à la mise à disposition de ses membres, de la Haute autorité de santé, des unions régionales des médecins exerçant à titre libéral ainsi que d’organismes désignés par décret en Conseil d’État, à des fins de gestion du risque maladie ou pour des préoccupations de santé publique, des données issues des systèmes d’information de ses membres, dans des conditions garantissant l’anonymat fixées par décret en Conseil d’Etat pris après avis de la Commission nationale de l’informatique et des libertés.”
L’IDS a été au départ créé pour permettre un accès contrôlé des assureurs maladie complémentaires aux données du SNIIRAM. Les membres sont les acteurs de l’assurance maladie obligatoire et complémentaire, les groupements professionnels de la santé et les associations de patients, auxquels s’ajoutent, dans une liste limitative d’invités, des agences publiques (HAS) ou la Direction des études du ministère de la Santé (DREES)…
D’autres organismes jouent un rôle important ; les plus notables sont :
- l’Agence technique de l’information hospitalière (ATIH),
- la Haute Autorité de santé (HAS),
- l’Institut national de veille sanitaire (INVS),
- la Direction de la recherche, des études, de l’évaluation et des statistiques (DREES) du ministère des affaires sociales et de la santé,
- l’Institut national de prévention et d’éducation pour la santé (INPES),
- l’Institut de recherche et de documentation en économie de la santé (IRDES),
- l’Agence nationale du médicament et des produits de santé (ANSM).
Il y a aussi les équipes de recherche, unités ou non de l’Institut national de la santé et de la recherche médicale (INSERM), parfois en charge de la gestion de données à valeur nationale (ainsi, les Registres spécifiques d’affections comme le cancer, exhaustifs sur un territoire donné).
Enfin, l’ASIP Santé joue un rôle essentiel du point de vue des données puisqu’elle publie un Cadre commun d’interopérabilité pour les seules données de santé au sens strict (information médicale, dossiers etc.).
C’est d’abord entre tous ces acteurs que le débat se noue, et ce depuis longtemps, sur les accès aux données et sur leur partage – et l’exemple de la DREES ou, similaire, de l’ANSM montre que c’est toujours un parcours difficile.
Les équipes de recherche épidémiologique se plaignent de délais très longs pour obtenir l’autorisation d’accès à l’échantillon réduit (au 1/100e) du SNIIRAM. La fragmentation n’est pas seulement administrative : les données sont collectées pour des objectifs étrangers à ceux de nombreux utilisateurs, les normes sur les métadonnées et sur les données sont pratiquement inconnues.
Un domaine fermé - Au-delà des difficultés organisationnelles et techniques, les acteurs de la santé, au sens large, partagent pour la plupart une commune volonté d’en faire un domaine fermé.
Même des bases scientifiques sont réservées aux professionnels – au titre du fait que les patients pourraient mal interpréter, par exemple, des recommandations pour les parcours de soins. Heureusement ou malheureusement, les bases québécoises sont là…
Autre exemple : le Vidal est réservé aux professionnels (grâce à une étonnante astuce).
Même des bases scientifiques sont réservées aux professionnels – au titre du fait que les patients pourraient mal interpréter, par exemple, des recommandations pour les parcours de soins. Heureusement ou malheureusement, les bases québécoises sont là…
Autre exemple : le Vidal est réservé aux professionnels (grâce à une étonnante astuce).
Cette efficacité dans la défense d’un vaste territoire ne concerne pas que les bases d’informations individuelles. Elle s’est ainsi vue dans la longue résistance à l’ouverture des statistiques hospitalières, ou encore dans le refus opposé par la CNAMTS à FourmiSanté qui veut réutiliser la base relative aux tarifs des professionnels, pourtant publiés sur le site Ameli. Encore aujourd’hui, l’accès aux marchés publics hospitaliers reste difficile.
Cependant, il ne faudrait pas voir seulement dans la situation actuelle le résultat d’une incurie et de rivalités. Si les craintes des uns et des autres freinent, comme ailleurs, le partage, il ne faut pas négliger la complexité sous-jacente et des risques très réels.
1.3 Une vision médiatique partielle : ne pas se tromper de problèmes
Il est étrange que des problèmes de prescriptions inadaptées (Mediator, Diane35) aient abouti à se demander pourquoi les données de l’assurance maladie – car il s’agit d’elles seules dans ce cas – n’étaient pas ouvertes, afin que chercheurs, responsables de la santé publique, mais aussi associations, entreprises anciennes ou start-ups, puissent détecter un écart étonnant entre indications et prescriptions.
La première réaction dans ce pays serait-elle désormais que la puissance publique, dont une mission régalienne et de veiller à la santé des citoyens et de contrôler l’usage des médicaments, en serait devenue incapable ? Cela révèle ou révèlerait, en France, une évolution profonde et un peu inquiétante des mentalités.
En effet, même sur la lourde base qu’est le SNIIRAM, il n’est pas très difficile de détecter des prescriptions d’un médicament manifestement supérieures à ce que l’on sait de la prévalence dans la population des affections pour lesquels il est autorisé et recommandé.
Accès et gouvernance - Or, c’est bien de cela qu’il s’agit : de nombreuses protestations se sont fait jour pour pointer les difficultés d’accès, sans lesquelles ces écarts eussent été rapidement repérés. Pourtant, veiller à la santé publique est une fonction centrale d’un système d’information de santé national et public.
Déjà en 1980, une mission demandée par le ministre (Jacques Barrot) avait conclu à une faiblesse relative du système français de veille et d’alerte sanitaire. Avant de parler d’accès à des données, il conviendrait d’abord d’interroger la gouvernance, l’efficacité du système d’alerte et les possibilités et pratiques de coopération des acteurs publics.
Il faut aussi prendre en compte l’étrange bicéphalie d’un système où l’assureur public et la tutelle sont en opposition larvée et parfois publique, ce qui est une spécialité française en Europe (et existe aux Etats-Unis mais entre assureurs privés et pouvoir fédéral, comme l’ont montré les mésaventures de Clinton et d’Obama dans le domaine).
Des demandes notables sont révélatrices de ce point de vue ; ainsi, celle du sénateur Eric Doligé adressée à la ministre : ” Le remède à ces dysfonctionnements existe et est simple à mettre en application. Il suffit de mettre à disposition les outils informatiques nécessaires à l’analyse statistique, permettant de déceler les prescriptions et pratiques médicales non conformes aux stipulations des autorisations de mise sur le marché des spécialités pharmaceutiques…. Leur déploiement et leur généralisation [des outils] au profit des autorités sanitaires, et plus généralement des pouvoirs publics et des instituts de recherche, se heurtent toutefois à l’opposition de deux organismes placés sous son autorité, la Caisse nationale de l’assurance maladie des travailleurs salariés (CNAM-TS) et le GIE Sesam-Vitale, organisme normalisateur des flux de données de délivrances”.
Inversement, les données sur les hôpitaux sont chichement comptées à l’assurance maladie, et il n’est pas vraiment possible de les relier de façon homogène avec les soins de ville. Le rapport d’activité 2011 de l’IDS indique comme fait marquant “l’ouverture du Système National d’Information sur l’Hospitalisation géré par l’Agence Technique de l’Information Hospitalière aux membres de l’IDS, leurs adhérents directs et les membres associés de l’Institut.
Cet accès leur permet de disposer d’indicateurs sur l’activité des établissements de soins publics et privés, en complément des informations disponibles dans le SNIIRAM.” On peut s’étonner qu’on ne l’ait pas fait plus tôt (cf. ci-dessus les membres de l’IDS).
En allant encore plus profondément dans les responsabilités, on peut comprendre, tout en le réprouvant, pourquoi les laboratoires pharmaceutiques poussent à l’élargissement des indications d’un médicament.
En revanche, on ne peut que déplorer que les médecins suivent le mouvement. La faille est ici dans la formation et l’information, mais il faut comprendre que les médecins, en particulier généralistes, ont de moins en moins de temps et sont face à un ensemble de techniques et de produits de plus en plus divers et de plus en plus proliférants. Ils sont aussi face à des patients qui exigent des réponses et des médicaments pour tout problème, même quand en fait il n’y a pas de réponse adaptée.
L’informatique, le contrôle, ne peuvent rien si les professionnels et les citoyens ne sont pas mieux informés et formés et si les comportements n’évoluent pas. Les données n’y pourront en définitive rien. En revanche, la mise en lumière de problèmes graves peut être un choc salutaire.
Le débat actuel peut donc être l’occasion d’une amélioration de fond. Il serait catastrophique qu’il retombe dans de vieilles batailles et en particulier dans celle qui oppose, dans une tension récurrente, étonnante et typiquement française, la tutelle du système et son principal financeur. La “libération des données de santé” ne saurait se ramener à une offensive contre la CNAMTS, laquelle a d’ailleurs, au travers des partenaires sociaux qui la dirigent mais aussi de nombreux utilisateurs, de sérieux moyens de défense.
1.4 Pour quoi et pour qui ? D’un besoin urgent à un vaste potentiel
L’évolution actuelle du système de santé et de la conception même de la santé rendent l’ouverture de ce chantier particulièrement urgente. En effet, les frontières entre la santé, le médico-social et l’action sociale s’effondrent en raison de la prédominance croissante des maladies chroniques, du vieillissement, des soins et de la surveillance au domicile et en mobilité.
Des acteurs nouveaux sont concernés : collectivités territoriales en charge de l’APA ou finançant des maisons médicales et des EHPAD, associations de services à la personne à son domicile etc. Elles créent, gèrent, appliquent des procédures liées à l’état de santé et elles collectent des données personnelles.
Partout se pose donc la relation entre le “care” et le “cure”, que certains pays (l’Ecosse par exemple) commencent à fusionner. Il suffit de se reporter au rapport du Haut conseil pour l’avenir de l’assurance maladie sur la relation entre santé et dépendance pour comprendre que l’échange de données permettant de piloter le système sanitaire mais aussi le secteur médico-social et le secteur de l’action sociale est de plus en plus urgent.
Dans cette perspective, il faudra permettre l’accès à des données anonymisées, agrégées ou non, à des acteurs publics ou en charge de missions de service public mais aussi à des acteurs privés comme les grandes fédérations d’aide au domicile ou les sociétés privées du secteur.
On sera au demeurant encore loin d’une banalisation des données de santé par rapport aux règles générales de l’open data, l’ouverture se faisant vers des acteurs publics ou contrôlés par une autorité publique. Comme pour la pharmacie, le problème des sociétés de l’information travaillant en direction de ces acteurs restera longtemps posé.
On sera au demeurant encore loin d’une banalisation des données de santé par rapport aux règles générales de l’open data, l’ouverture se faisant vers des acteurs publics ou contrôlés par une autorité publique. Comme pour la pharmacie, le problème des sociétés de l’information travaillant en direction de ces acteurs restera longtemps posé.
En 2013, le principe général est celui de la liste limitative et en tout cas de l’exclusion de tout acteur à but lucratif. “Aujourd’hui, seuls les organismes poursuivant un but non lucratif peuvent utiliser les données partagées au sein de l’IDS pour réaliser des études et des recherches en santé publique.
La réflexion se poursuit concernant l’utilisation des données de santé par les organismes poursuivant un but lucratif réalisant des études et des recherches en santé publique à la demande notamment des pouvoirs publics.” (IDS – Rapport 2011)
La réflexion se poursuit concernant l’utilisation des données de santé par les organismes poursuivant un but lucratif réalisant des études et des recherches en santé publique à la demande notamment des pouvoirs publics.” (IDS – Rapport 2011)
Pourtant, des acteurs privés se sont invités dans le débat, comme Celtipharm, qui indique que ses outils lui auraient permis de repérer les écarts aberrants dans les prescriptions.
Pourtant aussi, des acteurs comme Cegedim (leader français dans les services d’information vers l’industrie pharmaceutique) récupèrent des prescriptions transmises directement par un échantillon de médecins, avec l’autorisation de la CNIL – alors que pour l’instant les prescriptions dématérialisées ne circulent toujours pas au sein du système général.
Pourtant aussi, des acteurs comme Cegedim (leader français dans les services d’information vers l’industrie pharmaceutique) récupèrent des prescriptions transmises directement par un échantillon de médecins, avec l’autorisation de la CNIL – alors que pour l’instant les prescriptions dématérialisées ne circulent toujours pas au sein du système général.
Il est certain que les gisements de données de santé, même dans leur état actuel, permettraient de nombreux services et applications vers les entreprises de la santé comme vers les associations de citoyens et de patients et vers les patients eux-mêmes, au-delà de fonctions que de toutes façons la puissance publique doit assurer.
2 Vraies difficultés, vrais risques, vrais efforts, vraies fausses routes ?
2.1 Un domaine particulier, une exigence forte et des difficultés de fond
Tant par son objet que par son enracinement dans la culture d’une société et par son impact économique et social, le secteur de la santé justifie partout une attention particulière en ce qui concerne la sécurité, la confidentialité des données, les risques présentées par des informations biaisées ou déformées.
C’est d’ailleurs pourquoi les deux règlements européens en préparation en 2013 sur la protection des données et sur l’identité et la confiance, conçus pour développer le marché intérieur, prévoient des mesures particulières à déterminer pour ce qui concerne la santé. En même temps, c’est précisément l’importance du domaine qui conduit à exiger une utilisation efficace des énormes masses de données qui y sont produites.
Le premier problème, pour des réutilisateurs – il y en a déjà beaucoup, dans les services publics et la recherche – est que les ensembles les plus importants sont des bases énormes (actuelles ou potentielles) constituées pour la gestion, voire demain pour le soin (dossier national ou ensemble de dossiers régionaux).
Comme le souligne le Professeur Daniel Goldberg, la mise en forme pour permettre des études et d’autres réutilisations est très coûteuse. Passer à de nouvelles versions pour que ces bases soient utilisables pour d’autres objectifs serait (sera ?) très difficile et coûteux.
Un autre problème se pose d’ores et déjà : le besoin d’informations et de traitements augmente en même temps que les ressources des organismes en charge de la veille sanitaire, du contrôle, de la recherche rencontrent des difficultés pour financer leurs travaux et leurs enquêtes propres et sont confrontés à des baisses d’effectifs.
Ce problème est lui aussi sous-jacent aux débats en cours. Dans un tel environnement, les possibilités de réutilisation par des acteurs à but lucratif ou de partenariat avec eux ainsi que les questions de tarification seront mises sur la table.
2.2 Le SNIIRAM : une base énorme et des efforts incontestables
L’objet du débat et, pour certains, du délit, est le SNIIRAM, alimenté par les informations générées par la prise en charge de la totalité des consommations de soins et des hospitalisations en France (mais avec des contenus différents pour celles-ci). La masse principale est apportée par 1,2 milliards de feuilles de soins chaque année, la volumétrie actuelle étant de 450 téraoctets. C’est sans doute la plus grande base au monde dans le domaine de la santé.
Des efforts importants ont été consentis sans conteste par la CNAMTS pour en faciliter l’utilisation depuis le démarrage en 2001. Constituée de données collectées pour la gestion et de référentiels, la base est exclusivement destinée aux études.
Les efforts ont en particulier porté sur le circuit de collecte, qui suppose obligatoirement une anonymisation et un chiffrement pour le transport. Pour l’anonymisation, un algorithme (FOIN Fonction d’Occultation des Identifiants Nominatifs) permet de conserver une possibilité de chaînage (essentielle en santé) en transformant le NIR (“le n° de Sécurité sociale”) en un autre identifiant sans possibilité de retour.
Par ailleurs, la CNAMTS met à disposition pour les chercheurs et les organismes publics en charge de la santé publique un échantillon de bénéficiaires au 1/100e, et des “datamart” pour les données agrégées.
2.3 Des critères d’accessibilité obsolètes
Toutes les informations dans le secteur sont accompagnées de listes restrictives d’organismes pouvant accéder aux données, avec des conditions précises. Comme le disent Jean de Kervasdoué et Didier Sicard, “on restreint l’accès aux données publiques de santé même une fois qu’elles sont totalement anonymisées, et c’est cela qui doit changer ! Il n’est pas normal que seulement les “bien-pensants” et les “bien-sachants” triés par les organismes sociaux détenteurs de ces informations aient droit d’accéder aux données publiques de santé.”.
En fait, l’exclusion des organismes à but lucratif est une contrainte floue puisque, par exemple, les groupements d’organismes d’assurance complémentaire comprennent des assureurs privés.
On a vu que l’IDS étudie d’ailleurs la possibilité de laisser accéder des sociétés d’étude mandatées par ses membres. L’exclusion vise en fait essentiellement l’industrie pharmaceutique et les sociétés travaillant pour elle, ce qui d’ailleurs conforte l’exclusivité de ces sociétés, qui ont constitué avec l’autorisation de la CNIL leurs propres panels.
Le domaine de la santé apparaît donc comme un monde où tout le monde se méfie de tout le monde, même dans un cercle restreint. Il faut croire que l’Etat craint le contrôle de l’assureur (y compris la CNAMTS), lequel ne doit pas tout connaître du patient et du diagnostic, tandis que l’assureur se méfie d’un Etat pouvant en permanence céder au totalitarisme.
L’exclusion des sociétés à but lucratif est par ailleurs caractéristique du secteur, où personne n’est censé travailler pour faire du profit (sauf cliniques, assureurs et industrie pharmaceutique, qu’il convient toujours de tenir officiellement à l’écart). Enfin, un consensus large s’est établi : mieux vaut laisser le citoyen en dehors de tout ça, car c’est beaucoup trop compliqué pour lui.
2.4 Les précautions pour l’accès et la réutilisation
En dehors des questions de sécurité, et comme dans tout débat sur l’accès aux données publiques, les perspectives de mésusage, d’incompréhension et la responsabilité des producteurs sont mises en avant pour freiner l’accès et la réutilisation.
Ces craintes ne sont pas toutes vaines : l’interprétation de statistiques par les citoyens suppose un arrière-plan de connaissances, au risque sinon de créer des angoisses, voire des paniques – un hôpital où le service de chirurgie a plus de décès qu’un autre est peut-être celui qui reçoit les cas graves…
Le fait qu’un médicament soit largement utilisé n’est pas forcément une garantie… et peut pousser une personne à le réclamer ou s’en procurer. Mais, en 2013, on ne résout pas les problèmes de ce type par la non information.
D’autres craintes sont liées aux rapports de force et aux négociations dans le secteur, ou au risque de fournir trop d’informations aux laboratoires leur permettant de cibler des médecins non prescripteurs.
C’est sans doute cette crainte du « mauvais usage » (selon les critères du producteur) qui a poussé la CNAMTS et le GIE SESAM-Vitale à bloquer l’accès de Celtipharm à des données sur la consommation pharmaceutique, malgré une autorisation de la CNIL – en refusant l’accès aux outils de déchiffrage appliqués lors de la transmission à l’assurance-maladie. C’est aussi cette même crainte d’un mauvais usage par le secteur privé qui explique les restrictions pour des bases sur l’offre ou les bases statistiques.
C’est sans doute cette crainte du « mauvais usage » (selon les critères du producteur) qui a poussé la CNAMTS et le GIE SESAM-Vitale à bloquer l’accès de Celtipharm à des données sur la consommation pharmaceutique, malgré une autorisation de la CNIL – en refusant l’accès aux outils de déchiffrage appliqués lors de la transmission à l’assurance-maladie. C’est aussi cette même crainte d’un mauvais usage par le secteur privé qui explique les restrictions pour des bases sur l’offre ou les bases statistiques.
Des réticences s’appuient aussi sur la protection du secret des affaires pour les entreprises et les professions libérales, en ce qui concerne les informations sur l’offre mais aussi les informations issues du SNIIRAM, les feuilles de soin permettant de calculer l’activité et le revenu de la plupart des prestataires.
Cependant, s’agissant de bases de données anonymisées issues de données personnelles, l’essentiel des arguments pour restreindre l’accès repose sur le risque pour la protection de la vie privée.
2.5 Vie privée : la protection par les identifiants spécifiques ?
Un débat dure depuis des années autour du Numéro d’identification au registre, le NIR, que tout le monde appelle N° de Sécu (même si, jusqu’ici, dans les fichiers, le citoyen ne se voit identifié par le sien que s’il est lui-même assuré, alors qu’il a un NIR à sa naissance).
Porté par la carte Vitale, mais aussi par de nombreux documents administratifs et sociaux, le NIR ne doit légalement pas servir d’identifiant dans des fichiers de santé – ce qu’au demeurant même la plupart des médecins ignorent.
Porté par la carte Vitale, mais aussi par de nombreux documents administratifs et sociaux, le NIR ne doit légalement pas servir d’identifiant dans des fichiers de santé – ce qu’au demeurant même la plupart des médecins ignorent.
Ainsi, un hôpital devra enregistrer un dossier de prise en charge et de remboursements avec le NIR mais devra pouvoir repérer le dossier médical avec un autre identifiant (3).
Compte tenu du danger présenté par le NIR, trop souvent utilisé par des acteurs hors de la santé et qui plus est signifiant (mois et lieu de naissance), il a été décidé, à l’occasion du projet de Dossier médical personnel, de créer un Identifiant national de santé (INS), d’abord calculé par un algorithme à partir du NIR et d’autres données (INS-C) puis suivi par une version purement aléatoire (INS-A).
Encore une fois, la santé protège les citoyens, ou se protège, en traçant une frontière nette entre données de “santé” et autres. Le malheur est que cette frontière est de plus en plus floue et mouvante, comme cela a été indiqué.
Plusieurs pays, qui avaient fait un choix similaire, en reviennent à un identifiant national ou au moins à un identifiant social, le dernier en date étant la Belgique. Ils pensent qu’un n° spécial gêne surtout les utilisateurs honnêtes et non les gens mal intentionnés, comme on va le voir.
Au demeurant, les efforts pour préserver l’anonymat des données de santé ont été importants et techniquement remarquables puisque, dans le SNIIRAM, le chaînage pour un individu reste possible, ce qui est essentiel en santé.
Il faut cependant relativiser : déjà au niveau de bases locales (notamment hôpitaux), la sécurité est peut-être moins bien assurée, et il n’y a pas anonymisation. Aux Etats-Unis, souvent présentés à tort comme en avance sur la gestion de toute donnée et sur la e-santé, des dizaines de milliers de dossiers médicaux se sont déjà retrouvés sur le Net.
Surtout, il est de plus en plus facile de repérer les éléments clé relatifs à la santé d’une personne dans tout un ensemble d’autres informations. L’anonymisation permet de moins en moins de garantir la protection de la vie privée face à un acteur suffisamment équipé et compétent.
Ainsi, les banques peuvent, et ce depuis plusieurs années, repérer des clients ayant un problème de santé grâce à leurs outils de data mining – ce qu’elles font systématiquement devant une demande de prêt important. Il leur suffit de repérer les remboursements d’assurance maladie, le passage en ALD, les factures vers tel ou tel médecin ou établissement.
La chose est connue mais personne n’y peut rien puisqu’il n’est même pas besoin de créer un fichier. L’apport du Web et des traces qu’on y laisse en permanence termine l’affaire. L’ajout d’un nouvel identifiant risque de compliquer encore la circulation légitime d’information et d’alourdir les coûts.
2.6 Duplication, fragmentation, normes, nomenclatures
En dehors des barrières idéologiques et politiques, l’utilisation et la réutilisation des bases se heurtent à la non coordination des acteurs. Il en découle des bases de données produites en doublon, avec des ressaisies et des erreurs posant la question de leur fiabilité et complexifiant à l’excès les rapprochements.
Déjà les épidémiologistes se sont plaints que la conception du DMP n’incluait pas les besoins de la santé publique et de la recherche alors que la base devrait être à terme une ressource exceptionnelle. Dans cet espace fragmenté, il va de soi que peu de normes existent sur les données et sur les métadonnées. Le chantier est, il est vrai, immense.
3 Construire l’avenir
3.1 Les enjeux
L’utilisation des données personnelles de la santé et de la vie sociale est un défi national. L’enjeu, reconnu par tous, est énorme tant pour la recherche et la santé publique que pour la gouvernance politique et l’efficience économique d’un système socio-sanitaire essentiel pour notre société et de plus en plus coûteux.
Il est aussi dans le gisement économique que représente l’élargissement de la santé à l’ensemble du mode de vie, à la prévention, à la dépendance.
Le développement de ce secteur, associant grandes entreprises et start-ups, est déjà une réalité. Il bénéficierait beaucoup de traitements nouveaux de l’information et il est absurde d’opposer les traitements vertueux de la recherche ou d’agences publiques, qu’il faut évidemment faciliter et aider, et ceux que pourraient introduire des acteurs privés qui ont su jusqu’ici traiter des données sans qu’aucun scandale en soit résulté, malgré les alarmes initiales – y compris dans la santé par les sociétés qui collectent des prescriptions.
Le développement de ce secteur, associant grandes entreprises et start-ups, est déjà une réalité. Il bénéficierait beaucoup de traitements nouveaux de l’information et il est absurde d’opposer les traitements vertueux de la recherche ou d’agences publiques, qu’il faut évidemment faciliter et aider, et ceux que pourraient introduire des acteurs privés qui ont su jusqu’ici traiter des données sans qu’aucun scandale en soit résulté, malgré les alarmes initiales – y compris dans la santé par les sociétés qui collectent des prescriptions.
La qualité et la solidité du système français de santé et de protection sociale sont incontestables – nous nous en félicitons assez. Il est le seul à avoir rassemblé autant de bases d’information de grande qualité, et en particulier le SNIIRAM. C’est un gisement exceptionnel. Il est temps de profiter de l’expertise française en matière de traitement des grands gisements de données (“big data”) et de visualisation des données pour l’exploiter au mieux.
3.2 De la production à la réutilisation : une gouvernance d’ensemble est indispensable
Ce n’est pas seulement la réutilisation des données mais leur production et leur utilisation qui doivent être revues en fonction des nouvelles réalités sociales et bien sûr des techniques et pratiques actuelles. Le domaine des données de santé ne doit plus demeurer un champ clos où débattent leurs gestionnaires et quelques spécialistes mais être visible pour les professionnels et acteurs du système et pour les citoyens dans leur ensemble. Le lancement d’un chantier national par la ministre, avec Etalab et avec l’IDS, est un événement important.
La première urgence, et ce ne sera pas une tâche aisée, sera de mettre en place une coordination des différents systèmes et une gouvernance de l’ensemble du domaine. Elle devra couvrir un champ large, comprenant en particulier ce qu’il est convenu d’appeler le médico-social (handicap, établissements d’hébergement pour personnes âgées dépendantes).
Elle devra aussi être capable de réguler, des points de vue organisationnel et technique, les passerelles avec les autres domaines, dont celui de l’action sociale.
Elle devra aussi être capable de réguler, des points de vue organisationnel et technique, les passerelles avec les autres domaines, dont celui de l’action sociale.
Deux objectifs sont essentiels :
- la progression vers une cohérence des données, évitant au passage les doublons et les incompatibilités,
- la définition des processus d’accès et de réutilisation, avec des règles claires et simplifiées et une réponse rapide aux demandes de réutilisation et aux évolutions.
La définition de cette gouvernance et des principes qui la guideront sera le fait de l’Etat et d’ailleurs sans doute après le passage par une Loi, ou dans une Loi de réforme de la santé et de l’assurance maladie. Il s’agit en effet de modifier un pan de la Loi du 13 août 2004 relative à l’assurance maladie, qui a créé l’IDS.
Un cadre plus général est indispensable. Les états généraux devraient pouvoir formuler des propositions, permettant peut-être d’établir un Schéma national des données de santé (un tel Schéma directeur a été défini en 2010 pour les données sur l’eau).
En tout état de cause, la gouvernance devra s’appuyer à la fois sur une approche globale de la santé et du social et sur une vision large des données publiques et donc sur le Secrétariat général pour la modernisation de l’action publique, qui comprend en particulier la Mission Etalab.
En ce qui concerne le secteur sanitaire et social, plusieurs acteurs clé interviendront sous l’autorité du ministre en charge de la santé et de la sécurité sociale, en concertation avec les organismes de protection sociale dans le cadre d’un Conseil supérieur à définir (4) : Secrétariat général des ministères sociaux, Délégation à la stratégie des systèmes d’information de santé, HAS, ASIP Santé.
Par ailleurs, il faudrait se garder de rajouter une instance sans simplifier le système, déjà lourd et peu réactif – pratique hélas fréquente.
L’Institut des données de santé, déjà rompu à la discussion avec les différentes parties, peut certainement, une fois profondément remanié pour élargir son champ et ses règles, être le pivot du système.
L’Institut des données de santé, déjà rompu à la discussion avec les différentes parties, peut certainement, une fois profondément remanié pour élargir son champ et ses règles, être le pivot du système.
Cependant, les problèmes posés pour les données sont aussi le reflet des tensions et des divergences d’intérêt. La rationalisation du système de gestion et d’ouverture n’est qu’un élément, secondaire, dans l’évolution du système français de santé et d’assurance maladie qui est en cours. La nouvelle gouvernance devra pouvoir elle aussi évoluer dans ce cadre.
D’entrée, et cela dépasse aussi les accès aux données, un problème clé doit être réglé dans un domaine, celui de l’identité. Réelle difficulté mais aussi parfois prétexte, la gestion de l’identifiant reste à préciser et devra en tout état de cause évoluer, et ce dans le cadre de la Loi.
Aujourd’hui, l’accès à un fichier contenant le NIR exige, comme pour toute donnée personnelle, le passage devant la CNIL pour ce qui concerne l’application en cause, mais à ceci s’ajoute, pour le NIR, une autorisation cadre donnée par le Conseil d’Etat pour l’organisme (y compris administration d’Etat), puis l’avis de l’IDS.
En fait, la protection des données personnelles doit être assurée avec encore plus de vigilance que dans d’autres secteurs mais il faut la replacer tout de même dans un contexte global : l’interpénétration des espaces de données est inévitable et les moyens actuels sur le Web sont notoirement insuffisants. Des recherches sont ici indispensables (le Pr Goldberg recommande un effort dans ce sens), et doivent se replacer dans un effort trans-sectoriel et international.
3.3 Des principes pour la réutilisation
Avant même que le courant de l’ouverture des données n’ait atteint la santé, des propositions de bon sens étaient émises par le Comité d’experts de l’IDS en 2010, certes seulement (mais c’est le domaine de l’Institut) pour “l’utilisation de données de santé à des fins d’études et de recherches en santé publique”.
Ces conseils sont tout à fait valables dans une perspective plus large : “1/ Définir des critères centrés sur la finalité. 2/ Bâtir un modèle économique. 3/ Élaborer une cartographie des bases de données. 4/ Combler les lacunes existantes en matière de bases de données. 5/ Améliorer l’efficience des moyens tout en renforçant la protection des données. 6/ Clarifier et simplifier le champ de compétences des organismes appelés à intervenir. 7/ Mettre en place une « instance de concertation » auprès des pouvoirs publics.(5)
Par ailleurs, les données doivent de toute façon satisfaire auxrecommandations de la DISIC (SGMAP) pour l’urbanisation des SI de l’Etat qui portent sur la maîtrise des données.
La DISIC recommande de définir “de bonnes pratiques, une doctrine générale sur la gouvernance des données”, portant notamment sur les responsabilités, le cycle de vie, les modélisation, les dictionnaires, l’administration, les métadonnées et la géolocalisation, la gestion des droits d’accès (avec des contrats ne pouvant être remis en cause par l’une des parties), l’auditabilité.
Elle insiste sur l’importance des données “transverses” ou données de référence, pour lesquelles il faut définir les autorités, créer un dictionnaire, standardiser les services d’accès etc.
La DISIC recommande de définir “de bonnes pratiques, une doctrine générale sur la gouvernance des données”, portant notamment sur les responsabilités, le cycle de vie, les modélisation, les dictionnaires, l’administration, les métadonnées et la géolocalisation, la gestion des droits d’accès (avec des contrats ne pouvant être remis en cause par l’une des parties), l’auditabilité.
Elle insiste sur l’importance des données “transverses” ou données de référence, pour lesquelles il faut définir les autorités, créer un dictionnaire, standardiser les services d’accès etc.
La question d’une certification des données et bases de données a été posée. Elle doit être résolue pour les producteurs publics. D’une manière générale, un annuaire des données doit préciser les sources, les caractéristiques des bases et les conditions de réutilisation.
En revanche, il est difficile de vérifier la conformité des données publiées par les réutilisateurs. Comme dans d’autres secteurs, on ne peut dépasser d’une part le respect des licences contractuelles, d’autre part le respect des lois et règlements. Même s’agissant de sites Web, le label “Health on the Net”, largement soutenu en Europe, ne s’est pas avéré très utile.
Quoi qu’il en soit, un premier changement profond sur lequel tous s’accordent, et notamment le Président de la CNAMTS, est qu’il faut cesser de limiter l’accès en fonction du statut du demandeur et ne prendre en compte que les finalités de la demande.
Le moins que l’on puisse dire est que les bases sont posées pour améliorer d’abord les données “de santé” mais aussi leur utilisation et leur réutilisation, mais qu’il y a fort à faire pour se rapprocher de tous ces excellents principes. C’est précisément pourquoi il faut commencer rapidement.
3.4 Un chantier qui est aussi technique
L’expérience de l’industrie de l’information permet d’éclairer les nécessaires démarches pour la mise en place d’une logique, nouvelle pour le monde de la santé. Plusieurs associations dont le Groupement français de l’industrie de l’information (GFII) travaillent à préciser des règles générales sur le traitement des données publiques.
De telles règles distinguent l’accès, l’ouverture simple imposant l’accès à des fichiers manipulables et encadrée par des règles fortes mais générales (par exemple la protection des données personnelles, à laquelle veille la CNIL) et enfin la réutilisation professionnelle, qui impose des contrats précis – en particulier sur le suivi, la qualité des données.
Les exigences portent sur les points techniques clé et rencontrent au demeurant celles qui ont été évoquées ci-dessus :
- Formats standards et documentés ;
- Importance de s’accorder sur les référentiels et sur les méta-donnés, ce qui n’est notoirement pas le cas actuellement ;
- Publication d’un catalogue avec les conditions de réutilisation et des exemples de jeux de données, catalogue qui peut être relié à Etalab mais a une surface bien plus large puisqu’il serait souhaitable que des données ne dépendant pas de l’Etat, voire venant du secteur privé lucratif, puissent y être référencées ;
- En même temps, une plate-forme commune devra vraisemblablement être mise en place, permettant aux producteurs du domaine de collaborer et servant de support aux référentiels, ou en tout cas de point d’accès unique pour ceux-ci et peut-être à terme pour l’ensemble des données couvertes par les régulations à mettre en place.
Il s’agit en particulier de gérer les nombreuses nomenclatures, qui diffèrent et même parfois beaucoup pour un même objet et dont il faudra identifier les usages sauf à parvenir à réduire les écarts – cas des nomenclatures de médicaments, par exemple. Il faut aussi mettre à disposition les dictionnaires de métadonnées – types d’information ou de spécialité, géolocalisation (amusant détail : les découpages géographiques des Caisses et de l’Etat diffèrent légèrement) etc.
Dans ces domaines techniques, l’acteur central en santé est l’ASIP Santé, ce qui suppose sans doute que ses missions soient étendues.
Enfin, il est important de lancer, comme cela a été évoqué ci-dessus, des programmes de recherche en matière de confidentialité et il faut aussi intégrer des travaux sur le traitement et le croisement de grandes bases d’information (“big data”).
Une tâche essentielle
Le monde de la santé et de la protection sociale est en pleine évolution. Son organisation suppose et accompagne une responsabilisation croissante de citoyens bien informés et une coordination efficiente d’acteurs administratifs, économiques et sociaux.
La production, la circulation, l’utilisation de vastes ensembles de données que le système français a commencé de créer est une lourde tâche mais c’est un enjeu national. Les discussions en cours doivent permettre une progression essentielle, rompant avec les blocages du passé tout en préservant, dans ce domaine comme dans tous les autres, le secret des données personnelles.
Note 01:
établissement public national à caractère administratif jouissant d'une personnalité juridique et d'une autonomie financière - Retourner au texte
Note 02:
Le SNIIRAM et les bases de données de l'Assurance maladie(Dominique Polton, Philippe Ricordeau – CNAMTS) , 2011 -Retourner au texte
Note 03:
cf. Conclusions de la CNIL sur l’utilisation du NIR comme identifiant de santé, 20 février 2007 - Retourner au texte
Note 04:
Un Conseil supérieur des systèmes d'information de santé existe depuis 1997 mais l'objectif de cohérence et d'ouverture des données suppose une redéfinition. - Retourner au texte
Note 05:
Institut des données de santé : Rapport d'activité 2011 Progrès et consolidation - Retourner au texte
Aucun commentaire:
Enregistrer un commentaire