TECHNOPHILE

Big data: comment partager les données en toute confiance

Une quantité massive de données relatives à la santé des patients est stockée dans les hôpitaux. Avec l’aide de l’EPFL, le CHUV apprend à en tirer profit tout en les protégeant.

«Le “Big data” a le potentiel de faire de la médecine une science plus exacte», pouvait-on lire en 2015 dans le bulletin de l’Académie suisse des sciences médicales (ASSM). La question des données massives est au cœur de la médecine personnalisée. Un jour, ces informations numériques permettront certainement de proposer des thérapies extrêmement ciblées.

«En tant que tel, ces données n’ont qu’une valeur très limitée, avertit pourtant Vincent Mooser, chef du Service de biomédecine et du Département des laboratoires du CHUV et responsable de la Biobanque institutionnelle de Lausanne (BIL). Ce n’est qu’à partir du moment où nous avons la capacité de convertir les données brutes en informations, puis en connaissances, qu’elles deviennent utiles. Pour cela, il faut notamment des outils de «text mining» (extraction de connaissances) pour analyser les dossiers médicaux, mais aussi des outils bio-informatiques pour déterminer quelles variations du génome font cliniquement sens… Complexité supplémentaire, ces outils doivent être en mesure de travailler sur des cohortes de millions d’individus afin d’isoler un profil biologique particulier.»

D’où provient cette masse de données qui composent le Big data? Elles sont issues de la clinique, des analyses (génétiques par exemple) et de la recherche, d’où leur très grande hétérogénéité. Un des défis majeurs est donc leur interopérabilité: il s’agit par exemple de faire en sorte que les hôpitaux de Genève (HUG) et de Lausanne (CHUV) puissent mettre leurs données en commun. Or en la matière, tout reste à faire, constate Christian Lovis, chef du Service des sciences de l’information médicale des HUG. «Prenez une donnée très simple comme le poids d’un patient. Il en existe de toutes sortes: poids à la naissance, avant traitement, après dialyse, à sec, etc. Aujourd’hui, on n’est pas capables d’unifier de manière automatique les poids des patients dans les hôpitaux en Suisse, faute de formats de données similaires.» Sur le plan national, un pas sera franchi en 2017 dans le traitement des informations médicales, avec la Loi fédérale sur le dossier électronique du patient. Mais le défi est planétaire car les équipes devront pouvoir accéder aux données du monde entier, par exemple pour trouver un cas de mutation génétique rare qui a déjà été traité ailleurs.

Une autre partie des données est fournie par les citoyens. «Le mouvement du quantified self («mesure de soi») est une lame de fond qui ne va pas s’arrêter, estime Jean-Pierre Hubaux, du Laboratoire pour les communications informatiques et leurs applications de l’EPFL. Aujourd’hui, des bracelets mesurent votre activité physique, vos dépenses caloriques, votre sommeil, puis envoient les données sur votre smartphone. Demain, la tentation sera grande de connecter nos smartphones aux capteurs que l’on portera sur ou dans le corps (pacemaker, pompe à insuline, appareils auditifs, etc.). A terme, les chercheurs utiliseront le smartphone pour recueillir les données des cohortes épidémiologiques, par exemple pour mesurer l’impact de l’exposition à certains polluants.»

Protéger les données

Le secret médical est à la base de la relation de confiance avec le médecin. Or les données du Big data n’ont de sens que si elles peuvent être partagées avec les chercheurs du monde entier… Comment faire pour protéger l’anonymat du patient? Jusqu’à présent, on utilise avant tout le codage des échantillons médicaux.

Jean-Pierre Hubaux a été mandaté pour concevoir avec ses équipes les systèmes de protection de la BIL, la biobanque du CHUV. Le chercheur souligne que «protéger les données médicales est une question très complexe. Le cryptage des données (en transit ou stockées), notamment utilisé dans la finance, est efficace mais il n’existe pas de système sûr à long terme, car les ordinateurs seront toujours plus puissants. Si des données, encryptées en 2016, sont volées ou copiées, il sera plus facile d’en casser le chiffrement en 2036. Face à cette incertitude, plusieurs groupes de recherche, y compris le nôtre, se sont attaqués à ce problème épineux. Une autre technique, le traitement statistique, consiste à bruiter les données pour empêcher leur ré-identification, mais il y a de fortes réticences car on perd en précision.»

Nicolas Rosat, responsable du domaine Recherche & IT au sein de la Direction des systèmes d’information (DSI) du CHUV, travaille également sur la partie informatique de la BIL. En termes de sécurité des données, il évalue les solutions que proposent Jean-Pierre Hubaux et son équipe. Il souligne qu’au sein de la DSI, la protection des données est appréhendée de manière globale, selon une méthodologie de gestion de risques et d’analyse des menaces. «Le cryptage n’est qu’un moyen parmi d’autres pour protéger nos données, qu’elles soient biologiques ou non. En fonction de la menace, nous utilisons toutes les techniques disponibles: le masquage, le codage de l’identité, le contrôle de la divulgation statistique (indiquer par exemple une tranche d’âge plutôt que l’âge exact), etc. Les interconnexions de plus en plus grandes entre les réseaux créent de nouvelles menaces extérieures. Nous nous y préparons en accompagnant le CHUV vers l’informatique de demain.»
_______

ENCADRE

Scala, un langage Big data «made in Switzerland»

Un centre consacré au développement du langage de programmation Scala vient d’être fondé au sein de l’EPFL. Créé en 2004 par Martin Odersky, professeur au sein de l’école, cet outil a déjà convaincu plus de 500’000 utilisateurs dans le monde, notamment Twitter, IBM, The Swiss Stock Exchange, le New York Times… Langage libre et open source, Scala est facilement maniable et peut se greffer sur des systèmes existants. Il a aussi la particularité de pouvoir s’adapter à des projets de grande ampleur, ce qui le rend particulièrement intéressant pour le domaine du Big data.
_______

INTERVIEW

«Il nous faut des données interprétables»

Christian Lovis est médecin-chef du Service des sciences de l’information médicale des HUG et président de la Fédération européenne d’informatique médicale. Selon lui, l’enjeu réside dans la capacité à extraire du sens de ce déluge d’informations numériques.

En matière de Big data, le secteur public est souvent accusé d’être en retard sur le privé…
C’est largement erroné! Pour ce qui est des données en tant que telles, et du codage de la sémantique de ces données (c’est-à-dire leur interprétabilité), le secteur public a même une avance certaine sur le privé. En Suisse, les hôpitaux publics sont largement informatisés. Or si vous n’avez pas les données, vous ne pouvez pas faire avancer la recherche. Certaines sociétés privées vendent des programmes présentés comme des outils de Big data, mais en réalité ce sont surtout des outils de traitement de données traditionnels adaptés aux grands volumes.

Le volume des données définit-il le Big data?
C’est ce que certains veulent nous faire croire. Mais lorsque j’étais en poste aux Etats-Unis, il y a près de 20 ans, la base de données des vétérans de l’US Army sur laquelle je travaillais comptait déjà 40 millions de dossiers patients et personne ne parlait de Big data. On sait depuis longtemps stocker des masses de données, il suffit de mettre les financements nécessaires. Le vrai défi n’est pas tant le stockage que l’interprétabilité des données, et donc la sémantique et l’interopérabilité. Quel sens est-on capable d’extraire de ces données pour répondre à des questions? Par exemple, proposer au citoyen des moyens préventifs et thérapeutiques adaptés à son cas.

Que manque-t-il aux chercheurs pour pouvoir interpréter les données du Big data?
Beaucoup de choses! Outre les problèmes d’interopérabilité et de sémantiques dans des sources hétérogènes, il faut développer la capacité des systèmes à représenter les contextes et supporter, à l’avenir, des questions que l’on ne se pose pas encore aujourd’hui. Et également trouver le moyen d’ajouter une donnée à d’immenses bases sans avoir à tout recalculer: c’est l’analyse incrémentale; ou encore traiter des données dans des bases séparées: l’analyse distribuée; ce sont deux types d’analyse pour lesquels nous sommes assez démunis. La résolution de ces questions représente une opportunité immense pour la recherche.
_______

Une version de cet article est parue dans In Vivo magazine (no 9).

Pour vous abonner à In Vivo au prix de seulement CHF 20.- (dès 20 euros) pour 6 numéros, rendez-vous sur genuine cialis online.