- Largeur.com - https://largeur.com -

La science à l’âge des données

La révolution numérique et la capacité à traiter d’énormes volumes de données ont changé la façon d’aborder la recherche. Exemples.

02112016.jpg

Depuis un peu plus de dix ans, un tsunami de données s’amplifie en déferlant sur tous les champs de la science. Les disciplines les plus gourmandes en puissance de calcul ont longtemps été l’astronomie, la physique et les sciences de la vie. «Mais d’autres secteurs les rattrapent rapidement, comme les sciences sociales, où les chercheurs utilisent maintenant les smart technologies pour observer le comportement des individus plutôt que de leur faire remplir des questionnaires», relève le professeur Wil van der Aalst, qui dirige le Data Science Center à l’Université technique d’Eindhoven (TU/e). Dans la plupart des domaines, les chercheurs se tournent vers le Big Data pour faire avancer la connaissance. «L’approche basée sur des théories a été remplacée par une autre s’appuyant sur les données», observe Wil van der Aalst.

L’usage du Big Data implique donc, pour un scientifique, la capacité de réunir et d’analyser de gigantesques volumes de données. Les coûts peuvent vite devenir élevés, d’où l’intérêt pour les chercheurs de collaborer, y compris de manière transdisciplinaire. Les institutions partagent désormais leurs infrastructures et des centres de recherche multidisciplinaires émergent.

«Aujourd’hui, un laboratoire ne peut plus être le seul dépositaire de tous les savoirs nécessaires à ses investigations», dit le professeur Sune Lehmann, de la Danmarks Tekniske Universitet (DTU). Pendant plus de deux ans, il a étudié les interactions sociales de ses étudiants en analysant des Gigabytes de données provenant de smartphones (lire l’encadré ci-dessous).
_______

ENCADRES

1. L’humain sous la loupe

Le projet SensibleDTU étudie les échanges et les comportements sociaux des étudiants.

L’homme moderne communique à travers de multiples canaux, que ce soit par la parole directe, par téléphone, ou encore par les réseaux sociaux. C’est de ce constat qu’est parti Sune Lehmann pour lancer son projet SensibleDTU, dont l’objectif est d’étudier les interactions sociales «à travers la totalité des canaux de communication existants».

Un millier de smartphones équipés d’une application destinée à récolter des informations portant sur les interactions sociales ont été distribués aux étudiants. Sur une période de deux ans et demi achevée en février 2016, ils ont enregistré les données fournies par le Bluetooth, les SMS, les conversations, les e-mails ou encore les réseaux sociaux. «Nous avons collecté 100 Gigabytes de données par jour, pendant mille jours», s’exclame Sune Lehmann.

Plusieurs années ont été nécessaires pour apprendre à interpréter ces données, «car les smartphones ne mesurent pas directement les interactions sociales». Comment les chercheurs y sont-ils parvenus? La force du signal Bluetooth, par exemple, varie en fonction de la distance entre deux téléphones, permettant de déterminer quand les interactions sociales ont lieu. Le GPS, quant à lui, est précieux pour l’étude du contexte social: «Un rendez-vous dans un café ou dans une chambre à coucher est passablement différent…»

L’analyse des données a débuté et fait déjà ressortir des résultats d’une résolution et d’une densité jamais obtenues. De nombreux aspects fondamentaux des sciences sociales sont abordés, tels que la confidentialité, la réussite scolaire, les différences de genre, la dynamique sociale ou la mobilité. L’application la plus surprenante est épidémiologique: «Les réseaux de contacts entre les individus peuvent être extrapolés avec ceux utilisés par les maladies infectieuses.» Sune Lehmann aimerait pouvoir utiliser le réseau social Facebook pour stopper un virus en conseillant aux groupes de personnes identifiées à risque de se faire vacciner.
_______

2. Les voitures «coopératives»

Des véhicules truffés d’électronique récoltent de précieuses informations pour la conduite autonome.

Permettre à des véhicules de communiquer entre eux et avec leur environnement afin d’améliorer le trafic routier: c’est la conduite dite coopérative, destinée aux voitures autonomes. Pour y parvenir, les chercheurs de la Smart Mobility Strategic Area (SMSA) de TU/e truffent d’électronique des voitures de particuliers.

Pas moins de 100 Térabytes de données sont collectées — l’équivalent de l’espace de stockage de 400 iPad — provenant du GPS, des capteurs de rotation des roues, de caméras ou du wifi. Les bénéfices sont multiples: les voitures optimisent les distances, réduisent leur consommation et communiquent pour accroître la sécurité et augmenter la fluidité du trafic.
La technologie n’est toutefois pas encore au point, explique Carlo van de Weijer: «Même si la sécurité est proche de 100%, le tout petit pourcentage restant impliquerait plusieurs accidents par jour si tous les véhicules étaient autonomes.»
_______

3. Les explorateurs du passé

Le projet Venice Time Machine scanne mille ans d’histoire de la cité des Doges.

Les algorithmes clés qui ont rendu imaginable la collecte et le traitement massif de données remontent à l’année 2004, soit la naissance du mouvement Big Data. Peu d’informations antérieures à cette date sont utilisables par ces nouveaux outils de recherche. Or «il est urgent que le passé devienne aussi accessible que le présent», lance Frédéric Kaplan, qui dirige le projet Venice Time Machine à l’Ecole polytechnique de Lausanne (EPFL). Son ambition: découvrir des aspects méconnus de la cité des Doges grâce à la numérisation de ses archives et de ses œuvres culturelles.

La tâche est titanesque: il faudra dix ans pour scanner mille ans d’histoire scrupuleusement gardés dans 327 salles d’archives. Elles contiennent les relevés commerciaux, feuilles d’impôts, testaments, actes de décès, de mariage, de naissance et adresses des habitants vénitiens. Mais pas seulement: les archives contiennent également des documents diplomatiques. «Ces câbles sont si riches que l’on pourrait retracer grâce à eux une bonne partie de l’histoire européenne», dit Frédéric Kaplan, qui collabore avec l’Université de Venise et les archives d’Etat vénitiennes.

Ce n’est pas tant le volume de données que la manière de numériser ces milliards de pages sans les abîmer qui constitue un défi: «Nous avons développé un scanner semi-automatique capable de numériser mille feuilles par heure, que nous avons reproduit plusieurs fois.» L’utilisation de techniques d’imagerie médicale pour digitaliser les ouvrages sans les ouvrir est même envisagée. «Et ça fonctionne! Mais ces procédés sont encore en phase d’élaboration.»

Autre challenge: la reconnaissance des caractères dans les écrits manuscrits. «Nous collaborons avec pas moins de quinze universités pour trouver des solutions.» L’EPFL travaille en particulier sur des algorithmes capables de transformer les images numériques en mots puis en phrases. L’objectif est de mettre en place un outil de recherche à la Google pour exploiter la base de données. À cette fin, les scientifiques raccordent des mots clés et organisent les informations en immenses graphiques interconnectés. La logique des archivistes vénitiens aide les chercheurs dans cette tâche, car ils étaient les précurseurs des index. «Nous trouvons des listes de noms, de lieux et de documents. C’est l’équivalent d’un Facebook de l’ancien temps.» Depuis mars 2016, l’EPFL collabore également avec la Fondazione Giorgio Cini afin de scanner et de numériser des peintures. Parmi les archives de la fondation se trouvent des œuvres de Pierro della Francesca, Fra Angelico ou encore Sandro Botticelli.
_______

Une version de cet article est parue dans le magazine Technologist (no 10).

Pour souscrire un abonnement à Technologist au prix de CHF 45.- (42 euros) pour 8 numéros, rendez-vous sur cialis australia legal.