



{"id":4465,"date":"2015-07-21T08:21:57","date_gmt":"2015-07-21T06:21:57","guid":{"rendered":"http:\/\/www.largeur.com\/?p=4465"},"modified":"2017-09-14T10:33:11","modified_gmt":"2017-09-14T08:33:11","slug":"numerique-2","status":"publish","type":"post","link":"https:\/\/largeur.com\/?p=4465","title":{"rendered":"Les nouveaux territoires du data mining"},"content":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" src=\"\/wp-content\/uploads\/201408\/Large20150720.jpg\" alt=\"Large20150720.jpg\" title=\"Large20150720.jpg\" width=\"468\" height=\"311\" border=\"0\" \/><\/p>\n<p>Lorsqu\u2019un client commande un article sur Amazon, l\u2019outil de vente en ligne propose d\u2019autres produits qui pourraient susciter son int\u00e9r\u00eat. Ces recommandations s\u2019op\u00e8rent instantan\u00e9ment, sans m\u00eame que l\u2019utilisateur n\u2019y pr\u00eate attention. Pourtant, elles font appel \u00e0 des algorithmes complexes qui calculent on-line les param\u00e8tres communs aux produits pour en recommander d\u2019autres similaires. Cet exemple de data mining n\u2019en est qu\u2019un parmi tant d\u2019autres. Industrie, sant\u00e9, banque, assurance: de nombreux secteurs per\u00e7oivent ces m\u00e9thodes d\u2019analyse comme le nouvel eldorado pour \u00e9largir leurs connaissances ou favoriser leur rendement.<\/p>\n<p>Les scientifiques aussi font constamment appel au data mining pour leurs recherches. Gr\u00e2ce aux statistiques, ils font \u00e9merger des informations pertinentes \u00e0 partir de valeurs a priori sans relation. Mais les outils de pr\u00e9dilection des statisticiens sortent aujourd\u2019hui de leur contexte acad\u00e9mique pour envahir la vie quotidienne. \u00abLe data mining entre dans une \u00e8re d\u2019analyse concr\u00e8te et appliqu\u00e9e\u00bb, explique Hatem Ghorbel, professeur \u00e0 l\u2019Institut des Syst\u00e8mes Interactifs et Communiquant \u00e0 la Haute Ecole Arc Ing\u00e9nierie \u2013 HE-Arc Ing\u00e9nierie.<\/p>\n<p>A l\u2019origine de cet essor se trouvent le web et la culture des r\u00e9seaux, qui ont engendr\u00e9 une accumulation de donn\u00e9es num\u00e9riques, le Big Data. Les secteurs priv\u00e9s autant que publics ont compris peu \u00e0 peu les possibilit\u00e9s offertes par l\u2019analyse de ces donn\u00e9es. Ensuite, les algorithmes d\u2019analyses se sont am\u00e9lior\u00e9s, en raison de ce besoin d\u2019extraire l\u2019information. \u00abEt lorsque les techniques sont devenues m\u00fbres, les entreprises ont commenc\u00e9 \u00e0 nous approcher\u00bb, pr\u00e9cise Hatem Ghorbel. Son laboratoire est aujourd\u2019hui mandat\u00e9 par certaines industries pour optimiser le rendement des cha\u00eenes de fabrication de vis ou de boulons. Inscrit dans la tendance de l\u2019\u00abinternet of things\u00bb, les machines de production automatis\u00e9es sont bard\u00e9es de capteurs. Un ordinateur recense \u00e0 chaque \u00e9tape de fabrication des informations comme le temps de production, la quantit\u00e9 de pi\u00e8ces ou la dur\u00e9e de pause des employ\u00e9s. Elles sont ensuite analys\u00e9es et mod\u00e9lis\u00e9es pour optimiser la performance de la cha\u00eene. \u00abCela permet, par exemple, d\u2019\u00e9viter des effets d\u2019entonnoir o\u00f9 le temps de production est ralenti par une \u00e9tape en particulier\u00bb, pr\u00e9cise Hatem Ghorbel.<\/p>\n<p><strong>Industrie 4.0<\/strong><\/p>\n<p>L\u2019industrie peut ainsi fortement b\u00e9n\u00e9ficier du data mining. Dans cette optique, l\u2019Allemagne fait figure de pionni\u00e8re. Elle a mis en place depuis 2012 le plan Industrie 4.0, qui vise \u00e0 num\u00e9riser les cha\u00eenes de production industrielle pour les rendre intelligentes. Mais cet engouement pour l\u2019analyse de donn\u00e9es s\u2019op\u00e8re aussi dans d\u2019autres secteurs. \u00abLes banques analysent les donn\u00e9es bancaires du client pour \u00e9valuer le risque de lui accorder un cr\u00e9dit\u00bb, avance Diego Kuonen, CEO de Statoo Consulting, soci\u00e9t\u00e9 bernoise sp\u00e9cialis\u00e9e en data mining.<\/p>\n<p>Si l\u2019essor du data mining sur le sol helv\u00e9tique reste discret, il commence n\u00e9anmoins \u00e0 progresser. En Valais, la fondation The Ark, cr\u00e9\u00e9e par le canton pour valoriser l\u2019innovation, favorise aujourd\u2019hui des projets de e-sant\u00e9. Le but est d\u2019encourager les \u00e9changes entre les entreprises, le monde acad\u00e9mique et le milieu m\u00e9dical, et ainsi acc\u00e9l\u00e9rer la mise en place d\u2019un syst\u00e8me de cybersant\u00e9. \u00abLa e-sant\u00e9 se divise en trois segments, pr\u00e9cise S\u00e9bastien Mabillard, coordinateur de projets eHealth chez Cimark, bras op\u00e9rationnel de la fondation. La partie bien-\u00eatre en amont de la prise en charge m\u00e9dicale, l\u2019\u00e9tape m\u00e9dicale de soin \u00e0 proprement parler et finalement, la partie r\u00e9habilitation.\u00bb Le premier et le troisi\u00e8me segment ne manquent pas d\u2019acteurs: une foule de startups proposent des gadgets \u00abwearable\u00bb connect\u00e9s \u00e0 une application pour mesurer l\u2019activit\u00e9 physique ou le m\u00e9tabolisme. Mais le secteur m\u00e9dical commence tout juste \u00e0 entrevoir le potentiel de l\u2019analyse des donn\u00e9es en tant qu\u2019outil de pr\u00e9vention et de diagnostic. La startup suisse BioKaizen d\u00e9veloppe par exemple l\u2019id\u00e9e d\u2019un passeport biologique contenant l\u2019information m\u00e9tabolique du patient. Il permettrait d\u2019\u00e9tablir sa susceptibilit\u00e9 \u00e0 d\u00e9velopper une maladie et faciliterait un diagnostic pr\u00e9coce. Une aubaine pour les m\u00e9decins: \u00abLa num\u00e9risation de la sant\u00e9 favorise la personnalisation des traitements et augmente ainsi leur efficacit\u00e9\u00bb, conclut S\u00e9bastien Mabillard.<\/p>\n<p>Diego Kuonen conna\u00eet bien l\u2019int\u00e9r\u00eat grandissant pour ces m\u00e9thodes d\u2019analyses. Consultant en data mining, il conseille les entreprises de tous les secteurs. \u00abAujourd\u2019hui, je ne m\u2019adresse plus uniquement aux ing\u00e9nieurs mais aussi aux managers\u00bb, pr\u00e9cise-t-il. En effet, l\u2019enjeu du data mining est de savoir ce que l\u2019on veut faire des donn\u00e9es, afin de diriger des d\u00e9cisions d\u2019entreprise. Un travail collectif de r\u00e9flexion doit donc s\u2019op\u00e9rer en amont de l\u2019analyse, lors de l\u2019\u00e9tape cruciale qu\u2019est la r\u00e9colte des donn\u00e9es. Trois \u00e9l\u00e9ments doivent \u00eatre imp\u00e9rativement \u00e0 consid\u00e9rer: le volume de donn\u00e9es, la vitesse \u00e0 laquelle l\u2019analyse va \u00eatre op\u00e9r\u00e9e et surtout, la nature des donn\u00e9es. \u00abElles sont souvent tr\u00e8s vari\u00e9es\u00bb, rappelle Diego Kuonen. Les donn\u00e9es dites structur\u00e9es se pr\u00e9sentent sous forme de valeurs et s\u2019impl\u00e9mentent relativement facilement dans les analyses. Les donn\u00e9es non structur\u00e9es, tel que les textes, sont quant \u00e0 elles plus d\u00e9licates \u00e0 traiter. En effet, extraire des informations pertinentes pour l\u2019analyse parmi les mots cl\u00e9s n\u2019est pas \u00e9vident.<\/p>\n<p>Dans cette id\u00e9e, la Biblioth\u00e8que nationale suisse a lanc\u00e9 le projet \u00abDes artistes et des livres\u00bb. Son ambition est de d\u00e9finir des param\u00e8tres capables d\u2019identifier les livres d\u2019artiste gr\u00e2ce aux notices bibliographiques de la biblioth\u00e8que. \u00abChaque ouvrage est index\u00e9 \u00e0 l\u2019aide d\u2019une notice contenant par exemple le titre, l\u2019\u00e9diteur, l\u2019ann\u00e9e ou le prix\u00bb, explique Nastaran Fatemi, professeure \u00e0 l\u2019Institut d\u2019Information et de Technologie de la Communication de la HEIG-VD. \u00abCertaines sont en allemand ou en fran\u00e7ais. D\u2019autres sont incompl\u00e8tes, ou leurs mots cl\u00e9s ne se situent pas toujours dans le m\u00eame ordre.\u00bb Parmi les 1\u2019600\u2019000 notices, le premier d\u00e9fi r\u00e9side dans l\u2019extraction automatique et la normalisation de ces champs lexicaux afin de les analyser. Ensuite, les algorithmes exploiteront \u00e0 terme les champs les plus pertinents pour diff\u00e9rencier les livres d\u2019artiste par rapport \u00e0 n\u2019importe quel autre ouvrage de la biblioth\u00e8que.<br \/>\n_______<br \/>\nENCADRE<\/p>\n<p><strong>Des algorithmes pr\u00e9disent les tubes de demain<\/strong><\/p>\n<p><em>Les maisons de disques misent sur les utilisateurs d\u2019applications et de services web musicaux pour d\u00e9nicher les futurs hits. <\/em><\/p>\n<p>L\u2019application de reconnaissance musicale Shazam compte chaque mois 100 millions d\u2019utilisateurs. Le logiciel su\u00e9dois Spotify permet de streamer depuis son smartphone plus de 30 millions de titres. Le nombre d\u2019\u00e9coutes ou encore<br \/>\nles commentaires d\u2019internautes repr\u00e9sentent d\u00e9sormais une mine d\u2019informations sur les tendances musicales.<br \/>\nLes maisons de disques l\u2019ont bien compris: Warner Music Group a d\u2019ores et d\u00e9j\u00e0 sign\u00e9 un accord avec Shazam pour mesurer la fr\u00e9quence \u00e0 laquelle un titre est \u00abshazam\u00e9\u00bb et \u00e9valuer son potentiel succ\u00e8s.<\/p>\n<p>Ces algorithmes se basent sur le \u00abcrowdsourcing\u00bb et recensent les \u00e9coutes sur une p\u00e9riode donn\u00e9e. Par extrapolation, ils \u00e9valuent ensuite si elles vont stagner, ou s\u2019envoler, et favoriser l\u2019\u00e9mergence du hit. \u00abCes outils fonctionnent pour peu que l\u2019on poss\u00e8de assez de donn\u00e9es\u00bb, explique Tristan Jehan, chercheur principal dans le laboratoire de musique chez Spotify. Et c\u2019est justement le cas avec le Big Data. Mais les titres \u00abshazam\u00e9s\u00bb ont d\u00e9j\u00e0 une forme de popularit\u00e9 sur le march\u00e9.<\/p>\n<p>Peut-on alors pr\u00e9dire si un morceau peu connu deviendra un hit? L\u2019\u00e9quipe de Mybandmarket semble avoir trouv\u00e9 la r\u00e9ponse. \u00abNos robots parcourent le web pour extraire des informations musicales\u00bb, explique Quentin Lech\u00e9mia, CEO de la soci\u00e9t\u00e9 parisienne. Les algorithmes visent les r\u00e9seaux sociaux et les interactions des utilisateurs comme le nombre de like par page. Ils parcourent les sites de streaming pour y r\u00e9cup\u00e9rer les commentaires. Des mots cl\u00e9s sont aussi extraits des sites de presse locale. Finalement, les concerts et leurs affluences sont pass\u00e9s au crible. \u00abCes donn\u00e9es nous permettent d\u2019\u00e9valuer un morceau ainsi que de mesurer la variabilit\u00e9 de cette cotation\u00bb, pr\u00e9cise Quentin Lech\u00e9mia. \u00abSi la variabilit\u00e9 augmente fortement, il y a de forte chance que le morceau devienne un hit.\u00bb Avec 90% de taux de r\u00e9ussite, les algorithmes de la soci\u00e9t\u00e9 semblent efficaces pour pr\u00e9dire si un morceau est vou\u00e9 au succ\u00e8s.<\/p>\n<p>_______<\/p>\n<p>Une version de cet article est parue dans la revue H\u00e9misph\u00e8res (no 9).<\/p>\n<p>Pour vous abonner \u00e0 H\u00e9misph\u00e8res au prix de CHF 45.- (d\u00e8s 45 euros) pour 6 num\u00e9ros, rendez-vous sur revuehemispheres.com.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>L\u2019immense accumulation d\u2019informations num\u00e9riques suscite d\u00e9sormais les convoitises des entreprises. L\u2019enjeu consiste \u00e0 d\u00e9velopper de puissants algorithmes pour les faire parler. <\/p>\n","protected":false},"author":20179,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[7],"tags":[1301],"class_list":["post-4465","post","type-post","status-publish","format-standard","hentry","category-technophile","tag-innovation","technophile"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/largeur.com\/index.php?rest_route=\/wp\/v2\/posts\/4465","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/largeur.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/largeur.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/largeur.com\/index.php?rest_route=\/wp\/v2\/users\/20179"}],"replies":[{"embeddable":true,"href":"https:\/\/largeur.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=4465"}],"version-history":[{"count":1,"href":"https:\/\/largeur.com\/index.php?rest_route=\/wp\/v2\/posts\/4465\/revisions"}],"predecessor-version":[{"id":6476,"href":"https:\/\/largeur.com\/index.php?rest_route=\/wp\/v2\/posts\/4465\/revisions\/6476"}],"wp:attachment":[{"href":"https:\/\/largeur.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=4465"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/largeur.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=4465"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/largeur.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=4465"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}