Le big data : rapide tour d’horizon a l’usage de ceux qui n’y comprennent toujours pas grand chose…

Big data
janvier 25, 2016 By Léa Z.

 Par Nicolas Woloszko, consultant Big Data chez Kynapse

Le Big Data s’est imposé en très peu de temps comme le buzzword marketing le plus en vogue du numérique. La blogosphère des amateurs de newtechs se l’est rapidement appropriée, au point de rendre les geeks recommandables… Ce phénomène est d’autant plus curieux que le Big Data reste très obscur. Ceux d’entre vous qui se seraient aventurés à soulever le couvercle ont probablement achoppé sur des termes tout aussi trendy et hermétiques : la « data science », le « machine learning », « Hadoop », ou encore « l’algorithmique distribuée » (clairement le plus barbare). Si vos frêles recherches sur la signification du Big Data vous ont vous aussi conduit de Charybde en Scylla, ce tour d’horizon est fait pour vous !

 

Le Big Data, c’est quoi au juste ?

500 To de contenus sont postés chaque jour sur Facebook. 7 To sur Twitter. Les 2 milliards d’internautes et 7,3 milliards d’utilisateurs de smartphone n’en génèrent pas moins. Et bientôt, les objets connectés… Le Big Data, c’est donc d’abord et avant tout – comme son nom l’indique – la profusion de données. Il en va également des données produites en continu par les entreprises. Fin 2012, déjà, Libération titrait « Données le vertige », en rappelant que l’humanité produit en deux jours autant de données qu’elle en avait fabriqué en deux millions d’années… La donnée nous entoure, comme un flux omniprésent, une trace laissée par toute activité économique ou sociale. Les plus imaginatifs des geeks la compare à la Force que manient les Jedis (dans une métaphore où l’ordinateur portable et les logiciels de calculs finissent immanquablement par faire office de sabres lasers…).

La croissance exponentielle de la quantité de donnée est donc très impressionnante. Mais tout cela nous fait une belle jambe. Après tout, l’utilisation de la donnée à des fins commerciales n’est pas nouvelle. Les business analytics n’ont pas attendu le Big Data. Et les milliards de discussions sur Facebook ne sont a priori pas d’un intérêt colossal…

C’est que le Big Data ne s’arrête pas là ! Pour en donner une définition succincte – que nous nous empresserons d’étoffer – il s’agit de la révolution simultanée de la quantité de données disponibles et des outils pour les traiter. Les outils, parlons-en…

Il s’agit d’abord et avant tout d’outils technologiques. Car en effet, les fameux « pétaoctets » (1 000 000 000 000 000) ne tiennent pas sur un ordinateur, fut-il le plus performant du monde. C’est précisément autour de cette problématique que se trame la révolution technologique du Big Data, qui s’est jouée dans les années 2000. Successivement, Google publie en 2004 un article scientifique qui présente le paradigme Map Reduce, pendant que Doug Cutting, chez Yahoo !, conçoit le code d’Hadoop. Ces deux innovations ont pour but de distribuer avec une très grande agilité des données et des calculs sur une multitude de serveurs. Plutôt que de chercher à augmenter la puissance de nos ordinateurs aussi rapidement qu’augmente le volume des données, les deux moteurs décident de simplement augmenter le nombre d’ordinateurs sur lesquels les données et les calculs sont distribuées. Les données sont réparties sur des serveurs (des petits ordinateurs) connectés les uns aux autres (ils forment un cluster). Lorsqu’un internaute saisit une requête dans la barre de recherche, les 100 000 serveurs du cluster s’agitent ; chacun parcourt la petite partie du web qu’il est chargé d’indexer. Grâce à ces technologies, notre capacité de stockage des données et de calcul devient virtuellement infinie, alors qu’elle était jusqu’alors limitée par le coût des processeurs.

C’est grâce au paradigme MapReduce et à Hadoop que Facebook peut administrer des milliards de photos et de conversations, et qu’Amazon est en mesure de traiter des centaines de milliers de commandes à la seconde. De ce point de vue, le Big Data inclut les infrastructures qui permettent de gérer en temps réel les immenses bases de données qui se cachent derrière les sites que nous utilisons tous les jours.

 

Des Big Data aux Data Sciences

C’est déjà pas mal ! Mais ce n’est pas tout. Il reste une dimension cruciale du Big Data que nous n’avons pas encore explorée. C’est peut-être sa composante la plus fascinante, ou tout du moins celle qui nous concerne le plus directement. Il s’agit des data sciences, et plus précisément, du machine learning. Littéralement : l’apprentissage des machines. En français on parlera plutôt d’apprentissage statistique. De quoi s’agit-il? Et surtout, quel est le rapport?

A première vue, aucun. Le machine learning apparaît en 1957. Frank Rosenblatt invente le Perceptron. Il s’agit d’un algorithme capable de classer automatiquement des objets dans un certains nombre de catégories. De façon plus générale, l’apprentissage statistique désigne un ensemble d’algorithme capables « d’apprendre », c’est-à-dire, d’être entraîné sur un jeu de données à effectuer une certaine tâche. Par exemple, à reconnaître une photo de chat. On montre à l’ordinateur un million de photos de chats en lui indiquant de quoi il s’agit. Il devient alors capable de déterminer si une photo qu’on lui présente figure ou non un chat.

Le machine learning, c’est donc une affaire d’algorithmes. La théorie mathématique sous-jacente est développée dans les années 1960 par deux chercheurs russes : Vladimir Vapnik et Alexey Chervonenkis. On est loin de la révolution du Big Data des années 2000. Pour vous donner une idée, à cette époque, Johnny ressemblait à ça :

johnny

Et pourtant, il existe entre le Big Data et le machine learning un lien décisif. Celui-ci tient au fait qu’un algorithme de machine learning peut être d’autant plus puissant qu’il a de données pour « s’entraîner ». Dans les années 1960, il fallait que les chercheurs amassent à la main un millier de photos, annotent celles qui figuraient un chat, pour « nourrir » l’algorithme classificateur de chats. Pas très pratique… Aujourd’hui, c’est parce que vous et vos amis vous êtes tagués sur Facebook qu’il existe des algorithmes capables de reconnaître un visage sur n’importe quelle photo. De la même manière, Netflix se sert de la base de données utilisateurs pour prédire vos goûts. L’algorithme « apprend » que les amateurs de Mission Impossible ne sont pas insensibles au charme de James Bond, et vous suggérera automatiquement de regarder Dikkenek si vous avez aimé Borat…

L’apprentissage statistique était une discipline marginale pendant longtemps. Elle connaît aujourd’hui son âge d’or, parce que c’est grâce à elle que la donnée permet de créer de l’intelligence. C’est donc la troisième composante de la révolution Big Data : l’intelligence artificielle. Les perspectives sont infinies. Les géants de l’internet, qui disposent d’un capital données immense, s’en sont saisies. La recherche scientifique sur ces sujets connaît également un essor important. Des chercheurs japonais ont par exemple développé un algorithme capable de détecter des séismes en temps réel… à l’aide de données Twitter! Leur technologie reconnaît une vague de tweets se référants au tremblement de terre qui a la même forme et la même trajectoire qu’une vague sismique. C’est donc bel et bien une révolution qui est à l’oeuvre. Au carrefour de la volumétrie, de la technologie et de la science, une nouvelle source d’intelligence a émergé.

 

Maintenant, on fait quoi?

Si la transition Big Data est parvenue à maturité chez les géants du Web, il reste encore des milliers de gisements de données inexploités dans les entreprises. Mettre la révolution Big Data à portée de main des entreprises, c’est le challenge d’un cabinet comme Kynapse. Nous accompagnons des banques, des sociétés d’assurance, des entreprises du secteur de la grande distribution, et des PME, dans l’exploitation intelligente et stratégique de leurs données.

Car en effet, depuis les années 2000, les technologies Big Data ont essaimé et constituent aujourd’hui un écosystème mature et performant. De très nombreux logiciels, bien souvent open source, permettent de mettre la puissance de l’algorithmique distribuée et les gigantesques volumes de données disponibles à disposition des entreprise et des collectivités.

Les entreprises peuvent aujourd’hui se servir du Big Data et du machine learning pour segmenter leur clientèle, et optimiser leur prospection. Ou bien pour détecter des fraudes grâce à des données comportant des millions de transactions. En installant en internet ou sur le cloud des plateformes Big Data, composées de serveurs en cluster (une dizaine, une centaine, parfois plus) et des logiciels pertinents (comme Hadoop), les entreprises peuvent tirer parti de l’intelligence artificielle, et munir leurs collaborateurs d’outils d’aide à la décision ou de reporting extrêmement performants.

Le Big Data permet d’étayer la prise de décisions stratégiques. Pour naviguer dans un monde incertain, il faut pouvoir récolter tous les indices, et savoir leur donner du sens. La culture data promeut une vision de la donnée où celle-ci n’est plus recluse, mais circule en permanence avec l’ensemble des informations disponibles pour éclairer les problématiques business. Grâce aux outils imaginés par les géants de web, une entreprise peut facilement croiser ses données avec des données externes (données météo, économiques, …), et mettre en lumière des corrélations. Comprendre, c’est faire des liens entre les choses, et se donner la latitude d’expérimenter, de tester, d’explorer.

Le Big Data ouvre un nouvel horizon des possibles. Il appartient aux entreprises de l’explorer. L’utilisation de la donnée représente un enjeu décisif en termes de croissance économique. Son exploitation requiert toutefois un mix de compétences inhabituel. Elle sollicite aussi bien des statisticiens et des data scientists que experts en stratégie et en gestion du changement. Aujourd’hui, les transformations à l’oeuvre créent de riches perspectives pour les acteurs économiques qui s’apprêtent à franchir le pas. Nous sommes à l’orée d’une fabuleuse vague d’innovations.