Aller au contenu principal

Jean-François Marcotorchino, directeur scientifique de l’activité Systèmes d’information et communication sécurisés, Thales

 

Qu’est-ce que le « Big data » ?

Il n’existe pas de définition officielle de ce terme. Le McKinsey Global Institute, très influent, parle « d’ensembles de données dont la taille dépasse les capacités des logiciels classiques de bases de données en termes de capture, de stockage,  de gestion et d’analyse ». La taille de ces ensembles de données n’est pas définie, car ce chiffre évoluera constamment et est différent pour chaque secteur.

N’est-il pas seulement un nouveau phénomène de mode ?

Non bien entendu ! Poussés par des grands acteurs du web, les processus de stockage de l’information en bases de données se sont adaptés à la montée en charge en termes de volumétrie des données à enregistrer. On parle à ce propos d’un nouveau paradigme dit NoSQL – « Not only SQL » – qui regroupe l’ensemble des nouveaux modes de stockage, permettant d’aller au-delà des performances des bases de données relationnelles actuelles, adressables via SQL. Ces dernières ne permettent pas de supporter les énormes quantités de données en flux, le data streaming, auxquelles les entreprises marchandes du web ont eu très rapidement à faire face.

Néanmoins, certains domaines d’activité (banque, assurance, réservations…) requièrent une cohérence  quasi obligatoire dans les réponses aux requêtes (« consistency ») que NoSQL ne peut pas assurer, dans toutes ses architectures et acceptions possibles. Les grands acteurs des bases de données (comme Oracle par exemple) ont donc repensé les problématiques SQL, qui ont leurs adeptes, pour aboutir relativement récemment aux architectures NewSQL, conçues dans le prolongement de NoSQL pour des accès transactionnels à fort débit au moyen d’une interface SQL. Les vitesses annoncées sont énormes (1 000 fois supérieures à celle de SQL natif) et NewSQL se positionne en concurrent (ou complément) direct de NoSQL en termes de scalabilité (adaptation à la montée en charge) mais son apport et son adaptation dans le contexte des grands graphes du web (internet et réseaux sociaux) restent largement à démontrer.

Parallèlement à ce changement assez révolutionnaire de mode de stockage, un certain nombre de méthodologies d’analyse ont également été adaptées et modifiées pour supporter la montée en charge des problématiques en termes algorithmiques. Ces technologies et méthodologies qui s’adaptent à ce nouvel environnement ont été regroupées sous le vocable de « Big analytics ». Ces techniques qui sont le prolongement actualisé de ce que l’on appelait il n’y a pas si longtemps le « data mining », utilisent des algorithmes très différents suivant que l’on connaisse (même partiellement) ou non, la structure de la population à analyser.  Dans le premier cas, on peut avoir recours à des processus statistiques (échantillonnages) qui n’impliquent pas le traitement de l’ensemble des données. On parle alors de « Big analytics par extension » ou « hypothesis driven mode ». Dans le second cas, on laisse parler les données (« data driven mode »). Les algorithmes travaillent alors en mode quasi exhaustif et doivent être parallélisés ou linéarisés pour s’adapter à cette montée en charge.

Comment différencie-t-on le Big data des approches existantes ?

On n’a pas attendu l’avènement de l’ère « Big data » pour manipuler des masses considérables de données dans des centres dédiés, équipés de machines extrêmement puissantes, mais il apparaît néanmoins que le calcul intensif, ou « High Performance Computing (HPC)», ne recouvre pas exactement ce qui est entendu par Big data. Ceci est dû à la nature des problèmes traités.

En effet les problématiques qui sont utilisées et exploitées dans ces centres de « High Performance Computing » sont des données qui sont extrêmement spécialisées, qui relèvent de problèmes récurrents, adressés par des équipes multidisciplinaires sous forme de compétitions techniques.

D’autre part, les défis auxquels on se confronte dans le cas du « HPC » sont souvent situés au niveau de défis connus de la communauté scientifique, qu’on essaie de surmonter ou, au minimum, de mieux cerner et qui souvent sont déjà identifiés depuis longtemps par des équipes de recherche dédiées et hautement qualifiées. Dans le cas du Big data, on s’adresse à des problèmes à substrats beaucoup moins techniques sur des données beaucoup moins spécialisées, et en plus accessibles à des utilisateurs qui seront beaucoup plus généralistes.

Pourquoi le Big data est-il devenu important aujourd’hui ? Peut-on parler de rupture technologique ?

Oui, il y a eu une rupture, qui est la concomitance de nouveaux modes astucieux de stockage et d’une algorithmie si possible « scalable » qui a permis ce nouveau développement, sans oublier le fait que des données intéressantes en très grand nombre et porteuses de valeur ajoutée ont été stockées par avance et à bon escient.

Quel rôle ont joué les réseaux sociaux dans le développement du Big data ?

Les réseaux sociaux comme Facebook, Twitter ou LinkedIn ont fait partie des acteurs qui, avec Google, ont poussé la mise aux normes NoSQL des bases de données permettant d’accéder aux données réticulaires grâce auxquelles les réseaux sociaux fonctionnent. Ces réseaux sociaux du web, du fait qu’ils se présentent comme de grands graphes avec des milliards de nœuds, sont sans aucun doute, avec Google, parmi les plus gros consommateurs de données stockées existant aujourd’hui. D’ailleurs, Google, Facebook et Twitter mais également Amazon ont été des pionniers dans la mise au point de certaines des technologies du paradigme NoSQL.

On parle aussi beaucoup de cloud computing. Quels sont les liens avec le Big data ?

Les deux systèmes sont liés, mais restent néanmoins différents. Certaines applications du cloud computing sont des utilisateurs intensifs du Big data et fournissent des masses considérables de données aux environnements de stockage « Big data », mais on peut bien sûr développer des applications Big data sans faire appel systématiquement au cloud computing. En effet la mutualisation des données et des procédures, qui, avec leur sécurité, est l’apanage du cloud, va accompagner un immense mouvement de trafic et de transfert de données (en particulier les « open data ») qui va nécessiter des stockages intelligents, avec des index calculés de façon optimale pour pouvoir garantir des temps d’utilisation extrêmement courts pour être tolérables et ce, pour de multiples utilisateurs simultanés. C’est un domaine clé de recherche et développement pour Thales.