Volume, variété, vitesse, valeur – les « 4V »- sont les quatre critères définissant le phénomène Big data.
Le Big data, c’est d’abord l’explosion du volume de données, qui met à l’épreuve les infrastructures de stockage classiques des entreprises.
Selon le magazine Fortune, jusqu’en 2003, l’humanité avait créé, en tout, 5 exabytes de données numériques (5 milliards de Go). Cette quantité de données était générée en 2 jours seulement en 2011 et en moins de 10 mn en 2013. Et il est désormais admis que le volume total des données informatiques créées dans le monde double tous les 12 à 18 mois.
La richesse du Big data, c’est aussi la variété des sources et des contenus qui créée de nouvelles opportunités de valorisation des données. Certaines sont internes à l’entreprise (par exemple, l’historique d’achat des clients provenant des systèmes de traitement des transactions), d’autres sont externes à l’entreprise (par exemple les tweets, les données de géolocalisation, les données publiques, etc.). Ces données sont aussi de formats différents : certaines sont structurées (entrées de bases de données classiques), semi-structurées (images avec méta-données associées) ou non structurées (texte, graphiques, images « brutes » (ex. : satellites), fichiers audio, streaming vidéo, etc.)
Tirer pleinement profit du Big data implique de traiter des données dynamiques et de fournir des résultats immédiats : c’est la vélocité. Avec les progrès des algorithmes d’analyse (Big Analytics) et des infrastructures d’échange de données, il devient possible d’intégrer de la donnée « en mouvement » ou « à la volée » dans des processus métiers. Certaines données, en effet, ne présentent une opportunité réelle que lorsqu’elles sont analysées aussitôt qu’elles sont générées. On pense par exemple à des pratiques frauduleuses pouvant être détectées aussitôt produites ou encore aux flux d’images transmises par les caméras de contrôle routier permettant d’identifier des patterns de circulation en temps réel.
Le Big data transforme également l’approche de la valeur des données (à la fois au sens marchand du terme et au sens qualité du terme). La qualité des données (au sens intégrité et véracité), dans une situation donnée, dépend de deux facteurs : d’une part, les données peuvent être incomplètes ou inexactes, ou structurées d’une manière qui les rend difficiles à analyser. Il faut donc préalablement vérifier la crédibilité de la source et la qualité du contenu.
D’autre part, dans l’immense quantité de données à la disposition des entreprises, il n’est pas toujours facile d’identifier celles qui seront utiles. La compréhension des « Business Drivers » passe souvent par une approche exploratoire qui permet de mettre en lumière des signaux faibles dans des grands volumes de données. Il est donc important de bien étudier et définir son besoin, pour ne pas dépenser ses ressources à l’analyse de données « inutiles ».
Les données, par ailleurs, peuvent être une vraie source de valeur monnayable (au sens marchand du terme), des données qui auront été proprement anonymisées ou normalisées, bref prétraitées, des données difficiles à collecter, des données à haute valeur ajoutée, car rares dans leur élaboration, seront très recherchées et pourront être vendues : elles auront donc de la valeur, intrinsèquement, avant même leur analyse.