Les données sont devenues une potentielle mine d’or pour les entreprises, qu’elles soient vendues ou utilisées pour des analyses très poussées, grâce notamment à la mise en place d’un « data lake ». Mais connaissez-vous la différence entre ce système de stockage né avec la technologie « Big Data » et les autres systèmes plus traditionnels des entrepôts et autres référentiels de données ?

LE DATA LAKE OU « LAC DE DONNEES »

Un Data Lake contient des données de manière plate (à l’image d’une grande étendue d’eau), non structurée: les données brutes sont stockées sans hiérarchie ni organisation (mais une gouvernance doit tout de même être instaurée pour éviter l’effet « marécage »). Dans cette solution particulièrement flexible, chaque élément a simplement un identifiant unique et il est associé à un ensemble étendu de métadonnées (mots-clés).

Lorsque l’entreprise se pose une question (par exemple sur le comportement d’achats de ses clients), elle peut effectuer une requête pour chercher des données pertinentes au sein du Data Lake, qui seront ensuite analysées pour fournir une réponse soit rétrospective (grâce par exemple au Big Data Analytics), soit prédictive (grâce par exemple à l’intelligence artificielle).

LE DATA WAREHOUSE OU « ENTREPOT DE DONNEES »

Contrairement au Data Lake, le Data Warehouse stocke ses données sous une forme très structurée (à l’image d’un entrepôt avec ses allées et ses rayonnages). On y retrouve le plus souvent les mêmes jeux de données à différentes dates, à des fins statistiques et décisionnelles (par exemple l’historique des ventes). Ces données, issues des différentes applications de l’entreprise (positionnement en aval) sont traitées avant stockage pour assurer leur cohérence et permettre leur analyse par les services de l’entreprise en fonction de leurs besoins.

A noter que le DataMart ou « magasin de données » repose sur le même principe, mais se limite à une seule thématique de données (par exemple uniquement les informations commerciales), là l’entrepôt va regrouper ces données avec celles des achats, de la paie, de la finance etc.

LE PUITS DE DONNEES

Le puits de données a essentiellement vocation à stocker les données pivot de l’entreprise, très fortement partagées, et dynamiques (par exemple les parcours clients ). Ces données très structurées sont  traitées avant leur stockage (par exemple pour toutes les convertir au même format). Elles servent ensuite à alimenter les différentes applications (positionnement en amont, contrairement au Data Warehouse). Le puits de données va tracer les données opérationnelles et tous leurs changements d’état, et va informer sur les divergences identifiées, mais sans les corriger. Il se rapproche ainsi d’un gestionnaire d’événements plus que de données.

LE MDM – MASTER DATA MANAGEMENT

Enfin, le MDM, au cœur du système d’information, permet de maîtriser les données de référence de l’entreprise (les « référentiels »). Il s’agit plutôt de données statiques (par exemple l’identification des clients), contrairement aux données dynamiques que l’on va trouver dans les puits de données, et qui sont partagées entre les différentes applications. La gouvernance de ces données doit être définie au sein de l’organisation, avec notamment des « data stewards » chargés de contrôler les données de leur périmètre.

 

En conclusion, au-delà du choix de la technologie à mettre en œuvre, le choix du système de stockage de données doit être soigneusement étudié en fonction de la finalité de ces données : traçabilité de l’évolution des données de référence ou maîtrise d’une valeur unique de référence ? analyse décisionnelle ou intelligence artificielle ?

Data Warehouse, Data Lake, puits de données et MDM s’avèrent en réalité plutôt complémentaires, et peuvent ainsi coexister au sein d’une même architecture.