La révolution des données compte un nouveau venu, le Data Lake. Ce système informatique nouvelle génération fournit un stockage global des informations présentes dans une entreprise. Réponse technologique au Big Data, le Data Lake héberge tous types de données, structurées ou non. Jean-Michel Franco, directeur du Marketing Produits chez Talend, nous explique en 5 points ce concept récent.
Quid du Data Lake
Auparavant nous avions d’un côté des gens qui produisaient de l’information, des modèles et de l’autre des gens qui les consommaient. Aujourd’hui, ce qui se passe avec le Data Lake c’est un peu ce qui est arrivé avec le web 2.0. La barrière entre ceux qui produisent et ceux qui consomment est en train d’exploser si bien que tout le monde est susceptible de créer des modèles à partir d’un réservoir de données. L’idée du Data Lake consiste donc à remplacer la modélisation des données faite en amont par des professionnels par un accès à ces données d’une manière brute. Ensuite, ce sont certaines populations d’utilisateurs telles que des Data Scientists ou des Data Analysts qui vont, à postériori, créer de la structure, de la modélisation.
Des avantages multiples
Si le Data Lake propose un stockage à première vue plus désordonné, il offre un croisement rapide et ad hoc des données au moment de l’analyse. C’est un outil extrêmement agile qui intègre des informations comme on le souhaite. Avec le Datawarehouse, formidable outil pour modéliser des données, les études montrent que l’injection d’une nouvelle source prend 6 à 8 semaines, alors que dans un Data Lake, c’est beaucoup plus rapide puisqu’on injecte des données brutes. C’est fondamental car à l’heure où le volume des infos double tous les deux ans, l’enjeu du Big Data est de soutenir ce rythme. Et puis en termes de marketing pur, le Data Lake permet d’être encore plus efficace pour identifier le comportement des clients sur l’ensemble des canaux et utiliser au mieux toutes les informations croisées.
La gouvernance des données
Avec le Data Lake nous sommes dans la même logique de fonctionnement que Wikipédia où l’on donne de l’autonomie aux utilisateurs. Sur Wikipédia n’importe qui peut écrire et/ou contribuer à un article mais ensuite par un mécanisme de curation, seule la bonne définition sera retenue. Dans un Data Lake, la structure et les règles à appliquer sur les données peuvent être définies : on peut donc publier des données avant même d’en connaitre les usages et le contexte d’utilisation. Bien sûr, ce type de Data Management demande plus de travail aux utilisateurs et cela nécessite d’instituer des règles d’usage et de gouvernance, mais en même temps c’est ce qui donne de la valeur.
Le Cloud, le socle idéal
Les données peuvent être hébergées dans le Cloud c’est à dire sur des serveurs accessibles par internet, ce qui procure de nombreux avantages. Le premier concerne les coûts de stockage qui sont bien moins importants que sur des serveurs internes. Ensuite, le Cloud offre une grande élasticité si bien qu’il n’est pas nécessaire de connaître le volume de données dont nous aurons besoin dans les deux prochaines années. Il s’agit juste d’activer au bon moment les ressources nécessaires si l’on souhaite réaliser un traitement massif d’informations. Cela permet par exemple d’expérimenter des ressources pour explorer de nouveaux jeux de données puis de les libérer si les résultats sont en deçà des attentes. Enfin, le Cloud évolue en permanence avec les technologies et s’y adapte ce qui évite à l’entreprise de consacrer de longs mois de recherche pour développer elle-même ces nouveaux outils.
Le Data Lake, en voie de démocratisation
Le Data Lake se démocratise de plus en plus. Il n’est plus réservé exclusivement à des projets de Big Data car son agilité pour proposer de l’analytique séduit et cela quelle que soit la volumétrie, la typologie des données ou la dimension des projets. Cela va dans le sens du self-service où l’on se doit d’être plus rapide dans la mise en place des systèmes décisionnels. Aujourd’hui beaucoup d’entreprises se lancent dans le Data Lake sans pour autant avoir un volume important de données à gérer car elles vont pouvoir déployer une première version qui va répondre à 80% des besoins de leurs utilisateurs. Et ce sont ces mêmes utilisateurs qui combleront les 20% restants à travers leurs propres expériences. Ce cercle vertueux basé sur la collaboration entre les producteurs et les consommateurs d’information dépasse le contexte du Big Data et concerne désormais n’importe quelle entreprise où le « décisionnel » gouverne.
Partagez l'article