BLOG

Le Data Lake, pour qui, pour quoi ?

Cela n’aura échappé à personne que la donnée devient le centre de toutes les réflexions stratégiques : dans un contexte business en perpétuel mouvement, ses extrapolations potentielles deviennent l’objet de toutes les attentions. Datawarehouse, Big Data et maintenant, Data Lake : stocker les données et les « faire parler » devient une activité à part entière.

Le Data Lake, ou lac de données, nouveau venu dans lesdites discussions de stratégies data concerne-t-il toutes les entreprises ? Comment l’implémenter sans tomber dans une usine à gaz où l’interprétation sera hasardeuse. A l’heure où, selon une étude une étude KPMG-Forrester de fin 2016, moins de 25% des dirigeants français ont confiance dans l’efficacité des données utilisées par leur entreprise, comment mener une réflexion efficace sur le sujet ?

Data Lake,CQFS ?

Le Data Lake est une méthode de stockage des données au sein d’un système ou d’un espace qui permet de les conserver sous leur forme naturelle (objet / fichier), tout en facilitant leur cohabitation.

L’objectif du data lake est de centraliser en un seul point toutes les données de l’entreprise, quelle que soit leur forme : qu’elles soient brutes ou transformées, dans le but d’être utilisées au travers de reporting, de visualisations, de structures anaytiques ou de machine learning.

Un data lake comprend des données structurées telles que les bases de données (lignes + colonnes), des  données semi-srtcuturées (CSV, logs, XML, JSON), et des données non structurées (emails, documents, PDFs) voire des données binaires (images, audio, vidéo).

Le Data Lake : pour qui ?

Quand on sait que les entreprises créent chaque jour près de 2,5 milliards de Go de données, soit 2,5 Exa-octets (source IDC), on se demande bien qui le concept de Data Lake pourrait ne pas concerner. Et pourtant…

Cette structure de données est tout-à-fait appropriée aux entreprises qui décident de conserver l’historique de leurs données, sans pour autant savoir, à l’instant t, ce qu’elles vont en faire. Les techniques d’analyses marketing ne cessent d’évoluer : il n’est donc pas exclus de les garder « en attendant ». 

En revanche, pour une utilisation de données de façon récurrente (nécessitant des calculs de structure systématiques), le concept de Data Lake n’est pas du tout adapté. Il en est de même pour les entreprises qui ne manipulent pas de gros volumes de données, s’il en reste encore.

Quelle stratégie Data Lake mener ?

Partant du principe que votre entreprise fait partie de celles pour qui une structure Data Lake est nécessaire, la gouvernance est forcément un enjeu majeur de sa réussite.

Pour ce faire, il faut, comme dans toute stratégie : définir un ou des objectif(s), une

Data lake : vision client 360°, temps réel et omnicanal.

  • stocker des données de toutes natures et structures en temps réel.
  • outils technologiques très à la page, ce qui fait de lui un .
  • processus de machine learning qui lui permettent de réaliser des modèles prédictifs.

feuille de route, des process, des outils, et des ressources humaines.

La mise en place d’un data lake vient généralement après l’une de ces deux constatations : soit le SI doit être changé et /ou amélioré dans son organisation et son infrastructure afin qu’il adresse les besoins de l’entreprise, l’idée étant de centraliser les données pour améliorer leur utilisation par le marketing par exemple, Soit l’entreprise cherche à faire évoluer son bouquet de services et recherche donc la structure qui lui permettra de le faire.

La feuille de route va définir les priorités et les étapes de la mise en place du projet;

 

56% des directeurs marketing interrogés considèrent les Data Lakes comme un de leurs principaux challenges 26% comme une priorité

Gartner de 2013 sur le Big Data,

Les entreprises ayant intégré un Data Lake dans leurs services sont 20% plus performantes que leurs concurrents en 2015.

Teradata Marketing de 2

Les outils reposent essentiellement, au-delà de l’infrastructure elle-même, sur hadoop, le framework libre de Java dont la très grande capacité à stocker des données permet de travailler avec des pétaoctets de données. Les technologies NoSQL ou le Schéma on Road sont aussi évoquées.

Les process préciseront les rôles de chacun et leur interaction à chaque phase du projet : data engineers, data scientists data architects, experts en visualisation de données et même data stewards autour des administrateurs systèmes sollicités pour maintenir les machines ou assurer la mise en place de la nouvelle infrastructure.

Enfin, pour rester dans les clous de la réglementation, laquelle définit précisément les données que l’entreprise peut garder, là où le Data Lake a justement pour objectif d’en accumuler un maximum, nous ne saurons que trop recommander de se mettre en contact avec la CNIL.

Si vous avez de gros volumes de données à extrapoler à des fins marketing ou autre mais que tous ces noms vous semblent tout droit sortis d’une chanson des Bee Gees, nous vous invitons à nous contacter afin de voir, comment, ensemble, nous pouvons mettre en place une structure data lake au sein de votre entreprise.

 

OCSI


Articles similaires