De l’entrepôt de données au lac de données : nouvel avantage décisif à l’ère du Big Data
Pour solutionner l’équation digitale complexe que doit résoudre l’entreprise, un modèle doit être pensé pour répondre aux disruptions digitales et au stress sans précédent qu’elles créent sur deux ressources clés de l’entreprise : son SI et ses données.
Basée sur une architecture dite ‘data-centrée’, l’architecture 3.0 place la donnée au cœur du SI et propose un nouveau paradigme d’intégration entre les composants du SI. Une intégration par les données, dont l’une des vertus est de préserver les investissements dans les legacy systems en leur évitant une surcharge de services digitaux incompatibles avec leurs natures et leurs rôles historiques. Ce modèle centré autour de la donnée est adossé à une infrastructure partagée et fédérée de stockage et de traitement des données qui en constitue l’épine dorsale. Un des constituants majeurs est l’un des concepts qui fait aujourd’hui le plus de buzz dès lors que l’on parle de Big Data, celui de Data Lake, littéralement lac de données. Petite plongée dans ce dernier qui cristallise beaucoup d’envies et de promesses.
Qu’est-ce que le lac de données ?
Le concept de lac de données, est un concept relativement récent (2011), dont la parenté du terme est communément attribuée à James Dixon, CTO de Pentaho, un acteur spécialisé de l’intégration de données et de l’analytique. L’idée du lac de données est née du constat que les entreprises sous exploitent leur capital informationnel et ne seront bientôt plus en mesure de faire face à sa croissance exponentielle en volume et en vitesse et que les approches traditionnelles pour capturer et traiter cette masse d’information ont atteint leur limite.
Dans sa forme la plus simple, un lac de données est un lieu de stockage universel dans lequel on peut mettre n’importe quel type de données, provenant de n’importe quelle source et/ou flux et ce, quelle qu’en soit le volume, la variété, la véracité, la valeur et la vélocité. Si cela n’est pas sans rappeler le concept d’entrepôt de données (Data Warehouse), vieux de plusieurs décennies, le concept de lac de données est un vrai changement de paradigme.
Entrepôt de données et lac de données, quelles différences ?
Dans un entrepôt de données, la structure est prédéfinie à l’avance (Schema on write), généralement à des fins d’analyse historique. Avant ou au cours de leur intégration, les données subissent de nombreux traitements (mise en forme, mise en qualité, réconciliation, agrégation…).
Dans un lac de données, l’idée au contraire est de limiter au maximum les traitements et la préparation des données à l’ingestion. Celle-ci doit être à la fois rapide et peu coûteuse, deux paramètres essentiels pour absorber le déluge de données.
Ces dernières sont ainsi ingérées au plus près de leur forme originale pour un traitement et une indexation à postériori et itérative. La structure de stockage n’a ainsi pas à être conçue en avance pour un usage déterminé et souvent unique mais définie ultérieurement selon l’usage que l’on en fera.
Dans le lac de données, les données ne sont donc pas stockées de façons ultra-structurées, donnée par donnée, dans des tables comme dans un modèle entité-relation. Elles sont juste déposées à plat (Flat storage) et rangées de façon basique sans intégrité forte entre les différentes sources, généralement sous forme arborescente (Large data sets) ou étiquetée (Meta-Data tagging) dans une logique clé/valeur pour les données interactives (Data Stream). L’idée est de s’assurer que l’on pourra facilement les repérer ultérieurement et surtout éviter qu’avec le temps, le flux de déversement continu de données ne transforme le lac de données en marécage (Data swamp).
Le lac de donnée, un avantage décisif à l’ère du Big Data ?
Et c’est là un avantage décisif à l’ère du Big Data, où l’on ne connait pas par avance la valeur et l’intérêt de toutes les données que l’on capture et l’usage que l’on pourrait en faire dans le futur. Les traitements minimalistes que l’on opère à leur ingestion les rendent naturellement multi-usages et leur décloisonnement les rend disponibles au plus grand nombre, moyennant les habilitations adéquates et le respect des règles de gestion de l’information.
Ainsi déversées dans le lac, les données sont disponibles pour toute sorte de traitement, des plus simples au plus complexes et peuvent être façonnées et exposées de façon totalement adaptée à l’usage que l’on en fait (mise en qualité, détection de corrélation non triviales, recherche d’information, analyse historique, prédictive, cognitive) et ce, tant en terme de contenu que de structure.
L’usage du lac de données ne se restreint pas à des usages purement analytiques à froid comme on peut l’entendre trop souvent. Il joue un rôle clé dans nombres d’usages opérationnels : vision 360, profilage et segmentation client à la volée, contextualisation de la conversation client, stock temps réel, assistance virtuelle, recommandation d’action, adaptation de l’expérience utilisateur, détection de fraude, etc.