Big Data

Pour faire face à la volumétrie croissante de données en e-commerce, et pallier les limites techniques des bases de données traditionnelles, OpenStudio a fait le choix de s’intéresser aux technologies du big data, comme Hadoop, afin de construire une « lambda architecture ».

Qu’est-ce qu’une architecture big data ?

Une architecture big data désigne la capacité à collecter, stocker et traiter en temps réel ou de façon asynchrone des flux très importants de données de natures diverses pour leur appliquer des traitements analytiques et statistiques variés.

Quels outils technologiques existent pour mettre en oeuvre une architecture big data ?

On peut énumérer différentes technologies du big data permettant de stocker et traiter de grands volumes de données :

Hadoop, framework open source, repose sur une infrastructure hautement scalable et un système de fichiers distribués (HDFS) pour exécuter des applications sur des systèmes en cluster possédant un grand nombre de nœuds.
Apache Spark est un framework open source de calcul distribué qui se présente sous la forme d’un ensemble d’outils et de composants logiciels structurés selon une architecture définie. Il est utilisé dans le big data pour effectuer des analyses complexes à grande échelle.
Elastic Search, moteur de recherche et d’analyse de données puissant et non structuré, développé en open source, est nativement conçu, par sa nature distribuée ainsi que sa scalabilité, pour supporter de gros volumes de données et gérer les montées en charge.

Pourquoi Open Studio s’intéresse aux technologies du big data ?

Notre équipe dédiée à l’intelligence artificielle pour le e-commerce s’est intéressée au big data car nos objectifs évoluent et impliquent de répondre à une quantité croissante de données. Les technologies de stockage et de gestion traditionnelles atteignant leurs limites, nous avons décidé d’acquérir des compétences dans ce champ de l’informatique. Notre projet thelia.Ai nous a permis d’obtenir des interactions issues de plusieurs sites fortement fréquentés, mais les Systèmes de Gestion de Bases de Données (SGBD) relationnelles ont très vite montré leurs limites. Quant aux Systèmes de Gestion de Bases de Données (SGBD) NoSQL, bien que plus performants, ils ne faisaient que repousser notre problème de stockage de données.

Quelles technologies avons-nous mis en place pour concevoir notre architecture big data ?

Nous avons monté une architecture big data on premise (c’est-à-dire opérée à 100 % par OpenStudio) composée principalement de technologies issues de l’écosystème open source hadoop, qui répond efficacement aux enjeux de volumétrie des données. Notre approche architecturale, appelée lambda architecture, est composée de 3 parties principales : la batch layer, pour laquelle nous utilisons le système de fichiers distribués (HDFS) de Hadoop afin de constituer un datalake (ou lac de données) ; mais aussi la speed layer et la serving layer, composée d’une API, de microservices, d’une ou plusieurs bases de données (SGBD) et d’un file system permettant le stockage de fichiers et modèles.