Apache Spark

S’engager dans des projets liés au Big Data nécessite des outils puissants de stockage et de traitement des données. OpenStudio s’est tournée vers le framework Apache Spark pour sa facilité d’utilisation et sa rapidité d’exécution.

Qu’est-ce que le framework Apache Spark ?

Dédié au Big Data, Apache Spark est un framework open source de calcul distribué qui effectue des traitements de données à grande échelle. Spark rassemble aussi des composants logiciels et outils qui sont structurés en fonction de l’architecture définie.

Quels sont les avantages de Apache Spark ?

Utiliser Spark garantit aux développeurs :

Une rapidité d’exécution pour le traitement de données plus importante que le framework Hadoop. En effet, Apache Spark nécessite moins de ressources et son mode de programmation est plus simple à prendre en main.
Une mise à disposition d’API faciles à utiliser pour travailler sur de grands volumes de données.
La possibilité de développer des applications en Java, Scala, Python et R de façon simplifiée et de réaliser des requêtes SQL.
Un gain de productivité à travers l’accès à une importante quantité de bibliothèques de haut niveau, qui prend en charge à la fois les données en flux, le machine learning et le traitement de graphes ainsi que les requêtes SQL.

Pourquoi OpenStudio privilégie le framework Apache Spark ?

Compagnon idéal de Hadoop pour effectuer des calculs distribués, Apache Spark s’est imposé comme une solution complémentaire puissante pour OpenStudio dans le cadre de nos projets Big Data. Ce framework présente par ailleurs deux avantages de taille pour nos Data Scientists : il est plus facile à prendre en main et peut être utilisé avec différents langages de programmation, notamment Python qui est très populaire dans le domaine de la data science.