Tous les articles de Stéphane WALTER

Spark Structured Streaming : les tests de performance
Spark est un framework open source de calcul distribué. Plus performant qu’hadoop, disponible avec trois langages principaux (Scala, Java, Python), il s’est rapidement taillé une place de choix au sein des projets Big Data pour le traitement massif de données aussi bien en batch qu’en streaming. Depuis la version 2.0, Spark propose une nouvelle approche…

Spark Structured Streaming : de la transformation des données aux tests unitaires
Spark est un framework open source de calcul distribué. Plus performant qu’Hadoop, disponible avec trois langages principaux (Scala, Java, Python), il s’est rapidement taillé une place de choix au sein des projets Big Data pour le traitement massif de données aussi bien en batch qu’en streaming. Depuis la version 2.0, Spark propose une nouvelle approche…

Spark Structured Streaming : de la gestion des données à la maintenance des traitements
Spark est un framework open source de calcul distribué. Plus performant qu’Hadoop, disponible avec trois langages principaux (Scala, Java, Python), il s’est rapidement taillé une place de choix au sein des projets Big Data pour le traitement massif de données aussi bien en batch qu’en streaming. Depuis la version 2.0, Spark propose une nouvelle approche…

DataOps : conseils pour spécifier et documenter les données d’un projet Big Data
L’exploitation de tout le potentiel de vos projets Big Data nécessite une bonne documentation de vos données. Les principes DataOps favorise la mise en place d’une démarche appropriée, essentielle pour mener efficacement tous les projets qui vont en découler et donner de la valeur aux données de votre entreprise. Spécificités des projets Big Data Une…

MongoDB : les possibilités d’agrégation
Pour ce quatrième et dernier volet de notre série de tutoriels pour vous faire découvrir MongoDB. Nous abordons aujourd'hui les possibilités d'agrégation.
![[Tutoriel] MongoDB : Indexation et performance](https://perspective.orange-business.com/wp-content/uploads/2017/11/mongo-db-performance-700.jpg)
MongoDB : Indexation et performance
Suite de notre série d'articles pour vous faire découvrir MongoDB. Pour ce troisième tutoriel, nous allons examiner les mécanismes d’indexation et le suivi de performance.
![[Tutoriel] MongoDB : Insérer, supprimer et mettre à jour des documents](https://perspective.orange-business.com/wp-content/uploads/2017/10/tutoriel-mongodb-2-700.jpg)
MongoDB : Insérer, supprimer et mettre à jour des documents
Afin de vous faire découvrir MongoDB, je vous propose une série d’articles. Je vous propose d'aborder pour ce deuxième tutoriel les fonctions d’insertion, de suppression et d'update.
![[Tutoriel] MongoDB : examiner les fonctionnalités de requêtage](https://perspective.orange-business.com/wp-content/uploads/2017/10/code-2558224_1920.jpg)
MongoDB : examiner les fonctionnalités de requêtage
Vous allez découvrir ici MongoDB à travers une série de tutoriels. Nous allons aborder aujourd’hui l’installation et examiner les fonctionnalités de requêtage de la solution. MongoDB est une base de données NoSQL relativement simple à prendre en main et très riche fonctionnellement. Elle permet d’adresser les problématiques de temps réel dans un contexte Big Data…

Comment créer une machine MongoDB avec Vagrant ?
Vagrant est un logiciel permettant d’automatiser la création de machines virtuelles. Par défaut, Vagrant utilise Virtualbox mais il est possible de déployer les machines virtuelles sur d’autres fournisseurs comme VMWare, HyperV, KVM, AWS ou même Azure. Vagrant fonctionne sur la plupart des systèmes d’exploitation. Pour ma part, je dispose d’une machine sous macOs. J’ai donc…

Premiers pas avec Zeppelin
Zeppelin est le compagnon idéal de toute installation Spark. Ce notebook permet de faire des analyses interactives au travers d’un navigateur web. Zeppelin permet d’exécuter du code Spark et de visualiser les résultats dans des tableaux ou graphiques.

Il était une fois le SQL sous Hadoop – 1 an après
Dans l'article Il était une fois le SQL sous Hadoop, je décrivais le foisonnement de solutions existantes pour travailler en SQL dans le Big Data. Plus d'un an s'est écoulé. L'occasion pour moi de vous dresser un premier bilan.

Miss France : quelle miss aurait été élue sur Twitter ?
L’élection Miss France génère nombre de commentaires sur les réseaux sociaux, notamment sur Twitter. Ces contenus offre de nombreuses possibilités d'analyse pour répondre à la question : « Quelle Miss aurait été élue par Twitter ? »

5 raisons de choisir Spark pour les traitements de vos Big Data
Rapide, efficace, riche, adaptable… Spark a le vent en poupe pour tout ce qui concerne les traitements Big Data ! Voici 5 bonnes raisons pour lesquelles ce système de traitement de données open source n’est pas une mode… Spark est la solution à la mode dans le monde complexe du Big Data. Mais connaissez-vous réellement les…

Faut-il tomber amoureux de MongoDB ?
A l’occasion d’un projet d’analyse des logs de web services réalisé pour un client, nous avons été amené à tester MongoDB… et j’avoue que je suis tombé sous le charme de cet outil aussi simple que puissant. Décryptage de ce béguin soudain. Prise en main ultra-rapide de MongoDB MongoDB est une solution Big Data de type…

Tutoriel: visualiser les données twitter avec Qlik Sense
Après avoir vu dans l’article précédent comment récupérer les données Twitter avec Flume et Hive, j’ai voulu aller jusqu’à la visualisation des données. Pour se faire, j’ai utilisé Hive pour calculer quelques indicateurs de sentiment. Le principe repose sur l’utilisation d’une table de mots clés classés comme positif, neutre ou négatif. Il suffit ensuite d’analyser la syntaxe (dans…

Analyser les données Twitter avec Flume et Hive
L’objectif de ce tutoriel est de vous montrer comment utiliser Flume et Hive pour analyser des données en provenance de Twitter. Il a également pour objectif de mettre en évidence les difficultés que l’on rencontre actuellement avec des plateformes Big Data en évolution rapide mais pas toujours stabilisées, d’où l’importance de disposer d’une expertise suffisante…

Il était une fois dans le SQL sous Hadoop
Si MapReduce s’impose pour traiter de grands volumes de données en mode batch, si Storm apparait comme le meilleur moteur d’intégration temps-réel, les choses sont beaucoup moins claires dans le domaine de l’analyse de données. Déçu par les performances de Hive qui sont loin des standards habituels de la Business Intelligence, de nombreuses initiatives ont été lancées afin de proposer des…

Installer soi-même un cluster Hadoop (1 nœud)
Vous avez sûrement lu de nombreux articles sur Hadoop et vous souhaitez maintenant vous familiariser avec. Mais comment faire pour apprivoiser cette nouvelle technologie ? L’approche recommandée consiste à installer une machine virtualisée fournie clé en main par les principaux éditeurs de distribution. Une autre approche, plus technique, consiste à installer soi-même Hadoop sur une seule machine (cluster…

Trois tutoriels pour démarrer avec Hadoop
On trouve énormément d’articles sur le Big Data mais il est parfois frustrant de n’aborder que les concepts. Certaines personnes, comme moi, ont besoin de visualiser les outils pour appréhender de nouvelles technologies. A cette fin, j’ai compilé 3 courtes vidéos sur Hadoop pour démystifier la chose. Les exemples sont tirés d’un POC (Proof of…

Les solutions technologiques du Big Data
Cet article présente les solutions technologiques du Big Data. C'est le troisième d'une série de trois sur le thème "De la BI au Big Data".

Le Big Data repousse les limites de la loi de Moore
Le Big Data apparaît aujourd’hui comme une continuité logique et une évolution naturelle du décisionnel. Après avoir rappelé dans le précédent article les fondamentaux de la BI, cet article se propose de faire un retour sur les limites de la loi de Moore et l’impact sur les architectures décisionnelles. C’est le deuxième article d’une série de trois sur le thème…

Les fondamentaux de la Business Intelligence
Le Big Data apparaît aujourd’hui comme une continuité logique et une évolution naturelle du décisionnel. Cet article se propose de faire un retour sur les fondamentaux de la Business Intelligence et ce qui a fait son succès. C’est le premier article d’une série de trois sur le thème « De la BI au Big Data ». Les principes de la Business…