Tutoriels outils et langages data

Snowflake : pourquoi et comment coder directement en Python ?

Snowflake, la plateforme d’hébergement de données dans le cloud est reconnue pour sa puissance, sa flexibilité et sa sécurité. Elle offre un large éventail de services pour stocker, analyser, partager des données, et permet désormais aux développeurs de coder directement en Python depuis son interface. On fait le point… Snowflake s’appuie sur les principaux fournisseurs…

Snowflake : les Dynamic Tables peuvent-elles remplacer les ETL/ELT ?

Après toutes les annonces de Snowflake lors du Summit et Snow Day de l’année dernière, les nouvelles fonctionnalités arrivent progressivement en General Availibility. C’est désormais au tour des Dynamic Tables, et nous allons donc nous y attarder pour comprendre ce qu’elles peuvent apporter comme cas d’usage et surtout comment les mettre en place. C’est parti !…

Certification éditeur : vos projets, vos clients et vous avez tout à y gagner

« J’ai le plaisir de vous annoncer que j’ai obtenu une nouvelle certification XX (insérer ici un éditeur 😉 ) » est devenu un post récurent sur les réseaux sociaux comme LinkedIn. Les certifications sont un sujet à part entière dans le monde informatique, et les avis sont souvent tranchés ! Alors faut-il se certifier ? Alerte spoil, dans cet…

Certification Databricks Certified Associate Developer for Apache Spark : comment la passer avec brio ?

Dans ce guide, je vous partage mon expérience personnelle sur la préparation et le passage de la certification Databricks Certified Associate Developer for Apache Spark, ainsi que mes conseils pour la réussir. À vous de jouer ! Je commencerai par une présentation générale de la certification, puis vous expliquerai comment réviser cette certification et, pour terminer,…

Move2cloud : et si c’était le moment de repenser vos dashboards ?

Les avantages du cloud ne sont aujourd’hui plus à prouver. L’élasticité, les coûts réduits, la maintenance simplifiée des serveurs ont déjà convaincu grand nombre d’entreprises de migrer leurs plateformes data dans le cloud. Pour bénéficier d’avantages encore plus nombreux, les entreprises migrent également leurs solutions de restitution des données vers le cloud, en 4 étapes.…

Utiliser les API REST de Microsoft Power BI avec Power BI Report Server

Comme promis lors d’un précédent article « Utiliser Power BI pour monitorer… Power BI », voici un tutoriel destiné à vous expliquer comment utiliser les API REST de Microsoft Power BI, mais avec la contrainte de l’environnement Report Server. C’est parti ! La documentation Microsoft indique en préambule que « les API REST Power BI fournissent des points de…

Move2cloud : Tests de non-régression ? Arrêtez de perdre du temps !

De plus en plus d’entreprises migrent vers le cloud pour bénéficier de ses avantages. Elasticité, scalabilité, performances, coût à l’usage… La Data est alors extraite des bases de données On Premise et envoyée vers le nouveau socle technique (Snowflake, GCP, Azure, AWS…). Dans cet article, nous verrons comment accélérer vos tests de non-régression, étape primordiale…

Utiliser Power BI pour monitorer… Power BI !

Vous êtes responsable de la gestion d’un environnement Power BI ? Des statistiques sur vos rapports Power BI vous aideraient à démontrer votre impact, à prioriser la mise en avant de rapports, ou à améliorer les performances d’actualisation et/ou d’utilisation. Pourquoi alors ne pas utiliser Power BI pour monitorer Power BI ?! Les données de Power BI…

Cas d’usage : créer un accélérateur de migration Data As Code

Dans le cadre d’une migration/standardisation d’un patrimoine applicatif de Cloudera v6 vers Cloudera Data Platform v7, et au vu du nombre de projets (~70) écrits en Spark-Scala ou PySpark-Python à porter, nous avons choisi de développer un programme pour automatiser une partie des transformations : changement des noms des tables, des chemins HDFS, nom de projet,……

EL, ELT et ETL : savez-vous différencier ces processus de traitement de données ?

Dans le monde de la Data, on rencontre régulièrement les termes EL, ELT et ETL. Ce sont 3 acronymes qui se ressemblent, et signifient : Extract and Load (EL), Extract, Load, and Transform (ELT) et Extract, Transform, and Load (ETL). Ils expriment surtout des processus de traitement de la donnée bien différents que nous allons aborder…

Supervision opérationnelle d’une plateforme Big Data Hadoop : les 5 étapes du processus

Dans ce nouvel article dédié à la question du monitoring technique et opérationnel d’une plateforme Big Data Hadoop, sous Horton Works (HDP) ou Cloudera (CDH), et désormais avec Cloudera Data Platform (CDP) ou des alternatives sous Kubernetes, nous allons entrer dans le détail des différentes étapes du processus de la supervision opérationnelle. Cette seconde partie…

Supervision opérationnelle d’une plateforme Big Data Hadoop : périmètres et grands principes

Dans cet article, nous allons aborder la question du monitoring technique et opérationnel d’une plateforme Big Data Hadoop, sous Hortonworks (HDP) ou Cloudera (CDH), et désormais avec Cloudera Data Platform (CDP) ou des alternatives sous Kubernetes. Le sujet étant vaste, nous avons réparti l’effort dans 2 articles. Ce premier article va permettre d’introduire le sujet,…

Spark Structured Streaming : les tests de performance

Spark est un framework open source de calcul distribué. Plus performant qu’hadoop, disponible avec trois langages principaux (Scala, Java, Python), il s’est rapidement taillé une place de choix au sein des projets Big Data pour le traitement massif de données aussi bien en batch qu’en streaming. Depuis la version 2.0, Spark propose une nouvelle approche…

Apache Kafka expliqué à mes grands-parents

Quand on travaille dans le secteur des nouvelles technologies (souvent abstraites et complexes), ce n’est pas toujours simple d’expliquer le travail que nous réalisons ou encore le fonctionnement d’un programme. Je me suis donc prêté à un exercice de vulgarisation sur Apache Kafka avec comme objectif de pouvoir le faire comprendre à mes grands-parents. J’aime…

Spark Structured Streaming : de la transformation des données aux tests unitaires

Spark est un framework open source de calcul distribué. Plus performant qu’Hadoop, disponible avec trois langages principaux (Scala, Java, Python), il s’est rapidement taillé une place de choix au sein des projets Big Data pour le traitement massif de données aussi bien en batch qu’en streaming. Depuis la version 2.0, Spark propose une nouvelle approche…

BigQuery et Data quality testing : comment centraliser vos tests et les industrialiser

Les utilisateurs de la Data ont besoin de données fiables, et pour les satisfaire nous pouvons être amenés à créer des requêtes SQL tous azimuts. On prend alors le risque de ne pas versionner, de mal coopérer, de faire ramer le serveur… Des solutions existent pour centraliser nos tests et les industrialiser. Ce tutoriel va…