Tous les articles de Cédric Le Penmelen
IoT et objets connectés
[Data Rider] Booster Mario Kart à l’IoT et à l’IA – Étape 1 : collecter les données IoT en temps réel
Imaginez un projet qui combine la vélocité de l’IOT, la fluidité du streaming de données, la robustesse de la conteneurisation et la puissance de l’IA. Ce projet utilise notre expertise et la transforme en quelque chose de palpable, quelque chose qui nous fait tous retomber en enfance… Bienvenue dans l’univers de Data Rider ! Un circuit…
Tutoriels outils et langages data
Certification Databricks Certified Associate Developer for Apache Spark : comment la passer avec brio ?
Dans ce guide, je vous partage mon expérience personnelle sur la préparation et le passage de la certification Databricks Certified Associate Developer for Apache Spark, ainsi que mes conseils pour la réussir. À vous de jouer ! Je commencerai par une présentation générale de la certification, puis vous expliquerai comment réviser cette certification et, pour terminer,…
Tendances Data
Les Data Lake / Warehouse / Lakehouse / Mesh expliqués à mes grands-parents
Si vous baignez dans l’univers de la Data depuis un certain temps, vous avez sûrement croisé ces termes énigmatiques : Data Lake, Data Warehouse, Data Lakehouse et Data Mesh. Vous aimeriez bien démêler ce jargon anglophone et comprendre les concepts qui se cachent derrière ? Ou peut-être les maîtrisez-vous déjà sur le bout des doigts, mais vous…
Tutoriels outils et langages data
Cas d’usage : créer un accélérateur de migration Data As Code
Dans le cadre d’une migration/standardisation d’un patrimoine applicatif de Cloudera v6 vers Cloudera Data Platform v7, et au vu du nombre de projets (~70) écrits en Spark-Scala ou PySpark-Python à porter, nous avons choisi de développer un programme pour automatiser une partie des transformations : changement des noms des tables, des chemins HDFS, nom de projet,……
Tutoriels outils et langages data
EL, ELT et ETL : savez-vous différencier ces processus de traitement de données ?
Dans le monde de la Data, on rencontre régulièrement les termes EL, ELT et ETL. Ce sont 3 acronymes qui se ressemblent, et signifient : Extract and Load (EL), Extract, Load, and Transform (ELT) et Extract, Transform, and Load (ETL). Ils expriment surtout des processus de traitement de la donnée bien différents que nous allons aborder…
Tutoriels outils et langages data
Supervision opérationnelle d’une plateforme Big Data Hadoop : les 5 étapes du processus
Dans ce nouvel article dédié à la question du monitoring technique et opérationnel d’une plateforme Big Data Hadoop, sous Horton Works (HDP) ou Cloudera (CDH), et désormais avec Cloudera Data Platform (CDP) ou des alternatives sous Kubernetes, nous allons entrer dans le détail des différentes étapes du processus de la supervision opérationnelle. Cette seconde partie…
Tutoriels outils et langages data
Supervision opérationnelle d’une plateforme Big Data Hadoop : périmètres et grands principes
Dans cet article, nous allons aborder la question du monitoring technique et opérationnel d’une plateforme Big Data Hadoop, sous Hortonworks (HDP) ou Cloudera (CDH), et désormais avec Cloudera Data Platform (CDP) ou des alternatives sous Kubernetes. Le sujet étant vaste, nous avons réparti l’effort dans 2 articles. Ce premier article va permettre d’introduire le sujet,…
Tutoriels outils et langages data
Apache Kafka expliqué à mes grands-parents
Quand on travaille dans le secteur des nouvelles technologies (souvent abstraites et complexes), ce n’est pas toujours simple d’expliquer le travail que nous réalisons ou encore le fonctionnement d’un programme. Je me suis donc prêté à un exercice de vulgarisation sur Apache Kafka avec comme objectif de pouvoir le faire comprendre à mes grands-parents. J’aime…
Solutions technologiques
Java / Scala / Spark : avez-vous subi la casse de l’année ?
Les dates et l’encodage (ANSI, UTF-8, UTF-16) ont toujours été et restent des épines dans le pied des développeurs. Le bug de l’an 2000 est passé, mais nous avons tout de même subi une anomalie de date en fin d’année 2021 sur un de nos projets entre Noël et le premier de l’An. Que s’est-il…
Solutions technologiques
Pourquoi je développe en Spark-Scala pour mes projets Big Data ?
Spark est aujourd’hui un incontournable en Big Data pour préparer, traiter, agréger et modéliser de la donnée. En effet, ce framework open source est principalement utilisé pour faire du Data Engineering et de la DataScience. Comment l’utiliser pour vos projets Big Data ? Quels sont ses atouts et ses limites ? Réponses dans cet article. Spark est…