Photo Cédric L Cédric Le Penmelen Business Decision

Passionné de nouvelles technologies et de challenges, j’ai rapidement été attiré par l’univers immense du Big Data. Après des expériences de développement mobile et web, puis en eCRM et en BI, j’ai enfin trouvé le domaine qui me permet de combiner à la fois du développement, de la donnée, du fonctionnel et des challenges forts !

Tous les articles de Cédric Le Penmelen

Projet Data Rider : la vélocité de l'IoT combinée à la puissance de l'IA

[Data Rider] Booster Mario Kart à l’IoT et à l’IA – Étape 1 : collecter les données IoT en temps réel

Imaginez un projet qui combine la vélocité de l’IOT, la fluidité du streaming de données, la robustesse de la conteneurisation et la puissance de l’IA. Ce projet utilise notre expertise et la transforme en quelque chose de palpable, quelque chose qui nous fait tous retomber en enfance… Bienvenue dans l’univers de Data Rider ! Un circuit…

Certification Databricks Certified Associate Developer for Apache Spark : comment la passer avec brio ?

Certification Databricks Certified Associate Developer for Apache Spark : comment la passer avec brio ?

Dans ce guide, je vous partage mon expérience personnelle sur la préparation et le passage de la certification Databricks Certified Associate Developer for Apache Spark, ainsi que mes conseils pour la réussir. À vous de jouer ! Je commencerai par une présentation générale de la certification, puis vous expliquerai comment réviser cette certification et, pour terminer,…

Les Data Lake / Warehouse / Lakehouse / Mesh expliqués à mes grands-parents

Les Data Lake / Warehouse / Lakehouse / Mesh expliqués à mes grands-parents

Si vous baignez dans l’univers de la Data depuis un certain temps, vous avez sûrement croisé ces termes énigmatiques : Data Lake, Data Warehouse, Data Lakehouse et Data Mesh. Vous aimeriez bien démêler ce jargon anglophone et comprendre les concepts qui se cachent derrière ? Ou peut-être les maîtrisez-vous déjà sur le bout des doigts, mais vous…

Cas d'usage : créer un accélérateur de migration Data As Code

Cas d’usage : créer un accélérateur de migration Data As Code

Dans le cadre d’une migration/standardisation d’un patrimoine applicatif de Cloudera v6 vers Cloudera Data Platform v7, et au vu du nombre de projets (~70) écrits en Spark-Scala ou PySpark-Python à porter, nous avons choisi de développer un programme pour automatiser une partie des transformations : changement des noms des tables, des chemins HDFS, nom de projet,……

EL, ELT et ETL : savez-vous différencier ces processus de traitement de données ?

EL, ELT et ETL : savez-vous différencier ces processus de traitement de données ?

Dans le monde de la Data, on rencontre régulièrement les termes EL, ELT et ETL. Ce sont 3 acronymes qui se ressemblent, et signifient : Extract and Load (EL), Extract, Load, and Transform (ELT) et Extract, Transform, and Load (ETL). Ils  expriment surtout des processus de traitement de la donnée bien différents que nous allons aborder…

Supervision opérationnelle d'une plateforme Big Data Hadoop : les 5 étapes du processus

Supervision opérationnelle d’une plateforme Big Data Hadoop : les 5 étapes du processus

Dans ce nouvel article dédié à la question du monitoring technique et opérationnel d’une plateforme Big Data Hadoop, sous Horton Works (HDP) ou Cloudera (CDH), et désormais avec Cloudera Data Platform (CDP) ou des alternatives sous Kubernetes, nous allons entrer dans le détail des différentes étapes du processus de la supervision opérationnelle. Cette seconde partie…

Supervision opérationnelle d'une plateforme Big Data Hadoop : périmètres et grands principes

Supervision opérationnelle d’une plateforme Big Data Hadoop : périmètres et grands principes

Dans cet article, nous allons aborder la question du monitoring technique et opérationnel d’une plateforme Big Data Hadoop, sous Hortonworks (HDP) ou Cloudera (CDH), et désormais avec Cloudera Data Platform (CDP) ou des alternatives sous Kubernetes. Le sujet étant vaste, nous avons réparti l’effort dans 2 articles. Ce premier article va permettre d’introduire le sujet,…

Apache Kafka expliqué à mes grands-parents

Apache Kafka expliqué à mes grands-parents

Quand on travaille dans le secteur des nouvelles technologies (souvent abstraites et complexes), ce n’est pas toujours simple d’expliquer le travail que nous réalisons ou encore le fonctionnement d’un programme. Je me suis donc prêté à un exercice de vulgarisation sur Apache Kafka avec comme objectif de pouvoir le faire comprendre à mes grands-parents. J’aime…

Java / Scala / Spark : avez-vous subi la casse de l’année ?

Java / Scala / Spark : avez-vous subi la casse de l’année ?

Les dates et l’encodage (ANSI, UTF-8, UTF-16) ont toujours été et restent des épines dans le pied des développeurs. Le bug de l’an 2000 est passé, mais nous avons tout de même subi une anomalie de date en fin d’année 2021 sur un de nos projets entre Noël et  le premier de l’An. Que s’est-il…

Pourquoi je développe en Spark-Scala pour mes projets Big Data ?

Pourquoi je développe en Spark-Scala pour mes projets Big Data ?

Spark est aujourd’hui un incontournable en Big Data pour préparer, traiter, agréger et modéliser de la donnée. En effet, ce framework open source est principalement utilisé pour faire du Data Engineering et de la DataScience. Comment l’utiliser pour vos projets Big Data ? Quels sont ses atouts et ses limites ? Réponses dans cet article. Spark est…