Coursera

Ingénierie des données et fiabilité des pipelines pour l'apprentissage automatique

Profitez de l'une de nos meilleures offres et renforcez vos compétences avec 50 % de réduction sur Coursera Plus. Économisez maintenant.

Coursera

Ingénierie des données et fiabilité des pipelines pour l'apprentissage automatique

Inclus avec Coursera Plus

Demander à Coursera

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

9 heures à compléter
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

9 heures à compléter
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Transformer et valider les données destinées à l'apprentissage automatique à l'aide de techniques d'encodage, de nettoyage et d'assurance qualité des données

  • Concevoir et coordonner des pipelines de données d'apprentissage automatique garantissant la fiabilité, l'actualité et les performances des pipelines

  • Gérer le développement reproductible en apprentissage automatique à l'aide d'outils de contrôle de version et de gestion d'environnement

Compétences que vous acquerrez

  • Catégorie : Traitement des données
  • Catégorie : MLOps (Machine Learning Operations)
  • Catégorie : Pipelines de données
  • Catégorie : Gestion des paquets et des logiciels
  • Catégorie : Intégration des données
  • Catégorie : Environnement de développement
  • Catégorie : Transformation des données
  • Catégorie : Ingénierie des fonctionnalités
  • Catégorie : Assurance qualité
  • Catégorie : Qualité des données
  • Catégorie : Prétraitement des données
  • Catégorie : Nettoyage des données
  • Catégorie : Gestion des coûts
  • Catégorie : Flux de données
  • Catégorie : Extraire, transformer, charger
  • Catégorie : Environnement virtuel
  • Catégorie : Analyse exploratoire des données
  • Catégorie : Utilisation des ressources

Outils que vous découvrirez

  • Catégorie : Flux d'air Apache
  • Catégorie : Git (système de contrôle de version)

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

mars 2026

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "L'apprentissage automatique simplifié pour les ingénieurs logiciels"
Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable

Il y a 10 modules dans ce cours

Vous analyserez les caractéristiques catégorielles afin de déterminer la stratégie d'encodage optimale en tenant compte de la cardinalité et de l'adéquation du modèle.

Inclus

2 vidéos2 lectures1 devoir

Vous évaluerez les indicateurs de qualité des données et documenterez la traçabilité de la transformation des données afin de garantir la transparence et la fiabilité.

Inclus

1 vidéo1 lecture1 devoir

Vous mettrez en œuvre des techniques permettant d'imputer, de signaler et de valider les valeurs manquantes ou nulles afin de produire des ensembles de données cohérents et prêts à être utilisés dans des modèles.

Inclus

1 vidéo1 lecture2 devoirs

Vous mettrez en œuvre des pipelines ETL et ELT afin d'intégrer des données provenant de diverses sources dans un entrepôt de caractéristiques à l'aide de workflows de transformation structurés.

Inclus

2 vidéos1 lecture1 devoir

Vous analyserez les modifications apportées aux schémas en amont et mettrez en place des mesures de protection afin de garantir la résilience du pipeline de données et la compatibilité en aval.

Inclus

2 vidéos1 lecture

Vous évaluerez la fraîcheur des données, les retards et les taux de réussite des pipelines par rapport aux accords de niveau de service afin d'évaluer la fiabilité opérationnelle.

Inclus

1 vidéo1 lecture3 devoirs

Vous mettrez en œuvre des stratégies de gestion des branches dans le cadre du contrôle de version afin de gérer efficacement le code, les expériences et les artefacts du projet.

Inclus

3 vidéos1 lecture2 devoirs

Vous utiliserez des outils d'environnement virtuel pour configurer des environnements de projet reproductibles avec des dépendances stables.

Inclus

2 vidéos1 lecture1 laboratoire non noté

Vous analyserez l'utilisation des ressources (CPU, GPU et mémoire) afin d'optimiser les coûts de calcul lors des phases d'expérimentation.

Inclus

2 vidéos1 lecture2 devoirs

Dans le cadre de ce projet, vous devrez concevoir et mettre en œuvre un pipeline de données d’apprentissage automatique de type production pour un scénario de modélisation des risques dans le secteur des services financiers. L’ensemble de données brutes contient des valeurs manquantes, des entrées catégorielles incohérentes, des valeurs aberrantes potentielles et une dérive de schéma simulée. Votre mission consiste à transformer cet ensemble de données en un magasin de caractéristiques validé et prêt à être utilisé par un modèle. Vous devrez nettoyer et prétraiter des données tabulaires structurées, sélectionner des stratégies d’encodage en fonction de la cardinalité des caractéristiques, mettre en œuvre la validation des données à l’aide de Great Expectations, détecter les changements de schéma entre les exécutions du pipeline, générer des métriques SLA pour évaluer la fiabilité, et enregistrer les caractéristiques traitées au format Parquet. Au-delà du pipeline CORE, vous appliquerez également des pratiques de développement professionnelles couramment utilisées au sein des équipes de ML en production : mise en place d’un environnement virtuel pour garantir la reproductibilité, utilisation de stratégies de branchement de contrôle de version pour gérer votre travail, et analyse de l’utilisation des ressources pour comprendre les coûts de calcul. Votre livrable final consistera en un script Python modulaire et une explication technique écrite structurée démontrant votre capacité à concevoir une infrastructure de données d’apprentissage automatique fiable et adaptée à la production.

Inclus

2 lectures1 devoir

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Professionals from the Industry
484 Cours110 888 apprenants

Offert par

Coursera

En savoir plus sur Gestion des données

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions

¹ Certains travaux de ce cours sont notés par l'IA. Pour ces travaux, vos Données internes seront utilisées conformément à Notification de confidentialité de Coursera.