Qu'est-ce que je recevrai si je souscris à cette Specializations ?

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la spécialisation et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

Une aide financière est-elle disponible ?

Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien pour postuler sur la page de description.

Ingénierie des données et fiabilité des pipelines pour l'apprentissage automatique

Profitez de l'une de nos meilleures offres et renforcez vos compétences avec 50 % de réduction sur Coursera Plus. Économisez maintenant.

Ingénierie des données et fiabilité des pipelines pour l'apprentissage automatique

Ce cours fait partie de Spécialisation "L'apprentissage automatique simplifié pour les ingénieurs logiciels"

Instructeur : Professionals from the Industry

Inclus avec

Demander à Coursera

10 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Intermédiaire

Expérience recommandée

9 heures à compléter

Planning flexible

Apprenez à votre propre rythme

10 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Intermédiaire

Expérience recommandée

9 heures à compléter

Planning flexible

Apprenez à votre propre rythme

Ce que vous apprendrez

Transformer et valider les données destinées à l'apprentissage automatique à l'aide de techniques d'encodage, de nettoyage et d'assurance qualité des données
Concevoir et coordonner des pipelines de données d'apprentissage automatique garantissant la fiabilité, l'actualité et les performances des pipelines
Gérer le développement reproductible en apprentissage automatique à l'aide d'outils de contrôle de version et de gestion d'environnement

Compétences que vous acquerrez

Catégorie : Traitement des données
Catégorie : MLOps (Machine Learning Operations)
Catégorie : Pipelines de données
Catégorie : Gestion des paquets et des logiciels
Catégorie : Intégration des données
Catégorie : Environnement de développement
Catégorie : Transformation des données
Catégorie : Ingénierie des fonctionnalités
Catégorie : Assurance qualité
Catégorie : Qualité des données
Catégorie : Prétraitement des données
Catégorie : Nettoyage des données
Catégorie : Gestion des coûts
Catégorie : Flux de données
Catégorie : Extraire, transformer, charger
Catégorie : Environnement virtuel
Catégorie : Analyse exploratoire des données
Catégorie : Utilisation des ressources

Outils que vous découvrirez

Catégorie : Flux d'air Apache
Catégorie : Git (système de contrôle de version)

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

mars 2026

Évaluations

13 affectations¹

Noté par l'IA voir l'avis de non-responsabilité

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "L'apprentissage automatique simplifié pour les ingénieurs logiciels"

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 10 modules dans ce cours

Ce cours vous apprend à transformer des ensembles de données réels en ressources analytiques fiables grâce à des techniques pratiques et reproductibles de nettoyage des données. Vous apprendrez à évaluer les caractéristiques catégorielles et à sélectionner les stratégies d’encodage optimales, à mesurer et à documenter la qualité des données, ainsi qu’à appliquer des approches efficaces pour traiter les valeurs manquantes. À l’aide de Python et de pandas, vous vous exercerez à évaluer la cardinalité, à mettre en œuvre l’encodage cible, à valider l’exhaustivité avec Great Expectations et à établir une traçabilité transparente des transformations. Vous nettoierez également des champs hétérogènes tels que les âges, les valeurs aberrantes de salaire et les dates afin de garantir des résultats cohérents et prêts à être utilisés dans des modèles. Conçu pour les analystes, les ingénieurs de données et les professionnels du machine learning, ce cours vous dote des compétences professionnelles nécessaires pour préparer des ensembles de données de haute qualité permettant d’obtenir des informations fiables et de réaliser une modélisation prédictive.

Vous analyserez les caractéristiques catégorielles afin de déterminer la stratégie d'encodage optimale en tenant compte de la cardinalité et de l'adéquation du modèle.

Inclus

2 vidéos2 lectures1 devoir

2 vidéosTotal 11 minutes

Bienvenue et ce que le codage résout vraiment5 minutes
Les bases de la cardinalité et guide pratique du codage par cibles6 minutes

2 lecturesTotal 12 minutes

Les options d'encodage expliquées simplement8 minutes
Cadre décisionnel en matière de codage4 minutes

1 devoirTotal 10 minutes

Exercice pratique : choisir le bon encodeur pour les identifiants de produits10 minutes

Vous évaluerez les indicateurs de qualité des données et documenterez la traçabilité de la transformation des données afin de garantir la transparence et la fiabilité.

Inclus

1 vidéo1 lecture1 devoir

Vous mettrez en œuvre des techniques permettant d'imputer, de signaler et de valider les valeurs manquantes ou nulles afin de produire des ensembles de données cohérents et prêts à être utilisés dans des modèles.

Inclus

1 vidéo1 lecture2 devoirs

1 vidéoTotal 5 minutes

Pourquoi il y a des données manquantes et pourquoi y remédier relève d'un choix5 minutes

1 lectureTotal 8 minutes

Diagnostiquer et traiter les données manquantes avec rigueur 8 minutes

2 devoirsTotal 40 minutes

Exercice pratique : nettoyer et préparer un ensemble de données RH désorganisé20 minutes
Quiz gradué : Encodage, qualité et maîtrise des valeurs manquantes20 minutes

Vous mettrez en œuvre des pipelines ETL et ELT afin d'intégrer des données provenant de diverses sources dans un entrepôt de caractéristiques à l'aide de workflows de transformation structurés.

Inclus

2 vidéos1 lecture1 devoir

2 vidéosTotal 11 minutes

Pourquoi les approches ETL et ELT sont-elles importantes pour les pipelines d'apprentissage automatique ?6 minutes
Orchestration des pipelines quotidiens avec Airflow5 minutes

1 lectureTotal 8 minutes

Modèles ETL et ELT dans les systèmes modernes d'apprentissage automatique8 minutes

1 devoirTotal 20 minutes

Exercice pratique : concevoir un graphe orienté directionnel (DAG) représentant les flux d'air quotidiens20 minutes

Vous analyserez les modifications apportées aux schémas en amont et mettrez en place des mesures de protection afin de garantir la résilience du pipeline de données et la compatibilité en aval.

Inclus

2 vidéos1 lecture

Vous évaluerez la fraîcheur des données, les retards et les taux de réussite des pipelines par rapport aux accords de niveau de service afin d'évaluer la fiabilité opérationnelle.

Inclus

1 vidéo1 lecture3 devoirs

1 vidéoTotal 4 minutes

Des cycles de traitement aux accords de niveau de service (SLA)4 minutes

1 lectureTotal 6 minutes

Une vue d'ensemble du pipeline : de l'ingestion aux SLA 6 minutes

3 devoirsTotal 75 minutes

Exercice pratique : interprétation des indicateurs de pipeline et détection des non-respects des SLA 15 minutes
Activité pratique : apprentissage automatique de bout en bout dans le cadre d'un atelier sur la fiabilité des pipelines40 minutes
Quiz noté : Évaluation de la conception et de la fiabilité d'un pipeline d'apprentissage automatique20 minutes

Vous mettrez en œuvre des stratégies de gestion des branches dans le cadre du contrôle de version afin de gérer efficacement le code, les expériences et les artefacts du projet.

Inclus

3 vidéos1 lecture2 devoirs

3 vidéosTotal 23 minutes

Vidéo de bienvenue et d'introduction au cours3 minutes
Comment les branchements Git soutiennent le développement ML6 minutes
Création d'une branche de fonctionnalité et gestion des artefacts14 minutes

1 lectureTotal 6 minutes

Comparaison des flux de travail Git : Ce qu'il faut savoir6 minutes

2 devoirsTotal 25 minutes

Activité pratique : Créer une branche de fonctionnalités et pousser des artefacts ML20 minutes
Quiz pratique : Branching Patterns, Commit Hygiene, Artifact Management5 minutes

Vous utiliserez des outils d'environnement virtuel pour configurer des environnements de projet reproductibles avec des dépendances stables.

Inclus

2 vidéos1 lecture1 laboratoire non noté

2 vidéosTotal 17 minutes

Comprendre les environnements virtuels pour le développement en apprentissage automatique6 minutes
Initialisation d'un projet Poetry et verrouillage des dépendances11 minutes

1 lectureTotal 6 minutes

Comprendre la spécification pyproject.toml 6 minutes

1 laboratoire non notéTotal 45 minutes

Créer un environnement de poésie reproductible pour votre workflow d'apprentissage automatique45 minutes

Vous analyserez l'utilisation des ressources (CPU, GPU et mémoire) afin d'optimiser les coûts de calcul lors des phases d'expérimentation.

Inclus

2 vidéos1 lecture2 devoirs

2 vidéosTotal 23 minutes

Comprendre les coûts de calcul dans le développement du machine learning8 minutes
Identifier les goulots d'étranglement au niveau des ressources et transférer les tâches vers des ressources de calcul moins coûteuses15 minutes

1 lectureTotal 6 minutes

Développement à distance avec VS Code pour les workflows d'apprentissage automatique 6 minutes

2 devoirsTotal 40 minutes

Exercice pratique : analyser les indicateurs relatifs aux ressources et proposer des mesures d'optimisation des coûts20 minutes
Quiz noté : Optimisation du développement en apprentissage automatique 20 minutes

Dans le cadre de ce projet, vous devrez concevoir et mettre en œuvre un pipeline de données d’apprentissage automatique de type production pour un scénario de modélisation des risques dans le secteur des services financiers. L’ensemble de données brutes contient des valeurs manquantes, des entrées catégorielles incohérentes, des valeurs aberrantes potentielles et une dérive de schéma simulée. Votre mission consiste à transformer cet ensemble de données en un magasin de caractéristiques validé et prêt à être utilisé par un modèle. Vous devrez nettoyer et prétraiter des données tabulaires structurées, sélectionner des stratégies d’encodage en fonction de la cardinalité des caractéristiques, mettre en œuvre la validation des données à l’aide de Great Expectations, détecter les changements de schéma entre les exécutions du pipeline, générer des métriques SLA pour évaluer la fiabilité, et enregistrer les caractéristiques traitées au format Parquet. Au-delà du pipeline CORE, vous appliquerez également des pratiques de développement professionnelles couramment utilisées au sein des équipes de ML en production : mise en place d’un environnement virtuel pour garantir la reproductibilité, utilisation de stratégies de branchement de contrôle de version pour gérer votre travail, et analyse de l’utilisation des ressources pour comprendre les coûts de calcul. Votre livrable final consistera en un script Python modulaire et une explication technique écrite structurée démontrant votre capacité à concevoir une infrastructure de données d’apprentissage automatique fiable et adaptée à la production.

Inclus

2 lectures1 devoir

2 lecturesTotal 13 minutes

Pourquoi la fiabilité des pipelines de données est-elle essentielle dans les systèmes d'apprentissage automatique appliqués à la finance ? 6 minutes
Exigences du projet relatives au pipeline de données d'apprentissage automatique en production 7 minutes

1 devoirTotal 75 minutes

Mettre en place un pipeline de données d'apprentissage automatique prêt pour la production75 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Professionals from the Industry

484 Cours110 888 apprenants

Offert par

Coursera

En savoir plus sur Gestion des données

Statut : Essai gratuit
Coursera
Data Quality and Debugging for Reliable Pipelines
Cours
Statut : Essai gratuit
Coursera
Transform Data: Cleanse, Encode, Validate
Cours
Statut : Essai gratuit
Coursera
Orchestrate, Analyze, and Evaluate ML Pipelines
Cours
Statut : Essai gratuit
Coursera
Engineer, Validate, and Govern ML Data
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions

Ce cours s'adresse aux apprenants ayant déjà une certaine expérience en programmation et en apprentissage automatique. Il porte sur les pratiques d'ingénierie utilisées pour mettre en place des pipelines de données fiables destinés aux systèmes d'apprentissage automatique.

Vous travaillerez avec des outils et des pratiques couramment utilisés dans l'ingénierie du machine learning, notamment des frameworks d'orchestration de pipelines de données, des systèmes de contrôle de version tels que Git, ainsi que des outils de gestion d'environnements reproductibles.

Les modèles d'apprentissage automatique reposent sur des données cohérentes et de haute qualité. Des pipelines fiables garantissent que les transformations de données sont reproductibles, évolutives et conservent leurs performances à mesure que les systèmes évoluent.

Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Plus de questions

Visitez le Centre d'Aide pour les Étudiants

Aide financière disponible,

¹ Certains travaux de ce cours sont notés par l'IA. Pour ces travaux, vos Données internes seront utilisées conformément à Notification de confidentialité de Coursera.