Analyse et normalisation des données pour les pipelines de ML

Profitez de l'une de nos meilleures offres et renforcez vos compétences avec 50 % de réduction sur Coursera Plus. Économisez maintenant.

Analyse et normalisation des données pour les pipelines de ML

Ce cours fait partie de Spécialisation "Level Up : Apprentissage automatique basé sur Java"

Instructeurs : Aseem Singhal

Inclus avec

Demander à Coursera

3 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Intermédiaire

Expérience recommandée

4 heures à compléter

Planning flexible

Apprenez à votre propre rythme

3 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Intermédiaire

Expérience recommandée

4 heures à compléter

Planning flexible

Apprenez à votre propre rythme

Ce que vous apprendrez

Créez des analyseurs CSV performants à l'aide de bibliothèques Java intégrant le mappage d'objets, la gestion des erreurs et le traitement en continu pour plus de 100 000 enregistrements.
Créez des pipelines de nettoyage des données intégrant plusieurs algorithmes de mise à l'échelle, la gestion des valeurs aberrantes et des paramètres sérialisables afin d'assurer la cohérence entre l'entraînement et l'inférence.
Concevoir des pipelines modulaires à l'aide de modèles de construction qui enchaînent les opérations, avec un suivi et l'intégration d'un framework d'apprentissage automatique pour les données à grande échelle.

Compétences que vous acquerrez

Catégorie : Traitement des données
Catégorie : Nettoyage des données
Catégorie : Pipelines de données
Catégorie : Traitement des données
Catégorie : Transformation des données
Catégorie : Intégrité des données
Catégorie : Java
Catégorie : Accès aux données
Catégorie : Qualité des données
Catégorie : Importation/exportation de données
Catégorie : Big Data
Catégorie : Contrôle continu
Catégorie : Ingénierie des fonctionnalités
Catégorie : Prétraitement des données
Catégorie : Modèle de formation
Catégorie : Validation des données

Outils que vous découvrirez

Catégorie : Déploiement du modèle
Catégorie : Programmation Java
Catégorie : Workflows d'IA

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

1 devoir

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "Level Up : Apprentissage automatique basé sur Java"

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 3 modules dans ce cours

Un prétraitement inadéquat des données est à l'origine de 80 % des échecs de production en apprentissage automatique, ce qui rend la qualité des données plus cruciale que le choix de l'algorithme. Cette formation complète permet aux développeurs Java d'acquérir les compétences essentielles pour créer des pipelines de prétraitement de niveau entreprise, capables de transformer des données brutes issues du monde réel en caractéristiques prêtes pour l'apprentissage automatique. Grâce à des travaux pratiques utilisant OpenCSV et Apache Commons CSV, vous maîtriserez les techniques d’analyse de grands ensembles de données tout en mettant en œuvre des stratégies de normalisation, notamment la mise à l’échelle Min-Max et la standardisation par score Z.

Vous concevrez des workflows modulaires à l’aide de modèles de construction s’intégrant aux frameworks d’apprentissage automatique Java tels que Weka et DL4J. Des dialogues interactifs avec un Coach simulent des scénarios de production réels, notamment le débogage des défaillances de pipeline et la résolution des problèmes de performances des modèles dans le cadre des contraintes d’entreprise. Ce cours est idéal pour les futurs data scientists, ingénieurs en apprentissage automatique et analystes de données qui souhaitent approfondir leur compréhension du prétraitement des données. Il est également utile aux développeurs logiciels travaillant sur des projets d’apprentissage automatique ou à toute personne cherchant à améliorer la qualité des données à des fins d’analyse et de modélisation. Les apprenants doivent posséder des compétences intermédiaires en programmation Java, une solide maîtrise des concepts orientés objet, des connaissances de base en structures de données et en E/S de fichiers, ainsi qu’une compréhension fondamentale des principes de l’apprentissage automatique, tels que les caractéristiques et les ensembles de données d’entraînement et de test. Une bonne connaissance des outils de construction tels que Maven ou Gradle sera également utile pour gérer et exécuter efficacement les projets. À l’issue de ce cours, vous serez en mesure de créer en toute confiance des pipelines de prétraitement garantissant l’intégrité des données, du développement à la production, de mettre en œuvre des techniques de validation permettant de détecter la dérive des données, et de créer des systèmes de surveillance assurant des performances constantes à grande échelle. Ce cours vous apporte l’expertise pratique nécessaire pour éliminer les problèmes de qualité des données qui affectent la plupart des projets d’apprentissage automatique.

Ce module pose les bases d'une ingestion de données robuste en apprenant aux participants à analyser efficacement des fichiers délimités de grande taille à l'aide de bibliothèques Java conformes aux normes du secteur. Les étudiants maîtriseront les compétences essentielles nécessaires pour transformer des données brutes au format CSV/TSV en objets Java fortement typés, tout en gérant des défis concrets tels que les problèmes d'encodage des caractères, les valeurs manquantes et l'optimisation de la mémoire pour des ensembles de données dépassant les 100 000 enregistrements.

Inclus

4 vidéos3 lectures

4 vidéosTotal 29 minutes

Bienvenue dans le module « Analyse et normalisation des données pour les pipelines d'apprentissage automatique »4 minutes
Introduction et configuration de l'ensemble de données8 minutes
Notions de base sur l'analyse syntaxique8 minutes
Mappage des enregistrements vers des objets Java9 minutes

3 lecturesTotal 35 minutes

Bienvenue au cours : Aperçu du cours5 minutes
Traitement CSV en parallèle : problèmes de sécurité inter-threads pouvant corrompre les structures de données partagées5 minutes
Apprentissage pratique (HOL) : analyseur de données sur les patients hospitalisés25 minutes

Ce module est axé sur la mise en œuvre de pipelines complets de nettoyage et de transformation des données, destinés à préparer les caractéristiques brutes afin d'optimiser les performances des modèles d'apprentissage automatique. Les apprenants créeront des outils de normalisation statistique à l'aide de divers algorithmes de mise à l'échelle, mettront au point des stratégies robustes pour traiter les valeurs aberrantes et les valeurs manquantes, et créeront des paramètres de transformation sérialisables garantissant un prétraitement cohérent des données entre les environnements d'entraînement et de production.

Inclus

3 vidéos2 lectures

3 vidéosTotal 24 minutes

Pourquoi normaliser les données ?7 minutes
Mise en œuvre d'un utilitaire de normalisation8 minutes
Gérer les problèmes liés aux données issues du monde réel9 minutes

2 lecturesTotal 30 minutes

HOL : Le chaos des données de prévision des prix de l'immobilier 25 minutes
Une mise à l'échelle statistique ratée : quand la normalisation nuit aux performances du modèle5 minutes

Ce module intègre des fonctionnalités d'analyse syntaxique et de normalisation dans des workflows de prétraitement modulaires destinés aux entreprises, en s'appuyant sur des modèles de conception Java avancés. Les étudiants apprendront à concevoir des pipelines prêts à l'emploi selon les principes de la programmation fonctionnelle, à mettre en œuvre des systèmes complets de surveillance et de gestion des erreurs, et à intégrer de manière transparente leurs solutions de traitement des données aux frameworks Java de machine learning les plus courants, tout en garantissant des performances optimales pour les déploiements à grande échelle.

Inclus

4 vidéos3 lectures1 devoir

4 vidéosTotal 31 minutes

Conception d'un pipeline de données en Java8 minutes
Mise en œuvre et intégration du pipeline9 minutes
Optimisation des performances et intégration du machine learning11 minutes
Synthèse du cours2 minutes

3 lecturesTotal 90 minutes

HOL : Conception d'un cadre de développement sécurisé pour l'IA destiné à TechNova Inc. 25 minutes
Architecture des pipelines de données d'entreprise : les enseignements tirés de Netflix et d'Uber5 minutes
Projet sans notation : Pipeline de prédiction des chances de survie lors du naufrage du Titanic 60 minutes

1 devoirTotal 20 minutes

Analyse et normalisation des données pour les pipelines de ML20 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Aseem Singhal

Coursera

13 Cours8 930 apprenants

Offert par

Coursera

En savoir plus sur Analyse des données

Statut : Essai gratuit
Coursera
Engineer, Validate, and Govern ML Data
Cours
Statut : Essai gratuit
Coursera
Test & Debug Java ML Pipelines
Cours
Statut : Essai gratuit
Coursera
Orchestrate, Analyze, and Evaluate ML Pipelines
Cours
Statut : Essai gratuit
Coursera
Choose Optimal Data Structures for ML
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions

Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la spécialisation et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien pour postuler sur la page de description.

Plus de questions

Visitez le Centre d'Aide pour les Étudiants

Aide financière disponible,