Coursera

Analyse et normalisation des données pour les pipelines de ML

Profitez de l'une de nos meilleures offres et renforcez vos compétences avec 50 % de réduction sur Coursera Plus. Économisez maintenant.

Coursera

Analyse et normalisation des données pour les pipelines de ML

Aseem Singhal
Starweaver

Instructeurs : Aseem Singhal

Inclus avec Coursera Plus

Demander à Coursera

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

4 heures à compléter
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

4 heures à compléter
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Créez des analyseurs CSV performants à l'aide de bibliothèques Java intégrant le mappage d'objets, la gestion des erreurs et le traitement en continu pour plus de 100 000 enregistrements.

  • Créez des pipelines de nettoyage des données intégrant plusieurs algorithmes de mise à l'échelle, la gestion des valeurs aberrantes et des paramètres sérialisables afin d'assurer la cohérence entre l'entraînement et l'inférence.

  • Concevoir des pipelines modulaires à l'aide de modèles de construction qui enchaînent les opérations, avec un suivi et l'intégration d'un framework d'apprentissage automatique pour les données à grande échelle.

Compétences que vous acquerrez

  • Catégorie : Traitement des données
  • Catégorie : Nettoyage des données
  • Catégorie : Pipelines de données
  • Catégorie : Traitement des données
  • Catégorie : Transformation des données
  • Catégorie : Intégrité des données
  • Catégorie : Java
  • Catégorie : Accès aux données
  • Catégorie : Qualité des données
  • Catégorie : Importation/exportation de données
  • Catégorie : Big Data
  • Catégorie : Contrôle continu
  • Catégorie : Ingénierie des fonctionnalités
  • Catégorie : Prétraitement des données
  • Catégorie : Modèle de formation
  • Catégorie : Validation des données

Outils que vous découvrirez

  • Catégorie : Déploiement du modèle
  • Catégorie : Programmation Java
  • Catégorie : Workflows d'IA

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

1 devoir

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "Level Up : Apprentissage automatique basé sur Java"
Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable

Il y a 3 modules dans ce cours

Ce module pose les bases d'une ingestion de données robuste en apprenant aux participants à analyser efficacement des fichiers délimités de grande taille à l'aide de bibliothèques Java conformes aux normes du secteur. Les étudiants maîtriseront les compétences essentielles nécessaires pour transformer des données brutes au format CSV/TSV en objets Java fortement typés, tout en gérant des défis concrets tels que les problèmes d'encodage des caractères, les valeurs manquantes et l'optimisation de la mémoire pour des ensembles de données dépassant les 100 000 enregistrements.

Inclus

4 vidéos3 lectures

Ce module est axé sur la mise en œuvre de pipelines complets de nettoyage et de transformation des données, destinés à préparer les caractéristiques brutes afin d'optimiser les performances des modèles d'apprentissage automatique. Les apprenants créeront des outils de normalisation statistique à l'aide de divers algorithmes de mise à l'échelle, mettront au point des stratégies robustes pour traiter les valeurs aberrantes et les valeurs manquantes, et créeront des paramètres de transformation sérialisables garantissant un prétraitement cohérent des données entre les environnements d'entraînement et de production.

Inclus

3 vidéos2 lectures

Ce module intègre des fonctionnalités d'analyse syntaxique et de normalisation dans des workflows de prétraitement modulaires destinés aux entreprises, en s'appuyant sur des modèles de conception Java avancés. Les étudiants apprendront à concevoir des pipelines prêts à l'emploi selon les principes de la programmation fonctionnelle, à mettre en œuvre des systèmes complets de surveillance et de gestion des erreurs, et à intégrer de manière transparente leurs solutions de traitement des données aux frameworks Java de machine learning les plus courants, tout en garantissant des performances optimales pour les déploiements à grande échelle.

Inclus

4 vidéos3 lectures1 devoir

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Aseem Singhal
Coursera
13 Cours8 930 apprenants

Offert par

Coursera

En savoir plus sur Analyse des données

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions