Packt

Construire des applications de données modernes en utilisant Databricks Lakehouse

Profitez de l'une de nos meilleures offres et renforcez vos compétences avec 50 % de réduction sur Coursera Plus. Économisez maintenant.

Packt

Construire des applications de données modernes en utilisant Databricks Lakehouse

Inclus avec Coursera Plus

Demander à Coursera

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Débutant

Expérience recommandée

1 semaine à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Débutant

Expérience recommandée

1 semaine à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Déployer des pipelines de données en temps quasi réel à l'aide de Delta Live Tables

  • Orchestrer les pipelines de données avec les workflows Databricks

  • Mettre en œuvre la validation des données et contrôler leur qualité

Compétences que vous acquerrez

  • Catégorie : Gestion des données
  • Catégorie : Intégrité des données
  • Catégorie : Évolutivité
  • Catégorie : Validation des données
  • Catégorie : Qualité des données
  • Catégorie : Infrastructure de données
  • Catégorie : Stockage des données
  • Catégorie : Architecture des données
  • Catégorie : Données en temps réel
  • Catégorie : Gouvernance des données
  • Catégorie : Informatique en nuage
  • Catégorie : Sécurité des données
  • Catégorie : Transformation des données
  • Catégorie : Pipelines de données

Outils que vous découvrirez

  • Catégorie : Lacs de données
  • Catégorie : Apache Spark
  • Catégorie : Databricks
  • Catégorie : Terraform

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

10 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Il y a 10 modules dans ce cours

Dans cette section, nous explorons les pipelines de données en temps réel avec Delta Live Tables (DLT), analysons l'architecture Delta Lake et concevons des solutions de streaming évolutives pour les environnements Lakehouse

Inclus

2 vidéos6 lectures1 devoir

Dans cette section, nous abordons l'ingestion de données avec la DLT, l'application de modifications et la configuration de pipelines pour l'évolutivité.

Inclus

1 vidéo6 lectures1 devoir

Dans cette section, nous examinons la mise en œuvre des attentes en matière de qualité des données dans les pipelines DLT, la validation de l'intégrité des données avec des ensembles de données temporaires et la mise en quarantaine des données de mauvaise qualité en vue de leur correction.

Inclus

1 vidéo4 lectures1 devoir

Dans cette section, nous abordons la mise à l'échelle des pipelines DLT par le biais de l'optimisation des clusters, de la mise à l'échelle automatique et des techniques Delta Lake.

Inclus

1 vidéo4 lectures1 devoir

Dans cette section, nous explorons la mise en œuvre de la gouvernance des données dans un Lakehouse à l'aide d'Unity Catalog, en nous concentrant sur les contrôles d'accès, la découverte des données et le suivi de la lignée pour la conformité et la sécurité.

Inclus

1 vidéo7 lectures1 devoir

Dans cette section, nous abordons la gestion des emplacements de stockage des données dans Unity Catalog avec une gouvernance et un contrôle d'accès sécurisés.

Inclus

1 vidéo3 lectures1 devoir

Dans cette section, nous explorons le lignage des données dans Unity Catalog, en retraçant les origines, en visualisant les transformations et en identifiant les dépendances pour garantir l'intégrité des données et la détection proactive des problèmes.

Inclus

1 vidéo3 lectures1 devoir

Dans cette section, nous couvrons le déploiement et la gestion des pipelines DLT à l'aide de Terraform dans Databricks.

Inclus

1 vidéo4 lectures1 devoir

Dans cette section, nous explorons les Databricks Asset Bundles (DAB) pour rationaliser le déploiement des pipelines de données, en mettant l'accent sur l'intégration GitHub, le contrôle des versions et la collaboration entre équipes.

Inclus

1 vidéo4 lectures1 devoir

Dans cette section, nous explorons la surveillance des pipelines de données à l'aide de Databricks, en nous concentrant sur la santé, les performances et la qualité des données. Les techniques incluent les alertes DBSQL et les déclencheurs webhook pour la résolution des problèmes en temps réel.

Inclus

1 vidéo4 lectures1 devoir

Instructeur

Packt - Course Instructors
Packt
1 946 Cours578 447 apprenants

Offert par

Packt

En savoir plus sur Analyse des données

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions