Coursera

Optimiser Spark et le stockage de données dans le cloud pour l'analyse

Profitez de l'une de nos meilleures offres et renforcez vos compétences avec 50 % de réduction sur Coursera Plus. Économisez maintenant.

Coursera

Optimiser Spark et le stockage de données dans le cloud pour l'analyse

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Débutant

Expérience recommandée

1 semaine à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Débutant

Expérience recommandée

1 semaine à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Optimiser les performances des tâches Spark grâce à un partitionnement et une mise en cache stratégiques, permettant ainsi de réduire la durée d'exécution de plus de 30 % grâce à l'analyse de l'accès aux données.

  • Mettez en place des lacs de données transactionnels au format Delta, permettant la gestion des versions, les opérations ACID et l'évolution du schéma, pour garantir la fiabilité des ensembles de données.

  • Mettre en place une infrastructure de données dans le cloud sécurisée à l'aide de politiques IAM, de réseaux privés et d'un stockage chiffré, conformément aux meilleures pratiques en matière de sécurité.

  • Évaluer et comparer les formats de stockage (Parquet, ORC, Avro) afin de sélectionner les solutions les mieux adaptées aux charges de travail analytiques et offrant le meilleur rapport coût-efficacité.

Compétences que vous acquerrez

  • Catégorie : Informatique en nuage
  • Catégorie : Architecture de l'infrastructure
  • Catégorie : Infrastructure as Code (IaC)
  • Catégorie : Gestion des données
  • Catégorie : Architecture de l'informatique en nuage
  • Catégorie : Sécurité de l'informatique en nuage
  • Catégorie : Déploiement dans le nuage
  • Catégorie : Infrastructure en nuage
  • Catégorie : Technologies de stockage des données
  • Catégorie : Contrôles de sécurité
  • Catégorie : Stockage des données
  • Catégorie : Optimisation des performances
  • Catégorie : Traitement des transactions
  • Catégorie : Intégrité des données
  • Catégorie : Entreposage de données
  • Catégorie : Sécurité des données

Outils que vous découvrirez

  • Catégorie : Apache Spark
  • Catégorie : Lacs de données
  • Catégorie : PySpark
  • Catégorie : Stockage en nuage

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

mars 2026

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise en Analyse des données

Ce cours fait partie de la Certificat Professionnel Ingénierie des données en open source avec Spark, dbt & Airflow
Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à ce Certificat Professionnel.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable auprès de Coursera

Il y a 11 modules dans ce cours

Vous découvrirez pourquoi une analyse systématique des performances est plus efficace que des modifications aléatoires de la configuration, et vous apprendrez à interpréter les indicateurs de l'interface utilisateur de Spark afin d'identifier les goulots d'étranglement.

Inclus

3 vidéos1 lecture1 devoir

Vous mettrez en œuvre des stratégies de partitionnement et de mise en cache afin d'obtenir des gains de performances mesurables dans le traitement distribué des données.

Inclus

3 vidéos1 lecture2 devoirs1 laboratoire non noté

Vous acquerrez les compétences de base nécessaires à l'analyse des plans d'exécution distribués afin d'identifier les goulots d'étranglement liés au brassage des données et aux schémas de déséquilibre dans les applications Spark.

Inclus

3 vidéos3 lectures1 devoir1 laboratoire non noté

Vous mettrez en œuvre des stratégies d'optimisation avancées afin de résoudre les goulots d'étranglement identifiés en matière de performances, grâce au réglage des partitions, aux jointures de diffusion et à des techniques d'optimisation de la configuration.

Inclus

1 vidéo1 lecture3 devoirs

Vous comprendrez pourquoi les fonctionnalités transactionnelles sont essentielles à la fiabilité d'un lac de données, vous découvrirez les concepts fondamentaux des transactions ACID et de la gestion des versions, et vous apprendrez à convertir des tables Parquet existantes au format Delta transactionnel.

Inclus

2 vidéos1 lecture2 devoirs

Vous effectuerez des opérations atomiques d'écriture et de suppression sous conditions, interrogez l'historique des versions des tables à des fins d'audit, vérifierez les capacités de restauration à l'aide de l'historique des versions, et démontrerez votre maîtrise du sujet à travers des travaux pratiques et une évaluation complète.

Inclus

2 vidéos2 devoirs1 laboratoire non noté

Vous acquerrez une compréhension des principes fondamentaux de la sécurité dans le cloud, des méthodes de chiffrement et des concepts de contrôle d'accès nécessaires à la mise en place d'une infrastructure de données sécurisée à l'aide de l'« Infrastructure as Code ».

Inclus

3 vidéos1 lecture2 devoirs

Vous mettrez en place une infrastructure de données sécurisée dans le cloud à l'aide de Terraform, en créant un stockage chiffré doté de contrôles d'accès adaptés et d'une isolation réseau, ce qui permettra de démontrer l'application concrète des principes de sécurité.

Inclus

2 vidéos1 lecture2 devoirs1 laboratoire non noté

Vous acquerrez des connaissances de base sur les compromis liés aux formats de stockage et commencerez à comparer les approches en colonnes et celles orientées lignes pour les charges de travail analytiques.

Inclus

3 vidéos1 lecture1 devoir

Vous réaliserez des tests comparatifs concrets des performances des différents formats de stockage et formulerez des recommandations fondées sur des données factuelles, à l'image des processus décisionnels utilisés par les professionnels de l'ingénierie des données.

Inclus

1 vidéo2 lectures3 devoirs

Vous mènerez un projet complet d'optimisation de l'infrastructure de données, qui intégrera l'optimisation des performances de Spark, la mise en place de mesures de sécurité dans le cloud et l'évaluation de l'architecture de stockage. Ce projet combine l'optimisation du calcul distribué, la conception d'infrastructures cloud et les principes du stockage de données pour aboutir à une solution d'entreprise réaliste.

Inclus

4 lectures1 devoir

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Professionals from the Industry
486 Cours111 611 apprenants

Offert par

Coursera

En savoir plus sur Analyse des données

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions

¹ Certains travaux de ce cours sont notés par l'IA. Pour ces travaux, vos Données internes seront utilisées conformément à Notification de confidentialité de Coursera.