Coursera

Certificat Professionnel Multimodal Intelligence - Vision, Audio & Language in Action

Profitez de l'une de nos meilleures offres et renforcez vos compétences avec 50 % de réduction sur Coursera Plus. Économisez maintenant.

Ce certificat professionnel n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues. Consultez les langues disponibles.
Coursera

Certificat Professionnel Multimodal Intelligence - Vision, Audio & Language in Action

Build and Deploy Multimodal AI Systems.

Design, train, evaluate, and deploy multimodal AI systems that process text, images, and audio.

Inclus avec Coursera Plus

Obtenez une qualification professionnelle qui traduit votre expertise
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez une qualification professionnelle qui traduit votre expertise
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Design end-to-end multimodal AI architectures that integrate image, audio, and text data streams into scalable production pipelines.

  • Fine-tune transformer-based multimodal models using transfer learning and evaluate performance with cross-modal and ethical AI metrics.

  • Build automated ETL pipelines and unified data schemas to ingest, validate, and store multimodal features for model training and inference.

  • Deploy versioned, secured, and documented inference APIs on containerized Kubernetes infrastructure with real-time performance optimization.

Compétences que vous acquerrez

  • Catégorie : API Design
  • Catégorie : MLOps (Machine Learning Operations)
  • Catégorie : CI/CD
  • Catégorie : Data Pipelines
  • Catégorie : Data Preprocessing
  • Catégorie : Deep Learning
  • Catégorie : Transfer Learning
  • Catégorie : Responsible AI
  • Catégorie : Natural Language Processing
  • Catégorie : Model Evaluation
  • Catégorie : Multimodal Prompts
  • Catégorie : Ethical Standards And Conduct
  • Catégorie : Computer Vision
  • Catégorie : Solution Architecture
  • Catégorie : Data Processing

Outils que vous découvrirez

  • Catégorie : Vision Transformer (ViT)
  • Catégorie : Restful API
  • Catégorie : Kubernetes
  • Catégorie : Apache Airflow
  • Catégorie : PyTorch (Machine Learning Library)
  • Catégorie : Docker (Software)

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Enseigné en Anglais
Récemment mis à jour !

mars 2026

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Faites progresser votre carrière avec des compétences recherchées

  • Recevez une formation professionnelle par Coursera
  • Démontrez vos compétences techniques
  • Obtenez un certificat reconnu par les employeurs auprès de Coursera

Certificat professionnel - série de 5 cours

Solution Architecture and Ethical AI Design

Solution Architecture and Ethical AI Design

COURS 1, 4 heures

Ce que vous apprendrez

  • Design end-to-end multimodal AI architectures that integrate image, audio, and text pipelines into scalable, production-ready systems.

  • Evaluate multimodal model performance using cross-modal metrics including FID, CLIP scores, recall@k, and Visual Question Answering accuracy.

  • Apply ethical AI frameworks to assess model bias using demographic parity and equalized odds across sensitive population subgroups.

  • Generate model interpretability reports using LIME and SHAP to explain AI predictions and communicate findings to technical stakeholders.

Compétences que vous acquerrez

Catégorie : Solution Architecture
Catégorie : Responsible AI
Catégorie : Technical Documentation
Catégorie : Model Evaluation
Catégorie : Natural Language Processing
Catégorie : AI Integrations
Catégorie : Solution Design
Catégorie : Enterprise Architecture
Catégorie : AI Orchestration
Catégorie : Scalability
Catégorie : Computer Science
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : Image Quality
Catégorie : Data Science
Catégorie : Machine Learning
Catégorie : Systems Architecture
Catégorie : Data Ethics
Catégorie : Generative Model Architectures
Catégorie : Algorithms
Catégorie : Software Documentation

Ce que vous apprendrez

  • Fine-tune transformer-based multimodal models using transfer learning in PyTorch and TensorFlow.

  • Build cross-modal retrieval systems using FAISS and attention-based fusion of visual and text embeddings.

  • Automate ML pipelines with drift monitoring, hyperparameter tuning, and retraining using MLflow and Ray Tune.

  • Design and document versioned multimodal inference APIs with FastAPI, OAuth2, and OpenAPI specifications.

Compétences que vous acquerrez

Catégorie : API Design
Catégorie : Model Optimization
Catégorie : MLOps (Machine Learning Operations)
Catégorie : Fine-tuning
Catégorie : Model Training
Catégorie : Transfer Learning
Catégorie : Data Architecture
Catégorie : Vision Transformer (ViT)
Catégorie : Machine Learning Algorithms
Catégorie : OAuth
Catégorie : Machine Learning Software
Catégorie : Data Science
Catégorie : Technical Communication
Catégorie : Model Deployment
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : Restful API
Catégorie : Application Programming Interface (API)
Catégorie : Model Evaluation
Catégorie : Solution Architecture
Catégorie : Machine Learning

Ce que vous apprendrez

  • Preprocess images and video using normalization, color-space conversion, and motion extraction techniques.

  • Build audio feature extraction and augmentation pipelines using MFCCs and spectral transforms.

  • Fine-tune transformer models and construct text preprocessing pipelines for NLP applications.

  • Evaluate and debug multimodal AI models using automatic metrics and human-in-the-loop frameworks.

Compétences que vous acquerrez

Catégorie : Data Preprocessing
Catégorie : Computer Vision
Catégorie : Data Transformation
Catégorie : Image Quality
Catégorie : Model Evaluation
Catégorie : Feature Engineering
Catégorie : Natural Language Processing
Catégorie : Model Training
Catégorie : Data Pipelines
Catégorie : Image Analysis
Catégorie : Machine Learning Software
Catégorie : Fine-tuning
Catégorie : Machine Learning Methods
Catégorie : Hugging Face
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : Machine Learning Algorithms
Catégorie : Data Architecture
Catégorie : Artificial Neural Networks
Catégorie : Large Language Modeling
Catégorie : Data Processing
Production-Ready Multimodal ML Engineering

Production-Ready Multimodal ML Engineering

COURS 4, 12 heures

Ce que vous apprendrez

  • Design a multimodal feature store and build automated ETL pipelines using BigQuery and Airflow.

  • Write test-driven ML training code and validate multimodal datasets for production readiness.

  • Optimize model inference with TensorRT and manage ML codebases using GitFlow and CI/CD tools.

  • Deploy GPU-accelerated services on Kubernetes and tune autoscaling for real-time performance.

Compétences que vous acquerrez

Catégorie : Data Pipelines
Catégorie : Containerization
Catégorie : Kubernetes
Catégorie : Extract, Transform, Load
Catégorie : Test Driven Development (TDD)
Catégorie : Model Training
Catégorie : Data Validation
Catégorie : Apache Airflow
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : Artificial Intelligence
Catégorie : Machine Learning Algorithms
Catégorie : Artificial Neural Networks
Catégorie : Machine Learning Software
Catégorie : Natural Language Processing
Catégorie : Model Deployment
Catégorie : Data Collection
Catégorie : Model Optimization
Catégorie : Algorithms
Catégorie : Data Infrastructure
Catégorie : MLOps (Machine Learning Operations)
Career Development for Multimodal Intelligence

Career Development for Multimodal Intelligence

COURS 5, 2 heures

Ce que vous apprendrez

  • Build multimodal AI systems that integrate vision, audio, and language using cross-attention fusion and transformer architectures.

  • Deploy production-ready multimodal models with optimized inference pipelines, containerization, and automated MLOps workflows.

  • Architect cross-modal retrieval and fusion systems using contrastive learning and embedding alignment for real-world applications.

Compétences que vous acquerrez

Catégorie : Tensorflow
Catégorie : Model Optimization
Catégorie : Machine Learning
Catégorie : Embeddings
Catégorie : Generative Model Architectures
Catégorie : Model Training
Catégorie : Model Deployment
Catégorie : Image Analysis
Catégorie : MLOps (Machine Learning Operations)
Catégorie : Large Language Modeling
Catégorie : Deep Learning
Catégorie : Vision Transformer (ViT)
Catégorie : PyTorch (Machine Learning Library)
Catégorie : Natural Language Processing
Catégorie : AI Integrations
Catégorie : Computer Vision

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Professionals from the Industry
486 Cours111 611 apprenants

Offert par

Coursera

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions

¹Basé sur les réponses au sondage sur les résultats des étudiants Coursera, États-Unis, 2021.