University of Colorado Boulder

Mastering Classic Reinforcement Learning Algorithms

Holen Sie sich eines unserer besten Angebote und erweitern Sie Ihre Fähigkeiten mit 50% Rabatt auf Coursera Plus. Jetzt sparen.

kurs ist nicht verfügbar in Deutsch (Deutschland)

Wir übersetzen es in weitere Sprachen.
University of Colorado Boulder

Mastering Classic Reinforcement Learning Algorithms

Bei Coursera Plus enthalten

Fragen Sie Coursera

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.
Stufe Mittel

Empfohlene Erfahrung

1 Woche zu vervollständigen
unter 10 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen
Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.
Stufe Mittel

Empfohlene Erfahrung

1 Woche zu vervollständigen
unter 10 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

  • Formulate sequential decision-making problems as deterministic decision processes, Markov chains, and finite Markov decision processes.

  • Explain and apply core reinforcement-learning concepts, including discounting, value functions, policies, Bellman equations, and optimality.

  • Implement planning algorithms for finite Markov decision processes, including value iteration, policy iteration, and linear programming formulations.

  • Compare tabular reinforcement-learning algorithms, including bandits, Monte Carlo methods, temporal-difference learning, SARSA, and Q-learning.

Kompetenzen, die Sie erwerben

  • Kategorie: Probability Distribution
  • Kategorie: Model Optimization
  • Kategorie: Probability & Statistics
  • Kategorie: Statistical Machine Learning
  • Kategorie: Reinforcement Learning
  • Kategorie: Machine Learning
  • Kategorie: Markov Model
  • Kategorie: Decision Intelligence
  • Kategorie: Algorithms
  • Kategorie: Sampling (Statistics)
  • Kategorie: Artificial Intelligence and Machine Learning (AI/ML)
  • Kategorie: Machine Learning Algorithms
  • Kategorie: Applied Mathematics

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Kürzlich aktualisiert!

Juni 2026

Bewertungen

6 Aufgaben

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

 Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist Teil der Spezialisierung Spezialisierung „Foundations of Reinforcement Learning“
Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für diese Spezialisierung angemeldet.
  • Lernen Sie neue Konzepte von Branchenexperten
  • Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
  • Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
  • Erwerben Sie ein Berufszertifikat zur Vorlage

In diesem Kurs gibt es 5 Module

This module introduces the modeling and optimization foundations for sequential decision-making in their simplest form: deterministic decision processes with discounted rewards. We begin with states, actions, transitions, and rewards as a language for representing decision problems over time. We then develop value functions and Bellman equations as tools for optimizing long-term return. The goal is to build intuition for why dynamic programming is correct in the simpler setting of deterministic decision processes before introducing stochastic transitions, learning from sampled experience, and bootstrapping in later modules.

Das ist alles enthalten

11 Videos12 Lektüren2 Aufgaben

This module adds stochasticity to the deterministic picture developed in the previous module. Learners continue with the surprise-quiz example, now with uncertain outcomes: studying usually helps but may not always help, and relaxing may reduce preparation but may not always do so. The module first introduces stochastic transitions as probability distributions over next states, then studies Markov chains as stochastic systems without choices and finally adds actions to obtain Markov decision processes. The goal is to make expected discounted reward, policies, and Bellman equations feel like natural extensions of the deterministic setting.

Das ist alles enthalten

8 Videos8 Lektüren1 Aufgabe

This module focuses on known-model optimization. Learners use Bellman equations as computational tools for policy evaluation, policy improvement, value iteration, policy iteration, and linear programming formulations of discounted MDPs.

Das ist alles enthalten

9 Videos8 Lektüren1 Aufgabe

This module begins the transition from planning to reinforcement learning. In planning, the MDP model is known and Bellman backups compute expectations exactly. In reinforcement learning, the model is replaced by sampled experience. Learners first view reinforcement learning as sample-based dynamic programming, then study rewards, uncertainty, agent--environment interaction, bandit estimation, exploration versus exploitation, Monte Carlo policy evaluation, and Monte Carlo control.

Das ist alles enthalten

9 Videos11 Lektüren1 Aufgabe

This module completes the tabular reinforcement-learning part of Course 1. Module 4 introduced sample-based learning through bandits and Monte Carlo methods. Module 5 introduces temporal-difference learning: updating after one sampled transition by combining an observed reward with a bootstrapped value estimate. The module ends by summarizing tabular reinforcement learning and motivating the transition to function approximation and deep RL.

Das ist alles enthalten

8 Videos9 Lektüren1 Aufgabe

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozent

Ashutosh Trivedi
University of Colorado Boulder
3 Kurse60 Lernende

Mehr von Algorithms entdecken

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Häufig gestellte Fragen