Ist finanzielle Hilfe verfügbar?

Ja. Für ausgewählte Lernprogramme können Sie finanzielle Unterstützung oder ein Stipendium beantragen, wenn Sie die Einschreibegebühr nicht aufbringen können. Wenn für das von Ihnen gewählte Lernprogramm eine finanzielle Unterstützung oder ein Stipendium verfügbar ist, finden Sie auf der Beschreibungsseite einen Link zur Beantragung.

Data Engineering & Pipeline-Zuverlässigkeit für maschinelles Lernen

Holen Sie sich eines unserer besten Angebote und erweitern Sie Ihre Fähigkeiten mit 50% Rabatt auf Coursera Plus. Jetzt sparen.

Data Engineering & Pipeline-Zuverlässigkeit für maschinelles Lernen

Dieser Kurs ist Teil von Spezialisierung „Maschinelles Lernen leicht gemacht für Software-Ingenieure“

Dozent: Professionals from the Industry

Bei enthalten

Mehr erfahren

10 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

Stufe Mittel

Empfohlene Erfahrung

9 Stunden zu vervollständigen

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

10 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

Stufe Mittel

Empfohlene Erfahrung

9 Stunden zu vervollständigen

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

Daten für maschinelles Lernen mithilfe von Kodierungs-, Bereinigungs- und Datenqualitätsverfahren transformieren und validieren
Entwicklung und Koordination von ML-Datenpipelines, die Zuverlässigkeit, Aktualität und Leistungsfähigkeit der Pipelines gewährleisten
Verwalten Sie die reproduzierbare ML-Entwicklung mithilfe von Versionskontroll- und Umgebungsmanagement-Tools

Kompetenzen, die Sie erwerben

Kategorie: Datenwrangling
Kategorie: MLOps (Operationen für maschinelles Lernen)
Kategorie: Daten-Pipelines
Kategorie: Entwicklungsumgebung
Kategorie: Datenumwandlung
Kategorie: Qualität der Daten
Kategorie: Vorverarbeitung von Daten
Kategorie: Qualitätssicherung
Kategorie: Paket- und Softwareverwaltung
Kategorie: Integration von Daten
Kategorie: Technische Merkmale
Kategorie: Bereinigung von Daten
Kategorie: Kostenmanagement
Kategorie: Datenfluss
Kategorie: Extrahieren, Transformieren, Laden
Kategorie: Virtuelle Umgebung
Kategorie: Explorative Datenanalyse
Kategorie: Nutzung der Ressourcen

Werkzeuge, die Sie lernen werden

Kategorie: Apache Airflow
Kategorie: Git (Versionskontrollsystem)

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Kürzlich aktualisiert!

März 2026

Bewertungen

13 Zuweisungen¹

KI-bewertet siehe Haftungsausschluss

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Weitere Informationen zu Coursera für Unternehmen

Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist Teil der Spezialisierung Spezialisierung „Maschinelles Lernen leicht gemacht für Software-Ingenieure“

Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für diese Spezialisierung angemeldet.

Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage

In diesem Kurs gibt es 10 Module

In diesem Kurs lernen Sie, wie Sie reale Datensätze mithilfe praktischer, reproduzierbarer Techniken zur Datenbereinigung in zuverlässige Analysegrundlagen umwandeln können. Sie lernen, wie Sie kategoriale Merkmale bewerten und optimale Kodierungsstrategien auswählen, die Datenqualität messen und dokumentieren sowie effektive Ansätze zum Umgang mit fehlenden Werten anwenden. Mithilfe von Python und pandas üben Sie, die Kardinalität zu bewerten, Zielkodierungen zu implementieren, die Vollständigkeit mit Great Expectations zu validieren und transparente Transformationspfade zu erstellen. Außerdem bereinigen Sie unübersichtliche Felder wie Altersangaben, Gehaltsausreißer und Datumsangaben, um konsistente, modellreife Ergebnisse zu gewährleisten. Dieser Kurs richtet sich an Analysten, Dateningenieure und ML-Praktiker und vermittelt Ihnen die praxisnahen Fähigkeiten, die Sie benötigen, um hochwertige Datensätze aufzubereiten, die zuverlässige Erkenntnisse und prädiktive Modellierung ermöglichen.

Sie werden kategoriale Merkmale analysieren, um unter Berücksichtigung der Kardinalität und der Modellanpassung die optimale Kodierungsstrategie zu ermitteln.

Das ist alles enthalten

2 Videos2 Lektüren1 Aufgabe

2 VideosInsgesamt 11 Minuten

Willkommen und was die Kodierung wirklich löst5 Minuten
Grundlagen der Kardinalität und ein praktischer Leitfaden zur Zielkodierung6 Minuten

2 LektürenInsgesamt 12 Minuten

Kodierungsoptionen einfach erklärt8 Minuten
Rahmenkonzept für Kodierungsentscheidungen4 Minuten

1 AufgabeInsgesamt 10 Minuten

Praktische Übung: Den richtigen Encoder für Produkt-IDs auswählen10 Minuten

Sie werden Kennzahlen zur Datenqualität auswerten und den Datenverarbeitungsweg dokumentieren, um Transparenz und Zuverlässigkeit zu gewährleisten.

Das ist alles enthalten

1 Video1 Lektüre1 Aufgabe

Sie wenden Techniken zur Imputation, Kennzeichnung und Validierung fehlender oder Nullwerte an, um konsistente, modellfähige Datensätze zu erstellen.

Das ist alles enthalten

1 Video1 Lektüre2 Aufgaben

1 VideoInsgesamt 5 Minuten

Warum es zu Datenlücken kommt und warum deren Behebung eine bewusste Entscheidung ist5 Minuten

1 LektüreInsgesamt 8 Minuten

Fehldaten sinnvoll diagnostizieren und behandeln 8 Minuten

2 AufgabenInsgesamt 40 Minuten

Benotetes Quiz: Kodierung, Qualität und Umgang mit fehlenden Werten20 Minuten
Praktische Übung: Bereinigung und Aufbereitung eines unübersichtlichen HR-Datensatzes20 Minuten

Sie werden ETL- und ELT-Pipelines einsetzen, um Daten aus verschiedenen Quellen mithilfe strukturierter Transformations-Workflows in einen Feature Store zu importieren.

Das ist alles enthalten

2 Videos1 Lektüre1 Aufgabe

Sie analysieren Schemaänderungen in vorgelagerten Systemen und implementieren Sicherheitsmaßnahmen, um die Ausfallsicherheit der Datenpipeline und die Kompatibilität mit nachgelagerten Systemen zu gewährleisten.

Das ist alles enthalten

2 Videos1 Lektüre

Sie werden die Aktualität der Daten, Verzögerungen und die Erfolgsraten der Datenpipeline anhand der Service Level Agreements bewerten, um die Betriebssicherheit zu beurteilen.

Das ist alles enthalten

1 Video1 Lektüre3 Aufgaben

1 VideoInsgesamt 4 Minuten

Von Pipeline-Durchläufen bis hin zu SLAs4 Minuten

1 LektüreInsgesamt 6 Minuten

Den gesamten Prozess im Blick: Von der Datenerfassung bis zu den SLAs 6 Minuten

3 AufgabenInsgesamt 75 Minuten

Benotetes Quiz: Bewertung des Designs und der Zuverlässigkeit einer ML-Pipeline20 Minuten
Praktische Übung: Auswertung von Pipeline-Kennzahlen und Erkennung von SLA-Verstößen 15 Minuten
Praktische Übung: End-to-End-ML im Rahmen eines Labors zur Pipeline-Zuverlässigkeit40 Minuten

Sie werden Verzweigungsstrategien der Versionskontrolle anwenden, um Code, Experimente und Projektartefakte effektiv zu verwalten.

Das ist alles enthalten

3 Videos1 Lektüre2 Aufgaben

3 VideosInsgesamt 23 Minuten

Willkommens- und Kursvorstellungsvideo3 Minuten
Wie Git-Verzweigungen die Entwicklung von maschinellem Lernen unterstützen6 Minuten
Einen Feature-Branch erstellen und Artefakte verwalten14 Minuten

1 LektüreInsgesamt 6 Minuten

Git-Workflows im Vergleich: Was Sie wissen sollten6 Minuten

2 AufgabenInsgesamt 25 Minuten

Praktische Übung: Einen Feature-Branch erstellen und ML-Artefakte pushen20 Minuten
Übungsquiz: Verzweigungsmuster, Commit-Hygiene, Artefaktmanagement 5 Minuten

Sie werden Tools für virtuelle Umgebungen einsetzen, um reproduzierbare Projektumgebungen mit stabilen Abhängigkeiten zu konfigurieren.

Das ist alles enthalten

2 Videos1 Lektüre1 Unbewertetes Labor

Sie analysieren die Ressourcenauslastung in Bezug auf CPU, GPU und Speicher, um die Rechenkosten während der Experimentierphase zu optimieren.

Das ist alles enthalten

2 Videos1 Lektüre2 Aufgaben

2 VideosInsgesamt 23 Minuten

Einblick in die Rechenkosten bei der ML-Entwicklung8 Minuten
Ressourcenengpässe erkennen und Jobs auf kostengünstigere Rechenkapazitäten verlagern15 Minuten

1 LektüreInsgesamt 6 Minuten

Remote-Entwicklung mit VS Code für ML-Workflows 6 Minuten

2 AufgabenInsgesamt 40 Minuten

Benotetes Quiz: Optimierung der ML-Entwicklung 20 Minuten
Praktische Übung: Ressourcenkennzahlen analysieren und Maßnahmen zur Kostenoptimierung vorschlagen20 Minuten

In diesem Projekt entwerfen und implementieren Sie eine produktionsreife Machine-Learning-Datenpipeline für ein Risikomodellierungsszenario im Finanzdienstleistungsbereich. Der Rohdatensatz enthält fehlende Werte, inkonsistente kategoriale Einträge, potenzielle Ausreißer und simulierte Schema-Drifts. Ihre Aufgabe besteht darin, diesen Datensatz in einen validierten, modellbereiten Feature-Store umzuwandeln. Sie bereinigen und verarbeiten strukturierte tabellarische Daten, wählen Kodierungsstrategien basierend auf der Kardinalität der Merkmale aus, implementieren eine Datenvalidierung mit Great Expectations, erkennen Schemaänderungen zwischen den Pipeline-Läufen, generieren SLA-Metriken zur Bewertung der Zuverlässigkeit und speichern die verarbeiteten Merkmale im Parquet-Format. Über die CORE-Pipeline hinaus wenden Sie zudem professionelle Entwicklungspraktiken an, die in produktiven ML-Teams Standard sind: Einrichten einer virtuellen Umgebung zur Reproduzierbarkeit, Verwendung von Verzweigungsstrategien in der Versionskontrolle zur Verwaltung Ihrer Arbeit sowie Analyse der Ressourcenauslastung, um die Rechenkosten zu verstehen. Ihr Endergebnis ist ein modulares Python-Skript sowie eine strukturierte schriftliche technische Erläuterung, die Ihre Fähigkeit unter Beweis stellt, eine zuverlässige, produktionsgerechte ML-Dateninfrastruktur zu entwerfen.

Das ist alles enthalten

2 Lektüren1 Aufgabe

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozent

Professionals from the Industry

487 Kurse112.316 Lernende

von

Coursera

Mehr von Datenverwaltung entdecken

Status: Kostenloser Testzeitraum
Coursera
Data Quality and Debugging for Reliable Pipelines
Kurs
Status: Kostenloser Testzeitraum
Coursera
Transform Data: Cleanse, Encode, Validate
Kurs
Status: Kostenloser Testzeitraum
Coursera
Orchestrate, Analyze, and Evaluate ML Pipelines
Kurs
Status: Kostenloser Testzeitraum
Coursera
Engineer, Validate, and Govern ML Data
Kurs

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018

„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020

„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021

„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Häufig gestellte Fragen

Dieser Kurs richtet sich an Teilnehmer, die bereits über einige Erfahrungen in den Bereichen Programmierung und maschinelles Lernen verfügen. Der Schwerpunkt liegt auf technischen Verfahren zum Aufbau zuverlässiger Datenpipelines für ML-Systeme.

Sie werden mit Tools und Methoden arbeiten, die im ML-Engineering üblicherweise zum Einsatz kommen, darunter Frameworks zur Orchestrierung von Datenpipelines, Versionskontrollsysteme wie Git und Tools zur Verwaltung reproduzierbarer Umgebungen.

Modelle des maschinellen Lernens sind auf konsistente, qualitativ hochwertige Daten angewiesen. Zuverlässige Pipelines stellen sicher, dass Datentransformationen reproduzierbar und skalierbar sind und ihre Leistung auch bei der Weiterentwicklung der Systeme beibehalten.

Um Zugang zu den Kursmaterialien und Aufgaben zu erhalten und um ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung erwerben, wenn Sie sich für einen Kurs anmelden. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen. Der Kurs kann stattdessen die Option "Vollständiger Kurs, kein Zertifikat" anbieten. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.

Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen der Spezialisierung, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Seite "Leistungen" hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder Ihrem LinkedIn-Profil hinzufügen.

Weitere Fragen

Besuchen Sie die das Hilfe-Center für Kursteilnehmer.

Finanzielle Unterstützung verfügbar,

¹ Einige Aufgaben in diesem Kurs werden mit AI bewertet. Für diese Aufgaben werden Ihre Daten in Übereinstimmung mit Datenschutzhinweis von Courseraverwendet.