Big Data-Verarbeitung mit Hadoop und Spark

Holen Sie sich eines unserer besten Angebote und erweitern Sie Ihre Fähigkeiten mit 50% Rabatt auf Coursera Plus. Jetzt sparen.

Big Data-Verarbeitung mit Hadoop und Spark

Dieser Kurs ist Teil von Spezialisierung „Cloud-Computing für die Datenwissenschaft“

Dozent: Dmitriy Babichenko

Bei enthalten

Mehr erfahren

3 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

Stufe Mittel

Empfohlene Erfahrung

9 Stunden zu vervollständigen

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

3 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

Stufe Mittel

Empfohlene Erfahrung

9 Stunden zu vervollständigen

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

Erläutern Sie, wie Hadoop und Spark die Verarbeitung großer Datenmengen ermöglichen.
Erstellen und verwalten Sie verteilte Datenpipelines mithilfe von Hadoop-Frameworks.
Implementieren Sie In-Memory-Analysen und Echtzeitverarbeitung mit Spark.
Setzen Sie Big-Data-Tools ein, um skalierbare, datengesteuerte Anwendungen zu entwickeln.

Kompetenzen, die Sie erwerben

Kategorie: Datenverwaltung
Kategorie: Datenspeicherung
Kategorie: Datenverarbeitung
Kategorie: Datenwissenschaft
Kategorie: Datenanalyse
Kategorie: Informationstechnologie
Kategorie: Daten-Pipelines
Kategorie: Datenumwandlung
Kategorie: Dateisysteme
Kategorie: Skalierbarkeit
Kategorie: Prädiktive Modellierung
Kategorie: Große Daten
Kategorie: Verteiltes Rechnen

Werkzeuge, die Sie lernen werden

Kategorie: Scikit Learn (Bibliothek für maschinelles Lernen)
Kategorie: Apache Hadoop
Kategorie: Apache Hive
Kategorie: PySpark
Kategorie: Apache Spark

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Kürzlich aktualisiert!

Februar 2026

Bewertungen

8 Aufgaben

Unterrichtet in Englisch

Auf einen Abschluss hinarbeiten

Mehr erfahren

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Weitere Informationen zu Coursera für Unternehmen

Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist Teil der Spezialisierung Spezialisierung „Cloud-Computing für die Datenwissenschaft“

Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für diese Spezialisierung angemeldet.

Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage

In diesem Kurs gibt es 3 Module

Eignen Sie sich die Werkzeuge und Techniken an, die der Datenverarbeitung und -analyse in großem Maßstab zugrunde liegen. Dieser Kurs vermittelt die Grundlagen und Frameworks der Big-Data-Verarbeitung mit Hadoop und Spark und versetzt die Teilnehmer in die Lage, riesige Datensätze effizient zu verwalten, zu verarbeiten und zu analysieren.

Zunächst lernen Sie das Hadoop-Ökosystem kennen, einschließlich HDFS und MapReduce, und erfahren, wie verteilte Speicherung und Berechnung zusammenwirken, um Daten in großem Umfang zu verarbeiten. Anschließend beschäftigen Sie sich mit Apache Spark, einem leistungsstarken Framework für schnelle In-Memory-Datenverarbeitung und Echtzeitanalysen. Anhand von angeleiteten Übungen und Fallstudien lernen Sie, wie Sie skalierbare Datenpipelines aufbauen, die Leistung optimieren und Transformationen anwenden, um geschäftliche Erkenntnisse zu gewinnen. Am Ende dieses Kurses sind Sie in der Lage, komplexe Daten-Workloads mit branchenüblichen Big-Data-Tools zu bewältigen. Dieser Kurs ist ideal für angehende Dateningenieure, Analysten und Entwickler und schlägt eine Brücke zwischen Datenmanagement und Cloud-Computing – er bereitet Sie darauf vor, Big-Data-Lösungen zu entwerfen, zu implementieren und zu verwalten, die eine intelligente Entscheidungsfindung in modernen Unternehmen vorantreiben.

Dieses Modul führt Sie durch die Kernkomponenten des Hadoop-Ökosystems, beginnend mit dessen Architektur und dem verteilten Dateisystem. Sie erfahren, wie Hadoop Daten verarbeitet, gewinnen Einblicke in das gesamte Ökosystem und wenden Ihr Wissen in praktischen Übungen an, bei denen Sie sowohl Docker als auch eine virtuelle Linux-Maschine nutzen.

Das ist alles enthalten

6 Videos1 Lektüre3 Aufgaben

6 VideosInsgesamt 41 Minuten

Übersicht: Hadoop2 Minuten
Vorlesung 1: Einführung in Hadoop7 Minuten
Vorlesung 2: HDFS-Architektur7 Minuten
Vorlesung 3: Garnarchitektur7 Minuten
Vorlesung 4: Das Hadoop-Ökosystem9 Minuten
Vorlesung 5: Datenverarbeitung mit Hadoop9 Minuten

1 LektüreInsgesamt 10 Minuten

Überblick über den Kurs10 Minuten

3 AufgabenInsgesamt 90 Minuten

HDFS Architektur30 Minuten
Testen Sie Ihr Wissen: Hadoop30 Minuten
Übung: Hadoop30 Minuten

Dieses Modul führt Sie in die wichtigsten Programmiermodelle für die verteilte Datenverarbeitung ein, wobei der Schwerpunkt auf MapReduce und dessen praktischen Anwendungen liegt. Sie lernen Kernkonzepte und Fachbegriffe kennen, arbeiten anhand von angeleiteten Code-Walkthroughs mit Python an der Implementierung von Aufgaben zur Wortzählung und Serverprotokollanalyse und sammeln Erfahrungen im Umgang mit Apache Pig zur Datentransformation. Außerdem sammeln Sie praktische Erfahrungen beim Schreiben von Skripten zur Datentransformation in Apache Pig, was schließlich in einer Aufgabe gipfelt, bei der Sie diese Fähigkeiten auf die Analyse von Webprotokollen anwenden.

Das ist alles enthalten

6 Videos6 Lektüren3 Aufgaben

6 VideosInsgesamt 34 Minuten

Überblick: Modelle der parallelen Programmierung2 Minuten
Vorlesung 1: Programmiermodelle4 Minuten
Vorlesung 2: Konzepte und Fachbegriffe der Programmiermodelle11 Minuten
Vorlesung 3: MapReduce8 Minuten
Vorlesung 4: MapReduce – Ein tieferer Einblick6 Minuten
Vorlesung 5: Apache Pig4 Minuten

6 LektürenInsgesamt 60 Minuten

Code-Review: Einführung in MapReduce mit Python10 Minuten
Code-Review: Beispiel zur Wortzählung mit MapReduce und Python10 Minuten
Code-Review: Analyse von Serverprotokollen mit MapReduce und Python10 Minuten
Code-Review: Analyse von Serverprotokollen (Einlesen aus einer Datei) mit MapReduce + Python10 Minuten
Aktivität & Code-Review: Wortzählung mit Apache Pig10 Minuten
Aktivität: Arbeiten mit Apache Pig10 Minuten

3 AufgabenInsgesamt 90 Minuten

MapReduce30 Minuten
Testen Sie Ihr Wissen: Programmiermodelle30 Minuten
Übung: Programmiermodelle30 Minuten

Dieses Modul bietet Ihnen eine Einführung in Apache Spark und behandelt dessen Kernkonzepte, Architektur sowie die Möglichkeiten des maschinellen Lernens mithilfe von MLlib. Sie lernen, wie Sie Spark mit Docker und einer Linux-VM einrichten, erkunden die Funktionsweise von PySpark innerhalb des Spark-Frameworks und vergleichen Spark MLlib mit scikit-learn anhand praktischer Code-Anleitungen. Am Ende des Moduls wenden Sie das Gelernte in benoteten Übungen und einer Hausarbeit an, deren Schwerpunkt auf der Erstellung eines Vorhersagemodells mit PySpark und MLlib liegt.

Das ist alles enthalten

5 Videos3 Lektüren2 Aufgaben

5 VideosInsgesamt 22 Minuten

Vorlesung 1: Einführung in Apache Spark3 Minuten
Vorlesung 2: Grundlegende Konzepte von Apache Spark CORE5 Minuten
Vorlesung 3: Die Architektur von Apache Spark3 Minuten
Vorlesung 4: PySpark und seine Ausführung in der Apache-Spark-Architektur6 Minuten
Vorlesung 5: Einführung in Apache Spark MLlib6 Minuten

3 LektürenInsgesamt 30 Minuten

Fallstudie und Code-Review: scikit-learn vs. Spark MLlib10 Minuten
Aktivität und Code-Review: PySpark- und MLlib-Pipeline10 Minuten
Kurs-Zusammenfassung10 Minuten

2 AufgabenInsgesamt 60 Minuten

Testen Sie Ihr Wissen: Apache Spark30 Minuten
Probieren wir es aus: Apache Spark30 Minuten

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Auf einen Abschluss hinarbeiten

Dieses Kurs ist Teil des/der folgenden Studiengangs/Studiengänge, die von University of Pittsburghangeboten werden. Wenn Sie zugelassen werden und sich immatrikulieren, können Ihre abgeschlossenen Kurse auf Ihren Studienabschluss angerechnet werden und Ihre Fortschritte können mit Ihnen übertragen werden.¹

Dozent

Dmitriy Babichenko

University of Pittsburgh

4 Kurse3.238 Lernende

von

University of Pittsburgh

Mehr von Datenverwaltung entdecken

Status: Kostenloser Testzeitraum
Packt
Apache Spark with Scala – Hands-On with Big Data!
Kurs
Status: Kostenloser Testzeitraum
IBM
Introduction to Big Data with Spark and Hadoop
Kurs
Status: Kostenloser Testzeitraum
Pearson
Hadoop and Spark Fundamentals: Unit 2
Kurs
Status: Kostenloser Testzeitraum
EDUCBA
Apache Spark: Apply & Evaluate Big Data Workflows
Kurs

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018

„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020

„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021

„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Häufig gestellte Fragen

Um Zugang zu den Kursmaterialien und Aufgaben zu erhalten und um ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung erwerben, wenn Sie sich für einen Kurs anmelden. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen. Der Kurs kann stattdessen die Option "Vollständiger Kurs, kein Zertifikat" anbieten. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.

Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen der Spezialisierung, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Seite "Leistungen" hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder Ihrem LinkedIn-Profil hinzufügen.

Ja. Für ausgewählte Lernprogramme können Sie finanzielle Unterstützung oder ein Stipendium beantragen, wenn Sie die Einschreibegebühr nicht aufbringen können. Wenn für das von Ihnen gewählte Lernprogramm eine finanzielle Unterstützung oder ein Stipendium verfügbar ist, finden Sie auf der Beschreibungsseite einen Link zur Beantragung.