University of Pittsburgh

Big Data-Verarbeitung mit Hadoop und Spark

Holen Sie sich eines unserer besten Angebote und erweitern Sie Ihre Fähigkeiten mit 50% Rabatt auf Coursera Plus. Jetzt sparen.

University of Pittsburgh

Big Data-Verarbeitung mit Hadoop und Spark

Bei Coursera Plus enthalten

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.
Stufe Mittel

Empfohlene Erfahrung

9 Stunden zu vervollständigen
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen
Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.
Stufe Mittel

Empfohlene Erfahrung

9 Stunden zu vervollständigen
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

  • Erläutern Sie, wie Hadoop und Spark die Verarbeitung großer Datenmengen ermöglichen.

  • Erstellen und verwalten Sie verteilte Datenpipelines mithilfe von Hadoop-Frameworks.

  • Implementieren Sie In-Memory-Analysen und Echtzeitverarbeitung mit Spark.

  • Setzen Sie Big-Data-Tools ein, um skalierbare, datengesteuerte Anwendungen zu entwickeln.

Kompetenzen, die Sie erwerben

  • Kategorie: Datenverwaltung
  • Kategorie: Datenspeicherung
  • Kategorie: Datenverarbeitung
  • Kategorie: Datenwissenschaft
  • Kategorie: Datenanalyse
  • Kategorie: Informationstechnologie
  • Kategorie: Daten-Pipelines
  • Kategorie: Datenumwandlung
  • Kategorie: Dateisysteme
  • Kategorie: Skalierbarkeit
  • Kategorie: Prädiktive Modellierung
  • Kategorie: Große Daten
  • Kategorie: Verteiltes Rechnen

Werkzeuge, die Sie lernen werden

  • Kategorie: Scikit Learn (Bibliothek für maschinelles Lernen)
  • Kategorie: Apache Hadoop
  • Kategorie: Apache Hive
  • Kategorie: PySpark
  • Kategorie: Apache Spark

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Kürzlich aktualisiert!

Februar 2026

Bewertungen

8 Aufgaben

Unterrichtet in Englisch
Auf einen Abschluss hinarbeiten

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

 Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist Teil der Spezialisierung Spezialisierung „Cloud-Computing für die Datenwissenschaft“
Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für diese Spezialisierung angemeldet.
  • Lernen Sie neue Konzepte von Branchenexperten
  • Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
  • Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
  • Erwerben Sie ein Berufszertifikat zur Vorlage

In diesem Kurs gibt es 3 Module

Dieses Modul führt Sie durch die Kernkomponenten des Hadoop-Ökosystems, beginnend mit dessen Architektur und dem verteilten Dateisystem. Sie erfahren, wie Hadoop Daten verarbeitet, gewinnen Einblicke in das gesamte Ökosystem und wenden Ihr Wissen in praktischen Übungen an, bei denen Sie sowohl Docker als auch eine virtuelle Linux-Maschine nutzen.

Das ist alles enthalten

6 Videos1 Lektüre3 Aufgaben

Dieses Modul führt Sie in die wichtigsten Programmiermodelle für die verteilte Datenverarbeitung ein, wobei der Schwerpunkt auf MapReduce und dessen praktischen Anwendungen liegt. Sie lernen Kernkonzepte und Fachbegriffe kennen, arbeiten anhand von angeleiteten Code-Walkthroughs mit Python an der Implementierung von Aufgaben zur Wortzählung und Serverprotokollanalyse und sammeln Erfahrungen im Umgang mit Apache Pig zur Datentransformation. Außerdem sammeln Sie praktische Erfahrungen beim Schreiben von Skripten zur Datentransformation in Apache Pig, was schließlich in einer Aufgabe gipfelt, bei der Sie diese Fähigkeiten auf die Analyse von Webprotokollen anwenden.

Das ist alles enthalten

6 Videos6 Lektüren3 Aufgaben

Dieses Modul bietet Ihnen eine Einführung in Apache Spark und behandelt dessen Kernkonzepte, Architektur sowie die Möglichkeiten des maschinellen Lernens mithilfe von MLlib. Sie lernen, wie Sie Spark mit Docker und einer Linux-VM einrichten, erkunden die Funktionsweise von PySpark innerhalb des Spark-Frameworks und vergleichen Spark MLlib mit scikit-learn anhand praktischer Code-Anleitungen. Am Ende des Moduls wenden Sie das Gelernte in benoteten Übungen und einer Hausarbeit an, deren Schwerpunkt auf der Erstellung eines Vorhersagemodells mit PySpark und MLlib liegt.

Das ist alles enthalten

5 Videos3 Lektüren2 Aufgaben

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Auf einen Abschluss hinarbeiten

Dieses Kurs ist Teil des/der folgenden Studiengangs/Studiengänge, die von University of Pittsburghangeboten werden. Wenn Sie zugelassen werden und sich immatrikulieren, können Ihre abgeschlossenen Kurse auf Ihren Studienabschluss angerechnet werden und Ihre Fortschritte können mit Ihnen übertragen werden.¹

Dozent

Dmitriy Babichenko
University of Pittsburgh
4 Kurse3.238 Lernende

von

Mehr von Datenverwaltung entdecken

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Häufig gestellte Fragen