Dieser Kurs richtet sich an Dateningenieure, Analytics-Ingenieure, Datenplattform-Ingenieure und Datenarchitekten, die mit Data Lakes arbeiten und ihre Dateninfrastruktur modernisieren möchten. Er ist außerdem wertvoll für Softwareentwickler, die in Datenrollen wechseln, sowie für technische Leiter, die Apache Iceberg für ihre Daten evaluieren.
Am Ende dieses Kurses werden Sie in der Lage sein: - ein Apache Iceberg Lakehouse mithilfe von Katalogen, Objektspeichern und Abfrage-Engines wie Spark und Trino aufzubauen und zu konfigurieren - optimale Tabellenstrukturen mithilfe von versteckter Partitionierung, Sortierreihenfolgen und Spaltenmetriken zu entwerfen, um die Abfrageleistung zu maximieren - Vorhandene Daten aus Hive-Tabellen, Parquet-Dateien, CSV-Dateien und Datenbanken mithilfe von Snapshot-, Migrations- und Reserialisierungsansätzen in Iceberg zu migrieren - Produktionsworkflows mithilfe von „Write-Audit-Publish“ zur Validierung, Verzweigungen zum Testen und Rollback zur Wiederherstellung zu implementieren - Weiterentwicklung von Tabellenschemata und Partitionsspezifikationen ohne Ausfallzeiten oder Neuschreiben von Daten - Durchführung von Wartungsvorgängen, einschließlich der Komprimierung von Datendateien, der Komprimierung von Metadaten und des Ablaufs von Snapshots - Konfiguration von Schreibstrategien (Merge-on-Read vs. Copy-on-Write) und Verteilungsmodi für unterschiedliche Workload-Anforderungen - Verwalten Sie parallele Vorgänge und vermeiden Sie Konflikte in Szenarien mit mehreren Schreibern Um diesen Kurs erfolgreich zu absolvieren, sollten Sie über folgende Voraussetzungen verfügen: - Praktische Kenntnisse in SQL und relationalen Datenbankkonzepten (Tabellen, Schemata, Abfragen) - Grundlegendes Verständnis von Data-Engineering-Konzepten, einschließlich ETL/ELT, Data Warehouses und Data Lakes - Vertrautheit mit Befehlszeilenschnittstellen und Docker zur Ausführung der Kursumgebung - Sicherer Umgang mit dem Lesen und Verstehen von Code-Beispielen in Python/PySpark (Code wird bereitgestellt; Sie müssen nicht von Grund auf neu schreiben) - Erfahrung mit Apache Spark oder verteiltem Rechnen ist hilfreich, aber nicht erforderlich – die Kernkonzepte werden im Laufe des Kurses erläutert Apache Iceberg, Iceberg, Apache und das Apache-Feder-Logo sind entweder eingetragene Marken oder Marken der Apache Software Foundation. Die Verwendung dieser Marken impliziert keine Billigung durch die Apache Software Foundation.












