One of the important topics that every data analyst should be familiar with is the distributed data processing technologies. As a data analyst, you should be able to apply different queries to your dataset to extract useful information out of it. but what if your data is so big that working with it on your local machine is not easy to be done. That is when the distributed data processing and Spark Technology will become handy. So in this project, we are going to work with pyspark module in python and we are going to use google colab environment in order to apply some queries to the dataset we have related to lastfm website which is an online music service where users can listen to different songs. This dataset is containing two csv files listening.csv and genre.csv. Also, we will learn how we can visualize our query results using matplotlib.

Data Analysis Using Pyspark
Holen Sie sich eines unserer besten Angebote und erweitern Sie Ihre Fähigkeiten mit 50% Rabatt auf Coursera Plus. Jetzt sparen.

(319Â Bewertungen)
Empfohlene Erfahrung
Was Sie lernen werden
Learn how to setup the google colab for distributed data processing
Learn applying different queries to your dataset to extract useful Information
Learn how to visualize this information using matplotlib
Kompetenzen, die Sie festigen
- Kategorie: Data Management
- Kategorie: Data Visualization
- Kategorie: Matplotlib
- Kategorie: Data Presentation
- Kategorie: Data Analysis
- Kategorie: Data Cleansing
- Kategorie: Data Processing
- Kategorie: Data Manipulation
- Kategorie: Big Data
- Kategorie: Distributed Computing
Tools, die Sie verwenden werden
- Kategorie: Query Languages
- Kategorie: Apache Spark
- Kategorie: Python Programming
- Kategorie: PySpark
Wichtige Details

Zu Ihrem LinkedIn-Profil hinzufĂźgen
Nur als Desktop-Version verfĂźgbar
Erfahren Sie, wie Mitarbeiter fĂźhrender Unternehmen gefragte Kompetenzen erwerben.

Lernen, Ăben und Anwenden von berufsrelevanten Fähigkeiten in weniger als 2 Stunden
- Nehmen Sie an Schulungen von Branchenexperten teil
- Sammeln Sie mit Aufgaben aus der realen Welt praktische Erfahrung
- Schaffen Sie Vertrauen durch neueste Tools und Technologien

Ăber dieses begleitete Projekt
Schritt fĂźr Schritt lernen
In einem Video, das auf einer Hälfte Ihres Arbeitsbereichs abgespielt wird, fßhrt Sie Ihr Dozent durch diese Schritte:
Prepare the Google Colab for distributed data processing
Mounting our Google Drive into Google Colab environment
Importing first file of our Dataset (1 Gb) into pySpark dataframe
Applying some Queries to extract useful information out of our data
Importing second file of our Dataset (3 Mb) into pySpark dataframe
Joining two dataframes and prepapre it for more advanced queries
Learn visualizing our query results using matplotlib
Empfohlene Erfahrung
Learners should be familiar with Python programming Language, Spark Technology and have a little experience working with google colab environment
5 Projektbilder
Dozent

von
Was Sie beim Lernen erwartet
Auf Kompetenzen basierendes, praktisches Lernen
Ăben Sie die Anwendung neuer Kompetenzen anhand von berufsbezogenen Aufgabenstellungen.
Anleitung durch Experten
Lernen Sie mit vorab von Experten aufgezeichneten Videos in einer einzigartigen aufgeteilten Oberfläche.
Keine Downloads oder Installation erforderlich
Greifen Sie in einem vordefinierten Cloud-Arbeitsbereich auf die Tools und Ressourcen zu.
Nur fĂźr Desktop verfĂźgbar
Dieses begleitete Projekt ist fßr die Bearbeitung an einem Laptop oder Desktop-Computer mit stabiler Internetverbindung konzipiert und nicht fßr Mobilgeräte.
Warum entscheiden sich Menschen fĂźr Coursera fĂźr ihre Karriere?

Felipe M.

Jennifer J.

Larry W.

Chaitanya A.
Bewertungen von Lernenden
- 5 stars
62,38Â %
- 4 stars
25,07Â %
- 3 stars
8,46Â %
- 2 stars
1,56Â %
- 1 star
2,50Â %
Zeigt 3 von 319 an
GeprĂźft am 2. Nov. 2020
This course has help equip me with a lot of experience on data analysis and i really love it. Thank you Ahmad Varasteh.A big thanks to Coursera for creating such a wonderful opportunity.
GeprĂźft am 15. Nov. 2020
Best guided project for an introduction to the PySpark
GeprĂźft am 21. Aug. 2020
Ok, but needs a longer explanation of the functions that are used and its range of possibilites.
Ihnen kĂśnnte auch Folgendes gefallen:
Status: Kostenloser Testzeitraum
Status: Kostenloser Testzeitraum
Status: Kostenloser TestzeitraumEdureka





