Cmotions Academy

PySpark

Halfdaagse training

Werk je met steeds grotere datasets en wil je leren hoe je deze efficient verwerkt met Python? In deze training maak je kennis met PySpark, de Python-interface voor Apache Spark: een krachtig framework dat speciaal is ontworpen voor het snel en schaalbaar verwerken van grote hoeveelheden data.

Je leert stap voor stap hoe Spark werkt, hoe je data ophaalt, bewerkt en opslaat met behulp van DataFrames. De training bestaat uit een combinatie van duidelijke uitleg en praktische oefeningen, zodat je de theorie direct toepast in de praktijk.

Na afloop kun je zelfstandig aan de slag met PySpark in jouw rol als data engineer of data scientist en leer je hoe Spark onder de motorkap werkt!

Alles over jouw training

Compleet overzicht trainingsinformatie

In onderstaande tabbladen vind je alle informatie over de training. Heb je na het lezen van de informatie nog vragen, neem dan gerust contact met ons op.

Wat je leert tijdens de training

Na deze training heb je kennis van:

  • Wat Apache Spark is en wanneer je het nodig hebt
  • Hoe Spark werkt
  • Hoe je data extracties kunt doen met PySpark
  • Hoe je DataFrame transformaties toepast
  • Hoe je DataFrames opslaat

De training bestaat uit een combinatie van theorie en interactieve opdrachten.

Programma:

De volgende modules maken deel uit van de training:

  • Introductie van Apache Spark
    • Wat is Apache Spark?
    • Wanneer gebruik je Spark?
    • Wat is PySpark?
  • Hoe werkt Spark?
    • Spark Componenten: Cluser, Driver & Executors
    • Data Structures: RDD’s & dataframes
    • Transformation & actions
  • Data extracties met PySpark
    • Parquet, JDBC en Delta lezen
    • Opdracht 1: CSV Extractie
    • DataFrame Schema’s
    • Opdracht 2: Pas een schema toe
  • DataFrame transformaties
    • Werken met kolommen
    • Filters toepassen
    • Conditionele logica
    • Opdracht 3: Kolommen toevoegen
    • Joinen en union
    • Aggregaties
    • Opdracht 4: Aggregeren
  •  DataFrames opslaan
    • DataFrame opslaan
    • Opdracht 5: DataFrames opslaan

Benodigde voorkennis

Er is basiskennis en gebruik van Python benodigd.

Kosten training

Deze training is beschikbaar op aanvraag en kan worden verzorgd op locatie bij ons of op jouw eigen locatie.
De investering bedraagt € 2.000,- per trainingsdag, met een maximum van 6 deelnemers.

Voor grotere groepen van meer dan 6 personen, bieden wij een maatwerkvoorstel met een aangepast tarief, afgestemd op het aantal deelnemers en de gewenste invulling van de training.

Neem gerust contact met ons op voor een passend voorstel.

Locatie training

Deze training is beschikbaar als klassikale sessie of incompany (in-house).

Incompany training kan worden verzorgd:

  • Op locatie bij ons, of
  • Op jouw eigen locatie

Aantal deelnemers (incompany): maximaal 6 per sessie

Trainingslocatie Breda

Stadionstraat 36
4815 NG Breda

Trainingslocatie Utrecht

Papendorpseweg 91-99
3528 BJ Utrecht

Andere Data Science trainingen:

Wil je andere Data Science trainingen volgen, kijk dan eens bij onderstaande trainingen.

Meld je nu aan voor PySpark

Inschrijven training

Wil je deelnemen aan de training, vul het onderstaande formulier in om je aan te melden. Wanneer je dat wil, kan je ook gelijk andere collega’s voor de training inschrijven. Vink hiervoor de optie ‘Ja, ik wil graag meer collega’s inschrijven’ op het inschrijfformulier aan.

Trainingen van topkwaliteit

Bij de Cmotions Academy staat kwaliteit voorop. We besteden veel tijd en aandacht aan ons lesmateriaal en werken uitsluitend met ervaren trainers. Dit is wat je van onze trainingen kan verwachten.

  • Ervaren trainers met praktijkkennis
  • Online leeromgeving met lesmateriaal
  • Deelnemers ontvangen Certificaat van deelname
  • Volop aandacht door kleine groepen
  • Onze trainingen scoren gemiddeld 8,6

Alles over jouw training

Recente reacties
    Archieven
    Categorieën
    • Geen categorieën
    Ads