Pyspark sur databricks pour les ingénieurs de données

Cette formation s’adresse aux professionnels qui souhaitent comprendre les principes de bases de PySpark et des outils Big Data.

OBJECTIFS

  • Comprendre les principes de PySpark et des outils Big Data.

  • Acquérir une première connaissance de PySpark pour le traitement des données.

DURÉE

3 jours
 

PRÉREQUIS

Connaissances de Python et Spark acquises du cours « Initiation à Python »

PUBLIC VISÉ

Chargé d’études statistiques, Actuaires et Data Scientists

PROGRAMME

Jour 1 :

Module 1 : Le monde Big Data

  • Le Big Data : pourquoi ?
  • Rappel aux outils principaux du Big Data : Hadoop, Map Reduce, Hive, Spark
  • Rappel Spark avec Python : PySpark

Module 2 : Analyse des données avec PySpark DataFrame et PySpark SQL

  • PySpark DataFrame comme API pour traiter données aux format tabulaire
  • PySpark SQL : un module Spark pour traiter les données comme des tables SQL
  • Demo: Aquistion, analyse, filtrage, nettoyage et sauvegarde des données avec
  • PySpark DataFrame et PySpark SQL
  • Lab : application des techniques montrées sur un jeux es données du domaine d’assurance

Jour 2 :

Module 3 : Pyspark et analyse des données

  • Analyse exploratoire de données avec PySpark
    • S’assurer de l’intégrité des données
    • Statistiques descriptives ; création de résumés statistiques
    • Création de graphiques exploratoires
  • Traitement de données manquantes
    • Suppression
    • Imputation : moyenne, médiane
    • Création d’une nouvelle catégorie
  • Nettoyage et normalisation de données
    • Normalisation de données scrappées
    • Traitement de données de date / heure
  • Analyse de données
    • Reduction de dimension
    • Clustering
  • Lab : application des techniques montrées sur un jeux es données du domaine d’assurance

Jour 3 :

Module 4 : PySpark et les données en temps réel

  • Les APIs de PySpark pour le traitement des données en temps réel :
    • Spark Streaming ○ Structured Streaming, nouvelle API basée sur DataFrame
  • Démo : Traitement des données avec Structured Streaming
    Lab : application des techniques montrées sur un jeux es données du domaine d’assurance

Module 5 : PySpark et les données de graphe

  • Les APIs de PySpark pour le traitement des données de graphe :
    • GraphFrames, nouvelle API basée sur DataFrame
  • Démo : Traitement des données avec GraphFrames
  • Lab : application des techniques montrées à données sur un jeux es données du domaine d’assurance
    • Impacts environnementaux

MODALITÉ D’ÉVALUATION

En début : 

– *Test de positionnement de connaissance

Pendant l’action de formation :

– *Test de formation, afin de valider les connaissances du stagiaire.
– La pédagogie est adaptée aux adultes (Participation active, mises en situation, exemples concrets, nombreux échanges à l’intérieur du groupe)
– La théorie est directement appliquée par le biais d’exercices sur des cas concrets,

A la fin de la formation : 

– *Test de fin de formation, afin de valider les connaissances acquises.
– En fin de formation : Une attestation de fin de formation est remise à chaque participant.

  • Des méthodes expositives
  • Méthodes participatives
  • Méthodes démonstratives
  • Méthodes actives

Un audit personnalisé sous forme de QCM sera envoyé au stagiaire avant le début de la formation ainsi qu’un appel téléphonique afin de cibler spécialement les attentes et les bases déjà présentes.

– Mise en pratique sur micro-ordinateur
– Un support de cours sera remis en fin de stage

En présentiel :
Au sein de nos locaux à Levallois-Perret pour les particuliers ou au sein des locaux des entreprises.

A distance :
Via différentes plateformes comme Zoom, Teams, Whatsapp, Skype avec possibilités d’autres plateformes selon votre convenance.

Délais d’accès à la formation :
– Nous nous engageons à mettre tout en œuvre pour vous apporter une réponse dans les meilleurs délais.
– Les délais d’accès moyens sont généralement inférieurs à 3 jours à compter de la date de signature de la convention de formation ou si CPF, acceptation sur mon compte formation. Ce délai suppose que les dates de planification proposées soient rapidement validées.

Accessibilité aux personnes en situation d’handicap :

– La formation est accessible aux personnes en situation de handicap. En cas d’impossibilité, nous vous orienterons vers des organismes adaptés, si nécessaire.

INTER : 450 € HT / Jour

INTRA : Durée et objectifs adaptés et sur mesure : tarifs sur devis

  • Performat Plus
  • Centre de formation
  • + de 100 formations
  • Sur place ou en présentiel
  • Performat Plus
  • Centre de formation
  • + de 100 formations
  • Sur place ou en présentiel
  • Performat Plus
  • Centre de formation
  • + de 100 formations
  • Sur place ou en présentiel