Référence: 241193117F

/

Mise à jour le

Python sur Spark avec Databricks

Data Value

Cet organisme a obtenu la marque « Qualiopi » pour ses actions de formation.

Niveau de sortie : Sans Niveau spécifique

Pour cette formation

2 sessions disponibles

Consulter

Objectifs


Maîtriser la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python sur un environnement Databricks.

Programme

- Présentation de Databricks
  • Historique
  • Différence entre l’utilisation Administrateur et Utilisateur
  • Comment mettre en place un projet sur Databricks/AWS
  • Comment créer un cluster de calcul avec Databricks/AWS
  • Gestion des notebooks, des utilisateurs et des ressources
- Introduction à Spark
  • Rappels sur le Big Data
  • Présentation de Spark: Spark RDD, Spark SQL, Spark MLlib, Spark GraphX
  • Configurer un Spark Context et une Spark Session
  • Gestion de la mémoire sous Spark
- Présentation de PySpark et l’API Pyspark RDD
  • Présentation de Pyspark et fonctionnement avec les Java Virtual Machines
  • Présentation de l’API Pyspark RDD et manipulation de données non structurées
  • Mise en pratique avec des fichiers textes (comptage de mots, nettoyage d’un fichier texte structuré) et avec des opérations d’agrégation sur PairRDDs
- Utilisation de l’API Pyspark SQL
  • Présentation de l’API Pyspark SQL
  • Lecture de fichiers csv, json, parquet et sauvegarde de fichier
  • Nettoyage et manipulation de données
  • Groupby et agrégation
  • Jointure de tables
  • Lien entre SQL et Python
  • Manipulation d’objets Row, et Window
  • Manipulation de dates
  • Utilisation de User Defined Function et de Pandas User Defined functions
  • Présentation de Pyspark Pandas
  • Nombreuses mises en pratique sur des jeux de données
- Introduction au Machine Learning
  • Qu’est-ce que le Machine Learning? Apprentissages supervisé et non supervisé
  • Compromis Biais Variance
  • Modèles Linéaires
  • Modèles Non Linéaires
  • Modèles ensemblistes
  • Modèles de clustering
  • Métriques et évaluation des performances
- Machine Learning avec PySpark
  • Différence entre MLlib SQL et MLlib RDD
  • Les transformations de processing sur les données et notions de Pipeline
  • Mise en pratique avec des modèles de Machine Learning sur des problématiques de clustering, de classification (données numériques et texte)
  • Evaluation des performances avec Pyspark MLlib
  • Utilisation de la librairie Xgboost sous un environnement Spark
  • Utilisation de Pandas UDF pour faire tourner des modèles scikit-learn ou tensorflow en inférence

Certifications et métiers visés

Consulter le diplôme, titre ou certificat... délivrés en fin de formation ainsi que les métiers auxquels cette formation vous donne accès.

Résultats attendus

- Connaître l’environnement Databricks
- Se familiariser avec la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python
- Savoir manipuler de grands volumes de données avec Pyspark
- Mettre en oeuvre des méthodes de Machine Learning avec Pyspark

Métier(s) correspondant(s)

Nom du métier Lien vers la fiche du métier
M1805 : Études et développement informatique Fiche métier - nouvel onglet

2 sessions : Python sur Spark avec Databricks

  • au

    Data Value

    Cet organisme a obtenu la marque « Qualiopi » pour ses actions de formation.

    • Commune : Lyon 2e (69)

    Formation professionnelle

  • au

    Data Value

    Cet organisme a obtenu la marque « Qualiopi » pour ses actions de formation.

    • Commune : Lyon 2e (69)

    Formation professionnelle