Référence: 241193117F

Mise à jour le 07/05/2026

Python sur Spark avec Databricks

Data Value

Niveau de sortie : Sans Niveau spécifique

Pour cette formation

3 sessions disponibles

Objectifs

Maîtriser la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python sur un environnement Databricks.

Programme

- Présentation de Databricks

Historique
Différence entre l’utilisation Administrateur et Utilisateur
Comment mettre en place un projet sur Databricks/AWS
Comment créer un cluster de calcul avec Databricks/AWS
Gestion des notebooks, des utilisateurs et des ressources

- Introduction à Spark

Rappels sur le Big Data
Présentation de Spark: Spark RDD, Spark SQL, Spark MLlib, Spark GraphX
Configurer un Spark Context et une Spark Session
Gestion de la mémoire sous Spark

- Présentation de PySpark et l’API Pyspark RDD

Présentation de Pyspark et fonctionnement avec les Java Virtual Machines
Présentation de l’API Pyspark RDD et manipulation de données non structurées
Mise en pratique avec des fichiers textes (comptage de mots, nettoyage d’un fichier texte structuré) et avec des opérations d’agrégation sur PairRDDs

- Utilisation de l’API Pyspark SQL

Présentation de l’API Pyspark SQL
Lecture de fichiers csv, json, parquet et sauvegarde de fichier
Nettoyage et manipulation de données
Groupby et agrégation
Jointure de tables
Lien entre SQL et Python
Manipulation d’objets Row, et Window
Manipulation de dates
Utilisation de User Defined Function et de Pandas User Defined functions
Présentation de Pyspark Pandas
Nombreuses mises en pratique sur des jeux de données

- Introduction au Machine Learning

Qu’est-ce que le Machine Learning? Apprentissages supervisé et non supervisé
Compromis Biais Variance
Modèles Linéaires
Modèles Non Linéaires
Modèles ensemblistes
Modèles de clustering
Métriques et évaluation des performances

- Machine Learning avec PySpark

Différence entre MLlib SQL et MLlib RDD
Les transformations de processing sur les données et notions de Pipeline
Mise en pratique avec des modèles de Machine Learning sur des problématiques de clustering, de classification (données numériques et texte)
Evaluation des performances avec Pyspark MLlib
Utilisation de la librairie Xgboost sous un environnement Spark
Utilisation de Pandas UDF pour faire tourner des modèles scikit-learn ou tensorflow en inférence

=> En savoir plus

Certifications et métiers visés

Consulter le diplôme, titre ou certificat... délivrés en fin de formation ainsi que les métiers auxquels cette formation vous donne accès.

Résultats attendus

Attention, cette formation ne conduit pas à une certification ou une habilitation inscrite au RNCP.
- Connaître l’environnement Databricks
- Se familiariser avec la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python
- Savoir manipuler de grands volumes de données avec Pyspark
- Mettre en oeuvre des méthodes de Machine Learning avec Pyspark

Métier(s) correspondant(s)

Nom du métier	Lien vers la fiche du métier
M1805 : Études et développement informatique	Fiche métier - nouvel onglet

3 sessions : Python sur Spark avec Databricks

Data Value

Organisation

Durée

Durée en centre	35 h
Durée totale	35 h

Recrutement

Pré-requis	Pour suivre ce stage dans de bonnes conditions, il est recommandé d'avoir suivi en amont la formation Python – Bases et introduction aux librairies scientifiques ou d'avoir atteint par la pratique un niveau équivalent

Modalités

Rythme de formation	En continu, Temps plein
Modalités d'enseignement	Formation en présentiel

Financement

Entreprise

Public	En emploi salarié
Dispositif	Plan de Développement des Compétences

Financement individuel

Public	Tout public
Dispositif	Dispositifs individuels

Identifiez toutes les possibilités de financement avec un conseiller CEP - nouvel onglet

Contacts

Organisme formateur

Data Value

41 Rue de la Découverte
Labège 31670

Tél : 09 72 56 75 67

E-mail : formation@datavalue.fr

Site web de l'organisme - nouvel onglet

Organisme responsable

Data Value

Référent

Cédric CALAS

Tél : 09 72 56 75 67

E-mail : cedric.calas@datavalue.fr

Bons plans

Trouver un logement pour votre formation / stage sur le site partenaire - nouvel onglet

Data Value

Session terminée

Organisation

Durée

Durée en centre	35 h
Durée totale	35 h

Recrutement

Pré-requis	Pour suivre ce stage dans de bonnes conditions, il est recommandé d'avoir suivi en amont la formation Python – Bases et introduction aux librairies scientifiques ou d'avoir atteint par la pratique un niveau équivalent

Modalités

Rythme de formation	En continu, Temps plein
Modalités d'enseignement	Formation en présentiel

Financement

Entreprise

Public	En emploi salarié
Dispositif	Plan de Développement des Compétences

Financement individuel

Public	Tout public
Dispositif	Dispositifs individuels

Identifiez toutes les possibilités de financement avec un conseiller CEP - nouvel onglet

Contacts

Organisme formateur

Data Value

41 Rue de la Découverte
Labège 31670

Tél : 09 72 56 75 67

E-mail : formation@datavalue.fr

Site web de l'organisme - nouvel onglet

Organisme responsable

Data Value

Référent

Cédric CALAS

Tél : 09 72 56 75 67

E-mail : cedric.calas@datavalue.fr

Bons plans

Trouver un logement pour votre formation / stage sur le site partenaire - nouvel onglet

Data Value

Session terminée

Organisation

Durée

Durée en centre	35 h
Durée totale	35 h

Recrutement

Pré-requis	Pour suivre ce stage dans de bonnes conditions, il est recommandé d'avoir suivi en amont la formation Python – Bases et introduction aux librairies scientifiques ou d'avoir atteint par la pratique un niveau équivalent

Modalités

Rythme de formation	En continu, Temps plein
Modalités d'enseignement	Formation en présentiel

Financement

Entreprise

Public	En emploi salarié
Dispositif	Plan de Développement des Compétences

Financement individuel

Public	Tout public
Dispositif	Dispositifs individuels

Identifiez toutes les possibilités de financement avec un conseiller CEP - nouvel onglet

Contacts

Organisme formateur

Data Value

41 Rue de la Découverte
Labège 31670

Tél : 09 72 56 75 67

E-mail : formation@datavalue.fr

Site web de l'organisme - nouvel onglet

Organisme responsable

Data Value

Référent

Cédric CALAS

Tél : 09 72 56 75 67

E-mail : cedric.calas@datavalue.fr

Bons plans

Trouver un logement pour votre formation / stage sur le site partenaire - nouvel onglet