Référence: 2205286F

Mise à jour le 07/05/2026

Python pour le big data

Data Value

Niveau de sortie : Sans Niveau spécifique

Pour cette formation

3 sessions disponibles

Objectifs

Utiliser le langage Python pour manipuler et visualiser de grands ensembles de données (big data) en exploitant ses nombreuses librairies scientifiques

Programme

- Concepts du Big Data

Cette introduction permet de vous initier à la problématique du Big Data
Volume, Vitesse, Véracité
Map Reduce
Architecture Big Data et Data Lake
Big Data et Cloud computing
Les outils du Big Data

- Introduction à la librairie Dask

Dask est une librairie qui permet de faire du calcul distribué sur plusieurs cœurs ou plusieurs machines avec la possibilité d’utiliser un scheduler. Dask peut donc accélérer le calcul sur de larges volumes de données.
Présentation de Dask
Exemple de calculs distribués
Dask et Numpy : comparaison de performances
Dask et Pandas

- Introduction à la librairie Xarray

Xarray est une librairie Python qui s’appuie sur Numpy et permet de manipuler de larges volumes de données. Cette librairie est particulièrement efficace pour des fichiers netCDF et peut s’utiliser de concert avec Dask
Présentation de Xarray
Exemples d’utilisation de Xarray
Mise en pratique avec un fichier netCDF

- Introduction à la librairie Vaex

Vaex est une librairie qui ressemble beaucoup à pandas mais qui fait des calculs à la volée sans gaspiller l’usage de la RAM. On peut dès lors traiter des données qui ont près de 1 milliard de lignes à la seconde.
Présentation de Vaex
Prise en main de Vaex avec des exemples
Comparaison entre Vaex et Pandas
Visualisation des données avec Vaex

- Introduction à Spark

Spark est un outil permettant le passage à l’échelle pour la gestion des données et le calcul distribué. Bien que géré par Apache, Spark est en Open Source et peut s’utiliser avec plusieurs langages dont Python
Présentation de Spark
Architecture Apache Spark
Autres outils associés à Spark (Yarn, Mesos)
Resilient Distributed Dataset (RDD)
Présentation et Installation de PySpark

- Introduction à PySpark

Vous verrez grâce une mise en pratique sur une journée la prise en main de PySpark, comment lire et gérer des données, comment appliquer des fonctions sur les données et comment appliquer une réduction de dimension

- Visualisation des données massives avec Holoviews

Manipuler des gros volumes de données n’est pas toujours suffisants, on veut pouvoir aussi les visualiser. La librairie Holoviews permet aussi bien de transformer des données massives que de les visualiser.
Présentation et prise en main d’Holoviews
Interactivité avec Holoviews

=> En savoir plus

Certifications et métiers visés

Consulter le diplôme, titre ou certificat... délivrés en fin de formation ainsi que les métiers auxquels cette formation vous donne accès.

Résultats attendus

Attention, cette formation ne conduit pas à une certification ou une habilitation inscrite au RNCP.
- Connaître les problématiques du Big Data
- Connaître les différentes librairies Python permettant de manipuler le Big Data
- Savoir manipuler de grands volumes de données
- Avoir des notions sur l’architecture Big Data

3 sessions : Python pour le big data

Data Value

Organisation

Durée

Durée en centre	35 h
Durée totale	35 h

Recrutement

Pré-requis	Pour suivre ce stage dans de bonnes conditions, il est recommandé d'avoir suivi en amont la formation Python – Bases et introduction aux librairies scientifiques ou d'avoir atteint par la pratique un niveau équivalent.

Modalités

Rythme de formation	En continu, Temps plein
Modalités d'enseignement	Formation en présentiel

Financement

Entreprise

Public	En emploi salarié
Dispositif	Plan de Développement des Compétences

Financement individuel

Public	Tout public
Dispositif	Dispositifs individuels

Identifiez toutes les possibilités de financement avec un conseiller CEP - nouvel onglet

Contacts

Organisme formateur

Data Value

41 Rue de la Découverte
Labège 31670

Tél : 09 72 56 75 67

E-mail : formation@datavalue.fr

Site web de l'organisme - nouvel onglet

Organisme responsable

Data Value

Référent

Cédric CALAS

Tél : 09 72 56 75 67

E-mail : cedric.calas@datavalue.fr

Bons plans

Trouver un logement pour votre formation / stage sur le site partenaire - nouvel onglet

Data Value

Session terminée

Organisation

Durée

Durée en centre	35 h
Durée totale	35 h

Recrutement

Pré-requis	Pour suivre ce stage dans de bonnes conditions, il est recommandé d'avoir suivi en amont la formation Python – Bases et introduction aux librairies scientifiques ou d'avoir atteint par la pratique un niveau équivalent.

Modalités

Rythme de formation	En continu, Temps plein
Modalités d'enseignement	Formation en présentiel

Financement

Entreprise

Public	En emploi salarié
Dispositif	Plan de Développement des Compétences

Financement individuel

Public	Tout public
Dispositif	Dispositifs individuels

Identifiez toutes les possibilités de financement avec un conseiller CEP - nouvel onglet

Contacts

Organisme formateur

Data Value

41 Rue de la Découverte
Labège 31670

Tél : 09 72 56 75 67

E-mail : formation@datavalue.fr

Site web de l'organisme - nouvel onglet

Organisme responsable

Data Value

Référent

Cédric CALAS

Tél : 09 72 56 75 67

E-mail : cedric.calas@datavalue.fr

Bons plans

Trouver un logement pour votre formation / stage sur le site partenaire - nouvel onglet

Data Value

Session terminée

Organisation

Durée

Durée en centre	35 h
Durée totale	35 h

Recrutement

Pré-requis	Pour suivre ce stage dans de bonnes conditions, il est recommandé d'avoir suivi en amont la formation Python – Bases et introduction aux librairies scientifiques ou d'avoir atteint par la pratique un niveau équivalent.

Modalités

Rythme de formation	En continu, Temps plein
Modalités d'enseignement	Formation en présentiel

Financement

Entreprise

Public	En emploi salarié
Dispositif	Plan de Développement des Compétences

Financement individuel

Public	Tout public
Dispositif	Dispositifs individuels

Identifiez toutes les possibilités de financement avec un conseiller CEP - nouvel onglet

Contacts

Organisme formateur

Data Value

41 Rue de la Découverte
Labège 31670

Tél : 09 72 56 75 67

E-mail : formation@datavalue.fr

Site web de l'organisme - nouvel onglet

Organisme responsable

Data Value

Référent

Cédric CALAS

Tél : 09 72 56 75 67

E-mail : cedric.calas@datavalue.fr

Bons plans

Trouver un logement pour votre formation / stage sur le site partenaire - nouvel onglet