S'initier à Apache Spark
- Présenter Apache Spark et ses caractéristiques clés
- Examiner l'historique et l'évolution de Spark
- Décrire l'architecture de base de Spark et ses composants
- Comparer Spark avec d'autres systèmes de traitement de données
- Illustrer les cas d'utilisation courants de Spark dans différentes industries
- Expliquer l'écosystème Spark et ses projets connexes
Comprendre le traitement de données batch avec Spark
- Comprendre les concepts du traitement de données batch
- Manipuler les données avec les Resilient Distributed Datasets (RDD)
- Effectuer des opérations de transformation et d'action sur les RDD
- Utiliser Spark SQL pour le traitement de données structurées
- Optimiser les performances du traitement de données batch
- Intégrer des sources de données externes avec Spark
Explorer le traitement en temps réel avec Spark Streaming
- Découvrir le traitement en temps réel avec Spark Streaming
- Créer des flux de données en continu avec DStreams
- Utiliser les opérations de fenêtrage pour l'analyse en temps réel
- Gérer les fenêtres glissantes et temporelles
- Intégrer des sources de données en streaming
- Appliquer des pratiques de conception pour le traitement en temps réel avec Spark
Découvrir le traitement de graphes avec Spark GraphX
- Introduire le traitement de graphes avec Spark GraphX
- Représenter et manipuler les graphes avec GraphX
- Réaliser des calculs de graphes et explorer les algorithmes courants
- Utiliser GraphFrames pour l'analyse de graphes
- Examiner des applications pratiques du traitement de graphes dans divers domaines
- Optimiser les performances pour le traitement de graphes
Pratiquer l'apprentissage automatique avec Spark MLlib
- Présenter l'apprentissage automatique avec Spark MLlib
- Préparer et transformer les données pour l'apprentissage automatique
- Entraîner des modèles de régression, de classification et de clustering
- Utiliser des pipelines pour créer des flux de travail d'apprentissage automatique
- Évaluer et ajuster les modèles en utilisant des métriques de performance
- Intégrer des algorithmes d'apprentissage profond avec Spark
Intégrer et déployer des applications Spark
- Intégrer Spark avec des systèmes de stockage et de traitement de données
- Utiliser des outils de gestion de clusters pour déployer Spark
- Créer des applications Spark autonomes et distribuées
- Optimiser les ressources et configurer le cluster
- Surveiller et gérer les performances des applications Spark
- Déployer des applications Spark sur des environnements cloud