Articles

Tutoriel Apache Spark & Scala

Qu’est-ce qu’Apache Spark ?

Apache Spark est un framework de calcul en cluster open source initialement développé à l’Université de Berkeley dans l’AMPLab.

Par rapport au MapReduce à deux étages basé sur disque de Hadoop, Spark offre des performances jusqu’à 100 fois plus rapides pour quelques applications avec des primitives en mémoire.

Cela le rend adapté aux algorithmes d’apprentissage automatique, car il permet aux programmes de charger des données dans la mémoire d’un cluster et d’interroger les données en permanence.

Un projet Spark contient divers composants tels que Spark Core et des jeux de données distribués résilients ou RDDs, Spark SQL, Spark Streaming, Machine Learning Library ou Mllib et GraphX.

Dans la section suivante du tutoriel Apache Spark et Scala, parlons de ce qu’est Apache Spark.

Qu’est-ce qu’Apache Scala ?

Scala est un langage de programmation moderne et multi-paradigme. Il a été conçu pour exprimer des modèles de programmation généraux de manière élégante, précise et sûre. L’une des principales caractéristiques est qu’il intègre les fonctionnalités des langages orientés objet et fonctionnels en douceur.

C’est un langage orienté objet pur, car chaque valeur qu’il contient est un objet. Le comportement et les types des objets sont expliqués par des traits et des classes.

C’est aussi un langage fonctionnel, car chaque fonction qu’il contient est une valeur. En fournissant une syntaxe légère pour définir des fonctions anonymes, il prend en charge les fonctions d’ordre supérieur.

De plus, le langage permet également d’imbriquer des fonctions et fournit un support pour le transport. Il a également des fonctionnalités telles que les classes de cas et la prise en charge des types algébriques de modèle de correspondance de modèle.

Scala est typé statiquement, étant doté d’un système de type expressif. Le système impose l’utilisation des abstractions de manière cohérente et sûre. Pour être particulier, ce système prend en charge diverses fonctionnalités telles que les annotations, les classes, les vues, les méthodes polymorphes, les types composés, les auto-références explicitement typées et les limites de type supérieures et inférieures.

Lorsqu’il s’agit de développer des applications spécifiques à un domaine, il faut généralement des extensions de langage spécifiques à un domaine. Scala, étant extensible, offre une combinaison exceptionnelle de mécanismes de langage. Pour cette raison, il devient facile d’ajouter de nouvelles constructions de langage en tant que bibliothèques

Dans la section suivante du tutoriel Apache Spark et Scala, nous discuterons des avantages des professionnels et organisations Apache Spark et Scala.

Avantages d’Apache Spark et Scala pour les professionnels et les organisations

Voici les avantages d’Apache Spark et Scala

  • Fournit un calcul de mémoire rapide et hautement fiable.

  • Efficace dans les requêtes interactives et les algorithmes itératifs.

  • Capacités de tolérance aux pannes en raison de l’abstraction primaire immuable nommée RDD.

  • Bibliothèques d’apprentissage automatique intégrées.

  • Fournit une plate-forme de traitement pour le streaming de données à l’aide du streaming spark.

  • Très efficace dans l’analyse en temps réel en utilisant spark streaming et spark sql.

  • Bibliothèques Graphx au-dessus du noyau spark pour les observations graphiques.

  • La compatibilité avec n’importe quelle api JAVA, SCALA, PYTHON, R facilite la programmation.

Dans la section suivante du tutoriel Apache Spark et Scala, nous discuterons des conditions préalables d’apache spark et scala.

Prérequis du didacticiel Apache Spark et Scala

La condition préalable de base du didacticiel Apache Spark et Scala est une connaissance fondamentale de tout langage de programmation est une condition préalable au didacticiel. Les participants doivent avoir une compréhension de base de toute base de données, SQL et langage de requête pour les bases de données. Une connaissance pratique des systèmes basés sur Linux ou Unix, bien qu’elle ne soit pas obligatoire, est un avantage supplémentaire pour ce tutoriel.

Explorons le public cible du tutoriel Apache Spark et Scala dans la section suivante.

Vous souhaitez en savoir plus sur Apache Spark &Scala ? Inscrivez-vous à notre cours Apache dès aujourd’hui !

Public cible du tutoriel Apache Spark et Scala

Le tutoriel s’adresse aux professionnels aspirant à une carrière dans les domaines croissants et exigeants de l’analyse de big data en temps réel. Les professionnels de l’analyse, les professionnels de la recherche, les développeurs informatiques, les testeurs, les analystes de données, les scientifiques des données, les professionnels de la BI et du reporting et les chefs de projet sont les principaux bénéficiaires de ce tutoriel. D’autres aspirants et étudiants, qui souhaitent acquérir une compréhension approfondie d’Apache Spark peuvent également bénéficier de ce tutoriel.

Laissez-nous explorer la vue d’ensemble du tutoriel Apache Spark et Scala dans la section suivante.

Aperçu du didacticiel Apache Spark et Scala

Le didacticiel de formation Apache Spark et Scala offert par Simplilearn fournit des détails sur les principes fondamentaux de l’analyse en temps réel et les besoins d’une plate-forme informatique distribuée.

Ce tutoriel va:

  • Expliquer Scala et ses fonctionnalités.

  • Améliorez vos connaissances de l’architecture d’Apache Spark.

  • Expliquez le processus d’installation et d’exécution des applications utilisant Apache Spark.

  • Améliorez vos connaissances sur l’exécution de SQL, le streaming et le traitement par lots.

  • Expliquez l’apprentissage automatique et l’analyse graphique sur les données Hadoop.

Dans la section suivante, nous discuterons des objectifs du tutoriel Apache Spark et Scala.

Objectifs

Après avoir terminé ce tutoriel, vous pourrez ::

  • Expliquer le processus d’installation de Spark

  • Décrire les fonctionnalités de Scala

  • Discuter de l’utilisation de RDD pour créer des applications dans Spark

  • Expliquer comment exécuter des requêtes SQL à l’aide de SparkSQL

  • Discuter des fonctionnalités de Spark Streaming

  • Expliquer les fonctionnalités de Programmation Spark ML

  • Décrivez les caractéristiques de la programmation GraphX

Laissez-nous explorer les leçons couvertes dans le tutoriel Apache Spark et Scala dans la section suivante.

Leçons couvertes dans ce tutoriel Apache Spark et Scala

Il y a sept leçons couvertes dans ce tutoriel. Jetez un coup d’œil aux noms des leçons qui sont listés ci-dessous

Aucune leçon

Nom du chapitre

Ce que vous apprendrez

Leçon 1

Introduction au tutoriel Spark

Dans ce chapitre, vous pourrez:

  • Décrire les limites de MapReduce dans Hadoop

  • Comparer batch vs. analyse en temps réel

  • Décrire l’application du traitement de flux et du traitement en mémoire.

  • Expliquez les caractéristiques et les avantages de Spark.

  • Expliquez comment installer Spark en tant qu’utilisateur autonome,

  • Comparez Spark à l’écosystème Hadoop.

Leçon 2

Introduction à la programmation dans le tutoriel Scala

Dans ce chapitre, vous pourrez:

  • Expliquer les fonctionnalités de Scala.

  • Liste les types de données de base et les littéraux utilisés dans Scala.

  • Liste les opérateurs et les méthodes utilisés dans Scala.

  • Discutez de quelques concepts de Scala.

Leçon 3

Utilisation de RDD pour créer des applications dans le Tutoriel Spark

Dans ce chapitre, vous pourrez ::

  • Expliquer les fonctionnalités des RDDs

  • Expliquer comment créer des RDDs

  • Décrire les opérations et méthodes RDD

  • Discuter de la façon d’exécuter un projet Spark avec SBT

  • Expliquer les fonctions RDD, et

  • Décrire comment écrire différents codes dans Scala

Leçon 4

Exécution de requêtes SQL à l’aide du tutoriel Spark SQL

Dans ce chapitre, vous pourrez ::

  • Expliquez l’importance et les caractéristiques de SparkSQL

  • Décrivez les méthodes de conversion des RDD en trames de données

  • Expliquez quelques concepts de SparkSQL et

  • Décrivez le concept d’intégration de ruche

Leçon 5

p>

Tutoriel Spark Streaming

Dans ce chapitre, vous pourrez ::

  • Expliquer quelques concepts de diffusion Spark

  • Décrire les sources de base et avancées

  • Expliquer le fonctionnement des opérations avec état

  • Expliquer les opérations de fenêtre et de jointure

Leçon 6

Programmation Spark ML Tutoriel

Dans ce chapitre, vous pourrez:

  • Expliquer les cas d’utilisation et les techniques de l’apprentissage automatique.

  • Décrivez les concepts clés de l’apprentissage automatique Spark.

  • Expliquez le concept d’un jeu de données d’apprentissage automatique.

  • Discutez de l’algorithme d’apprentissage automatique, de la sélection du modèle par validation croisée.

Leçon 7

Tutoriel de programmation Spark GraphX

Dans ce chapitre, vous pourrez ::

  • Expliquez les concepts fondamentaux de la programmation Spark GraphX

  • Discutez des limites du système parallèle de graphes

  • Décrivez les opérations avec un graphe et

  • Discutez des optimisations du système de graphes

Conclusion

Avec cela, nous arrivons à une fin sur ce que ce tutoriel Apache Spark et Scala incluent. Dans le chapitre suivant, nous discuterons d’une Introduction au tutoriel Spark.

{{lectureCoursePreviewTitle}} Voir la transcription Regarder la vidéo

Pour en savoir plus, suivez le Cours

Formation à la certification Apache Spark et Scala

6160 Apprenants

Aller au Cours

Pour en savoir plus, suivez le Cours

Formation à la certification Apache Spark et Scala Aller au Cours