Pipeline de diffusion en continu de bout en bout avec Delta Live Tables dans Azure Databricks

La création d’un pipeline de diffusion en continu de bout en bout avec Delta Live Tables dans Azure Databricks implique la définition de transformations sur les données, que Delta Live Tables gère ensuite via l’orchestration des tâches, la gestion des clusters et la surveillance. Cette infrastructure prend en charge la diffusion en continu de tables pour la gestion des données mises à jour en continu, des vues matérialisées pour des transformations complexes et des vues pour les transformations intermédiaires et les vérifications de qualité des données.

Ce labo prend environ 30 minutes.

Provisionner un espace de travail Azure Databricks

Conseil : Si vous disposez déjà d’un espace de travail Azure Databricks, vous pouvez ignorer cette procédure et utiliser votre espace de travail existant.

Cet exercice inclut un script permettant d’approvisionner un nouvel espace de travail Azure Databricks. Le script tente de créer une ressource d’espace de travail Azure Databricks de niveau Premium dans une région dans laquelle votre abonnement Azure dispose d’un quota suffisant pour les cœurs de calcul requis dans cet exercice ; et suppose que votre compte d’utilisateur dispose des autorisations suffisantes dans l’abonnement pour créer une ressource d’espace de travail Azure Databricks. Si le script échoue en raison d’un quota insuffisant ou d’autorisations insuffisantes, vous pouvez essayer de créer un espace de travail Azure Databricks de manière interactive dans le portail Azure.

Dans un navigateur web, connectez-vous au portail Azure à l’adresse https://portal.azure.com.
Utilisez le bouton [>_] à droite de la barre de recherche, en haut de la page, pour créer un environnement Cloud Shell dans le portail Azure, en sélectionnant un environnement PowerShell et en créant le stockage si vous y êtes invité. Cloud Shell fournit une interface de ligne de commande dans un volet situé en bas du portail Azure, comme illustré ici :

Remarque : si vous avez créé un shell cloud qui utilise un environnement Bash, utilisez le menu déroulant en haut à gauche du volet Cloud Shell pour le remplacer par PowerShell.
Notez que vous pouvez redimensionner le volet Cloud Shell en faisant glisser la barre de séparation en haut du volet. Vous pouvez aussi utiliser les icônes — , ◻ et X situées en haut à droite du volet pour réduire, agrandir et fermer le volet. Pour plus d’informations sur l’utilisation d’Azure Cloud Shell, consultez la documentation Azure Cloud Shell.

Dans le volet PowerShell, entrez les commandes suivantes pour cloner ce référentiel :

 rm -r mslearn-databricks -f
 git clone https://github.com/MicrosoftLearning/mslearn-databricks

Une fois le référentiel cloné, entrez la commande suivante pour exécuter le script setup.ps1, qui approvisionne un espace de travail Azure Databricks dans une région disponible :
```
 ./mslearn-databricks/setup.ps1
```
Si vous y êtes invité, choisissez l’abonnement à utiliser (uniquement si vous avez accès à plusieurs abonnements Azure).
Attendez que le script se termine. Cela prend généralement environ 5 minutes, mais dans certains cas, cela peut prendre plus de temps. Pendant que vous attendez, consultez l’article Présentation de Delta Lake dans la documentation Azure Databricks.

Créer un cluster

Azure Databricks est une plateforme de traitement distribuée qui utilise des clusters Apache Spark pour traiter des données en parallèle sur plusieurs nœuds. Chaque cluster se compose d’un nœud de pilote pour coordonner le travail et les nœuds Worker pour effectuer des tâches de traitement. Dans cet exercice, vous allez créer un cluster à nœud unique pour réduire les ressources de calcul utilisées dans l’environnement du labo (dans lequel les ressources peuvent être limitées). Dans un environnement de production, vous créez généralement un cluster avec plusieurs nœuds Worker.

Conseil : Si vous disposez déjà d’un cluster avec une version 13.3 LTS ou ultérieure du runtime dans votre espace de travail Azure Databricks, vous pouvez l’utiliser pour effectuer cet exercice et ignorer cette procédure.

Dans le Portail Microsoft Azure, accédez au groupe de ressources msl-xxxxxxx créé par le script (ou le groupe de ressources contenant votre espace de travail Azure Databricks existant)
Sélectionnez votre ressource de service Azure Databricks (nommée databricks-xxxxxxx si vous avez utilisé le script d’installation pour la créer).
Dans la page Vue d’ensemble de votre espace de travail, utilisez le bouton Lancer l’espace de travail pour ouvrir votre espace de travail Azure Databricks dans un nouvel onglet de navigateur et connectez-vous si vous y êtes invité.

Conseil : lorsque vous utilisez le portail de l’espace de travail Databricks, plusieurs conseils et notifications peuvent s’afficher. Ignorez-les et suivez les instructions fournies pour effectuer les tâches de cet exercice.
Dans la barre latérale située à gauche, sélectionnez la tâche (+) Nouveau, puis sélectionnez Cluster.
Dans la page Nouveau cluster, créez un cluster avec les paramètres suivants :
- Nom du cluster : cluster de nom d’utilisateur (nom de cluster par défaut)
- Stratégie : Non restreint
- Mode cluster : nœud unique
- Mode d’accès : un seul utilisateur (avec votre compte d’utilisateur sélectionné)
- Version du runtime Databricks : 13.3 LTS (Spark 3.4.1, Scala 2.12) ou version ultérieure
- Utiliser l’accélération photon : sélectionné
- Type de nœud : Standard_D4ds_v5
- Arrêter après 20 minutes d’inactivité
Attendez que le cluster soit créé. Cette opération peut prendre une à deux minutes.

Remarque : si votre cluster ne démarre pas, le quota de votre abonnement est peut-être insuffisant dans la région où votre espace de travail Azure Databricks est approvisionné. Pour plus d’informations, consultez l’article La limite de cœurs du processeur empêche la création du cluster. Si cela se produit, vous pouvez essayer de supprimer votre espace de travail et d’en créer un dans une autre région. Vous pouvez spécifier une région comme paramètre pour le script d’installation comme suit : ./mslearn-databricks/setup.ps1 eastus

Créer un notebook et ingérer des données

Dans la barre latérale, cliquez sur le lien (+) Nouveau pour créer un notebook. Dans la liste déroulante Connexion, sélectionnez votre cluster s’il n’est pas déjà sélectionné. Si le cluster n’est pas en cours d’exécution, le démarrage peut prendre une minute.
Dans la première cellule du notebook, entrez le code suivant, qui utilise des commandes du shell pour télécharger des fichiers de données depuis GitHub dans le système de fichiers utilisé par votre cluster.
```
 %sh
 rm -r /dbfs/device_stream
 mkdir /dbfs/device_stream
 wget -O /dbfs/device_stream/device_data.csv https://github.com/MicrosoftLearning/mslearn-databricks/raw/main/data/device_data.csv
```
Utilisez l’option de menu ▸ Exécuter la cellule à gauche de la cellule pour l’exécuter. Attendez ensuite que le travail Spark s’exécute par le code.

Utiliser des tables delta pour les données de streaming

Delta Lake prend en charge les données de diffusion en continu. Les tables delta peuvent être un récepteur ou une source pour des flux de données créés en utilisant l’API Spark Structured Streaming. Dans cet exemple, vous allez utiliser une table delta comme récepteur pour des données de streaming dans un scénario IoT (Internet des objets) simulé. Dans la tâche suivante, cette table delta fonctionne en tant que source de transformation de données en temps réel.

Dans une nouvelle cellule, exécutez le code suivant pour créer un flux en fonction du dossier contenant les données de l’appareil CSV :

 from pyspark.sql.functions import *
 from pyspark.sql.types import *

 # Define the schema for the incoming data
 schema = StructType([
     StructField("device_id", StringType(), True),
     StructField("timestamp", TimestampType(), True),
     StructField("temperature", DoubleType(), True),
     StructField("humidity", DoubleType(), True)
 ])

 # Read streaming data from folder
 inputPath = '/device_stream/'
 iotstream = spark.readStream.schema(schema).option("header", "true").csv(inputPath)
 print("Source stream created...")

 # Write the data to a Delta table
 query = (iotstream
          .writeStream
          .format("delta")
          .option("checkpointLocation", "/tmp/checkpoints/iot_data")
          .start("/tmp/delta/iot_data"))

Utilisez l’option de menu ▸ Exécuter la cellule à gauche de la cellule pour l’exécuter.

Cette table delta deviendra désormais la source de la transformation des données en temps réel.

Remarque : la cellule de code ci-dessus crée le flux source. Par conséquent, l’exécution du travail ne passe jamais au statut Terminé. Pour arrêter manuellement la diffusion en continu, vous pouvez exécuter query.stop() dans une nouvelle cellule.

Créer un pipeline de table Delta Live

Un pipeline est l’unité principale utilisée pour configurer et exécuter des workflows de traitement des données avec Delta Live Tables. Il lie des sources de données à des jeux de données cibles via un graphe orienté acyclique (DAG) déclaré en Python ou SQL.

Sélectionnez Delta Live Tables dans la barre latérale gauche, puis sélectionnez Créer un pipeline.
Dans la page Créer un pipeline, créez un pipeline avec les paramètres suivants :
- Nom du pipeline : donnez un nom au pipeline.
- Édition du produit : Avancé
- Mode pipeline : déclenché
- Code source : laissez vide
- Options de stockage : metastore Hive
- Emplacement de stockage : dbfs:/pipelines/device_stream
Sélectionnez Créer.
Une fois le pipeline créé, ouvrez le lien vers le notebook vide sous Code source dans le volet droit :

Dans la première cellule du notebook, entrez le code suivant pour créer Delta Live Tables et transformer les données :

 import dlt
 from pyspark.sql.functions import col, current_timestamp
     
 @dlt.table(
     name="raw_iot_data",
     comment="Raw IoT device data"
 )
 def raw_iot_data():
     return spark.readStream.format("delta").load("/tmp/delta/iot_data")

 @dlt.table(
     name="transformed_iot_data",
     comment="Transformed IoT device data with derived metrics"
 )
 def transformed_iot_data():
     return (
         dlt.read("raw_iot_data")
         .withColumn("temperature_fahrenheit", col("temperature") * 9/5 + 32)
         .withColumn("humidity_percentage", col("humidity") * 100)
         .withColumn("event_time", current_timestamp())
     )

Sélectionnez Démarrer.
Une fois que l’exécution du pipeline a réussi, revenez au premier notebook et vérifiez que les nouvelles tables ont toutes été créées à l’emplacement de stockage spécifié avec le code suivant :
```
 display(dbutils.fs.ls("dbfs:/pipelines/device_stream/tables"))
```

Visualiser les résultats

Après avoir créé les tables, il est possible de les charger dans des dataframes et de visualiser les données.

Dans le premier notebook, ajoutez une nouvelle cellule de code et exécutez le code suivant pour charger transformed_iot_data dans un dataframe :
```
df = spark.read.format("delta").load('/pipelines/device_stream/tables/transformed_iot_data')
display(df)
```
Au-dessus du tableau des résultats, sélectionnez +, puis Visualisation pour afficher l’éditeur de visualisation et appliquer les options suivantes :
- Type de visualisation : ligne
- Colonne X : timestamp
- Colonne Y : ajoutez une nouvelle colonne et sélectionneztemperature_fahrenheit. Appliquez l’agrégation Sum.
Enregistrez la visualisation, puis affichez le graphique résultant dans le notebook.

Nettoyage

Dans le portail Azure Databricks, sur la page Calcul, sélectionnez votre cluster et sélectionnez ■ Arrêter pour l’arrêter.

Si vous avez terminé d’explorer Azure Databricks, vous pouvez supprimer les ressources que vous avez créées pour éviter les coûts Azure inutiles et libérer de la capacité dans votre abonnement.