Esplorare l’analisi dei dati in Microsoft Fabric
In questo esercizio saranno esaminati l’inserimento e l’analisi dei dati in un lakehouse di Microsoft Fabric.
Completando questo lab, si eseguiranno le operazioni seguenti:
- Informazioni sui concetti di Microsoft Fabric Lakehouse: informazioni su come creare aree di lavoro e lakehouse, che sono fondamentali per organizzare e gestire gli asset di dati in Fabric.
- Inserire dati usando le pipeline: usare una pipeline guidata per inserire dati esterni nel lakehouse, rendendoli pronti per le query senza scrivere codice manuale.
- Esplorare ed eseguire query sui dati con SQL: analizzare i dati inseriti usando query SQL familiari, ottenendo informazioni dettagliate direttamente all’interno di Fabric.
- Gestire le risorse: informazioni sulle procedure consigliate per la pulizia delle risorse per evitare addebiti non necessari.
Informazioni generali sul set di dati nyc Taxi:
Il set di dati “NYC Taxi - Green” contiene record dettagliati delle corse in taxi a New York City, inclusi orari di ritiro e consegna, località, distanze di viaggio, tariffe e conteggi dei passeggeri. Viene ampiamente usato nell’analisi dei dati e nell’apprendimento automatico per esplorare la mobilità urbana, la previsione della domanda e il rilevamento delle anomalie. In questo lab si userà questo set di dati reale per praticare l’inserimento e l’analisi dei dati in Microsoft Fabric.
Il completamento di questo lab richiederà circa 25 minuti.
Nota: per completare questo esercizio è necessaria una licenza di Microsoft Fabric. Per informazioni dettagliate su come abilitare una licenza di prova gratuita di Fabric, vedere Introduzione a Fabric. Per eseguire questa operazione, è necessario anche un account Microsoft dell’istituto di istruzione o aziendale. Se non è disponibile, è possibile iscriversi per ottenere una versione di valutazione di Microsoft Office 365 E3 o versione successiva.
La prima volta che si usano le funzionalità di Microsoft Fabric, potrebbero essere visualizzate richieste con suggerimenti. Ignorare questi elementi.
Creare un’area di lavoro
Prima di usare i dati in Fabric, creare un’area di lavoro con la versione di valutazione di Fabric abilitata.
Suggerimento: un’area di lavoro è il contenitore per tutti gli asset (lakehouses, pipeline, notebook, report). L’abilitazione della capacità infrastruttura consente l’esecuzione di questi elementi.
-
Passare alla home page di Microsoft Fabric in
https://app.fabric.microsoft.com/home?experience=fabric
un browser e accedere con le credenziali di Fabric. -
Nella barra dei menu a sinistra selezionare Aree di lavoro (l’icona è simile a 🗇).
-
Creare una nuova area di lavoro con un nome di propria scelta, selezionando una modalità di licenza nella sezione Avanzate che include la capacità di Fabric (versione di valutazione, Premium o Fabric).
Suggerimento Selezionare una capacità che include Fabric fornisce all’area di lavoro i motori necessari per le attività di ingegneria dei dati. L’uso di un’area di lavoro dedicata mantiene isolate e facili da pulire le risorse del lab.
-
Quando si apre la nuova area di lavoro, deve essere vuota.
Creare un lakehouse
Ora che si dispone di un’area di lavoro, è possibile creare una lakehouse per i file di dati.
Suggerimento: una lakehouse riunisce file e tabelle su OneLake. È possibile archiviare file non elaborati e anche creare tabelle Delta gestite su cui è possibile eseguire query con SQL.
-
Sulla barra dei menu a sinistra selezionare Crea. Nella sezione Ingegneria dei dati* della ** pagina Nuovo* selezionare Lakehouse. Assegnargli un nome univoco di propria scelta.
Nota: se l’opzione Crea non è aggiunta alla barra laterale, è necessario selezionare prima i puntini di sospensione (…).
Dopo circa un minuto, verrà creata un nuovo lakehouse:
-
Visualizzare il nuovo lakehouse e tenere presente che il riquadro Lakehouse Explorer a sinistra consente di esplorare tabelle e file al suo interno:
- La cartella Tabelle contiene tabelle su cui è possibile eseguire query usando la semantica SQL. Le tabelle in un lakehouse di Microsoft Fabric si basano sul formato di file open source Delta Lake comunemente usato in Apache Spark.
- La cartella File contiene i file di dati nell’archivio OneLake del lakehouse che non sono associati alle tabelle delta gestite. In questa cartella è anche possibile creare scelte rapide per fare riferimento ai dati archiviati esternamente.
Attualmente non sono presenti tabelle o file nel lakehouse.
Suggerimento: usare i file per i dati non elaborati o a fasi e le tabelle per set di dati curati e pronti per le query. Le tabelle sono supportate da Delta Lake in modo da supportare aggiornamenti affidabili e query efficienti.
Inserire i dati
Un modo semplice per inserire dati consiste nell’usare un’attività Copia dati in una pipeline per estrarre i dati da un’origine e copiarli in un file nel lakehouse.
Suggerimento: le pipeline offrono un modo guidato e ripetibile per inserire i dati nel lakehouse. Sono più facili rispetto alla scrittura di codice da zero e possono essere pianificati in un secondo momento, se necessario.
-
Nella home page del lakehouse, nel menu Recupera dati selezionare Nuova pipeline di dati e creare una nuova pipeline di dati denominata Ingest Data.
-
Nella pagina Scegliere un’origine** dati della **procedura guidata Copia dati selezionare Dati** di esempio e quindi selezionare il **set di dati di esempio NYC Taxi - Green.
-
Nella pagina Connetti all’origine ** dati visualizzare le tabelle nell’origine dati. Dovrebbe essere presente una tabella che contiene i dettagli delle corse in taxi a New York City. Selezionare **quindi Avanti per passare alla pagina Connetti alla destinazione dati.
- Nella pagina Connetti a destinazione dati impostare le opzioni di destinazione dati seguenti e quindi selezionare Avanti:
- Cartella radice: tabelle
- Impostazioni di caricamento: caricare in una nuova tabella
- Nome tabella di destinazione: taxi_rides (potrebbe essere necessario attendere la visualizzazione dell’anteprima dei mapping delle colonne prima di poter modificare questa impostazione)
- Mapping delle colonne: lasciare invariati i mapping predefiniti
- Abilita partizione: deselezionata
Perché queste scelte?
Si inizia con Tabelle come radice in modo che i dati passino direttamente in una tabella Delta gestita, che è possibile eseguire immediatamente una query. Il caricamento viene eseguito in una nuova tabella in modo che questo lab rimanga indipendente e che non venga sovrascritto nulla di esistente. I mapping delle colonne predefinite** verranno usati perché i dati di esempio corrispondono già alla struttura prevista, senza alcun mapping personalizzato necessario. ** Il partizionamento è disattivato per semplificare questo piccolo set di dati. Mentre il partizionamento è utile per i dati su larga scala, non è necessario qui.
-
Nella pagina Rivedi e salva verificare che l’opzione Avvia trasferimento dati immediatamente sia selezionata e quindi selezionare Salva e Esegui.
Suggerimento: l’avvio immediato consente di controllare la pipeline in azione e di confermare l’arrivo dei dati senza passaggi aggiuntivi.
Viene creata una nuova pipeline contenente un’attività Copia dati, come illustrato di seguito:
Quando l’esecuzione della pipeline viene avviata, è possibile monitorarne lo stato nel riquadro Output nella finestra di progettazione della pipeline. Usare l’icona ↻ (Aggiorna) per aggiornare lo stato e attendere il completamento (che potrebbe richiedere più di 10 minuti). Questo particolare set di dati contiene più di 75 milioni di righe, archiviando circa 2,5 GB di dati.
-
Nella barra dei menu dell’hub a sinistra selezionare il lakehouse.
-
Nella home page, nel riquadro Lakehouse Explorer, nel menu … per il nodo Tabelle selezionare Aggiorna e quindi espandere Tabelle per verificare che la tabella taxi_rides sia stata creata.
Nota: se la nuova tabella è elencata come non identificata, usare l’opzione di menu Aggiorna per aggiornare la visualizzazione.
Suggerimento: la visualizzazione Explorer viene memorizzata nella cache. L’aggiornamento forza il recupero dei metadati della tabella più recenti in modo che la nuova tabella venga visualizzata correttamente.
-
Selezionare la tabella taxi_rides per visualizzarne il contenuto.
Eseguire query sui dati nel lakehouse
Ora che i dati sono stati inseriti in una tabella nel lakehouse, è possibile usare SQL per eseguire le query.
Suggerimento: le tabelle Lakehouse sono compatibili con SQL. È possibile analizzare immediatamente i dati senza spostarli in un altro sistema.
-
Nella parte superiore destra della pagina Lakehouse passare dalla visualizzazione Lakehouse all’endpoint ** di analisi SQL per il lakehouse.
Suggerimento: l’endpoint di analisi SQL è ottimizzato per l’esecuzione di query SQL sulle tabelle lakehouse e si integra con strumenti di query familiari.
-
Selezionare Nuova query SQL sulla barra degli strumenti. Nel riquadro dell’editor di query, immettere il seguente codice SQL:
SELECT DATENAME(dw,lpepPickupDatetime) AS Day, AVG(tripDistance) As AvgDistance FROM taxi_rides GROUP BY DATENAME(dw,lpepPickupDatetime)
-
Selezionare il ▷ Pulsante Esegui per eseguire la query ed esaminare i risultati, che devono includere la distanza media delle corse per ogni giorno della settimana.
Suggerimento: questa query raggruppa i viaggi in base al nome del giorno e calcola la distanza media, mostrando un semplice esempio di aggregazione su cui è possibile eseguire la compilazione.
Pulire le risorse
Se è stata completata l’esplorazione di Microsoft Fabric, è possibile eliminare l’area di lavoro creata per questo esercizio.
Suggerimento: l’eliminazione dell’area di lavoro rimuove tutti gli elementi creati nel lab e consente di evitare addebiti in corso.
-
Nella barra a sinistra selezionare l’icona dell’area di lavoro per visualizzare tutti gli elementi contenuti.
-
Nella barra degli strumenti selezionare Impostazioni area di lavoro.
-
Nella sezione Generale selezionare Rimuovi questa area di lavoro.