Exploración de análisis de datos en Microsoft Fabric

En este ejercicio, explorarás la ingesta y el análisis de datos en un almacén de lago de Microsoft Fabric.

Al completar este laboratorio, aprenderá a:

  • Descripción de los conceptos de Lakehouse de Microsoft Fabric: aprenda a crear áreas de trabajo y lagos de datos, que son fundamentales para organizar y administrar recursos de datos en Fabric.
  • Ingesta de datos mediante canalizaciones: use una canalización guiada para incorporar datos externos al almacén de lago de datos y prepararlo para consultas sin creación de código manual.
  • Exploración y consulta de datos con SQL: analice los datos ingeridos mediante consultas SQL conocidas y obtenga información directamente en Fabric.
  • Administrar recursos: Conozca los procedimientos recomendados para limpiar los recursos y así evitar cargos innecesarios.

Antecedentes sobre el conjunto de datos NYC Taxi:

El conjunto de datos “NYC Taxi - Green” contiene registros detallados de trayectos en taxi en Nueva York, incluidos los tiempos de recogida y llegada, las ubicaciones, las distancias del trayecto, las tarifas y el recuentos de pasajeros. Se usa ampliamente en el análisis de datos y el aprendizaje automático para explorar la movilidad urbana, la previsión de demanda y la detección de anomalías. En este laboratorio, usará este conjunto de datos del mundo real para practicar la ingesta y el análisis de datos en Microsoft Fabric.

Este laboratorio se tarda aproximadamente 25 minutos en completarse.

Nota: Necesitarás una licencia de Microsoft Fabric para realizar este ejercicio. Consulta Introducción a Fabric para más información sobre cómo habilitar una licencia de prueba de Fabric gratuita. Para ello, necesitarás una cuenta profesional o educativa de Microsoft. Si no tienes una, puedes registrarte para una evaluación gratuita de Microsoft Office 365 E3 o superior.

La primera vez que uses las características de Microsoft Fabric, pueden aparecer avisos con sugerencias. Descártalos.

Creación de un área de trabajo

Antes de trabajar con datos de Fabric, crea un área de trabajo con la evaluación gratuita de Fabric habilitada.

Sugerencia: Un área de trabajo es el contenedor de todos los recursos (almacenes de lago de datos, canalizaciones, cuadernos, informes). Al habilitar la capacidad de Fabric, es posible ejecutar estos elementos.

  1. En un explorador, ve a la página principal de Microsoft Fabric en https://app.fabric.microsoft.com/home?experience=fabric e inicia sesión con tus credenciales de Fabric.

  2. En la barra de menús de la izquierda, selecciona Áreas de trabajo (el icono tiene un aspecto similar a 🗇).

    Recorte de pantalla de las áreas de trabajo de Fabric

  3. Cree una nueva área de trabajo con el nombre que prefiera y seleccione un modo de licencia en la sección Avanzado que incluya la capacidad de Fabric (Prueba, Premium o Fabric).

    Sugerencia: La selección de una capacidad que incluya Fabric proporciona al área de trabajo los motores necesarios para las tareas de ingeniería de datos. El uso de un área de trabajo dedicada mantiene los recursos de laboratorio aislados y fáciles de limpiar.

  4. Cuando se abra la nueva área de trabajo, debe estar vacía.

    Captura de pantalla de un área de trabajo vacía en Fabric.

Crear un almacén de lago

Ahora que tiene un área de trabajo, es el momento de crear un almacén de lago de datos para los archivos de datos.

Sugerencia: Un almacén de lago de datos reúne archivos y tablas en OneLake. Puede almacenar archivos sin procesar y también crear tablas Delta administradas que puede consultar con SQL.

  1. En la barra de menús de la izquierda, selecciona Crear. En la página Nuevo, en la sección Ingeniería de datos, selecciona Almacén de lago de datos. Asígnale un nombre único que elijas.

    Nota: si la opción Crear no está anclada a la barra lateral, primero debes seleccionar la opción de puntos suspensivos ().

    Recorte de pantalla de la opción de creación de Fabric en la barra de menús.

    Después de un minuto o así, se habrá creado un nuevo almacén de lago:

    Captura de pantalla de un nuevo almacén de lago.

  2. Vea el nuevo almacén de lago y tenga en cuenta que el panel Explorador del almacén de lago de la izquierda le permite examinar las tablas y los archivos del almacén de lago:

    • La carpeta Tablas contiene tablas que puede consultar usando la semántica SQL. Las tablas de un almacén de lago de Microsoft Fabric se basan en el formato de archivo de Delta Lake de código abierto, que se usa habitualmente en Apache Spark.
    • La carpeta Archivos contiene archivos de datos del almacenamiento OneLake para el almacén de lago que no están asociados a tablas Delta administradas. También puedes crear accesos directos en esta carpeta para hacer referencia a datos almacenados externamente.

    Actualmente, no hay tablas ni archivos en el almacén de lago.

    Sugerencia: Use archivos para datos sin procesar o almacenados provisionalmente y tablas para conjuntos de datos seleccionados y preparados para consultas. Las tablas son respaldadas por Delta Lake para que admitan actualizaciones confiables y consultas eficaces.

Ingerir datos

Una manera sencilla de ingerir datos consiste en usar una actividad Copiar datos en una canalización para extraer los datos de un origen y copiarlos en un archivo del almacén de lago.

Sugerencia: Las canalizaciones proporcionan una manera guiada y repetible de incorporar datos al almacén de lago de datos. Son más fáciles de que crear código desde cero y se pueden programar más adelante si es necesario.

  1. En la página Inicio del almacén de lago, en el menú Obtener datos selecciona Nueva canalización de datos y crea una canalización de datos denominada Ingerir datos.

    Recorte de pantalla de un almacén de lago de datos con la nueva opción de canalización de datos seleccionada.

  2. En el Asistente para copiar datos, en la página Elegir un origen de datos, selecciona Datos de ejemplo y después selecciona el conjunto de datos de ejemplo NYC Taxi - Green.

    Recorte de pantalla del Asistente para copiar canalización de datos con la opción de datos de ejemplo resaltada

    Captura de pantalla de la página "Elegir origen de datos".

  3. Mira las tablas del origen de datos en la página Conectarse al origen de datos. Debe haber una tabla que contenga los detalles de los viajes de taxi en la ciudad de Nueva York. A continuación, seleccione Siguiente para avanzar a la página Conectar con el destino de datos.

  4. En la página Conectar al destino de datos, establece las siguientes opciones de destino de datos y, a continuación, selecciona Siguiente:
    • Carpeta raíz: Tablas
    • Configuración de carga: cargar en una nueva tabla
    • Nombre de la tabla de destino: taxi_rides (es posible que tengas que esperar a que se muestre la vista previa de las asignaciones de columnas antes de poder cambiarlo)
    • Asignaciones de columnas: deja las asignaciones predeterminadas tal cual
    • Habilitar partición: no seleccionada

    Recorte de pantalla de las opciones de destino de una canalización

    ¿Por qué estas opciones?

    Estamos empezando con las tablas como raíz para que los datos entren directamente en una tabla Delta administrada, que puede consultar inmediatamente. Los estamos cargando en una nueva tabla para que este laboratorio permanezca independiente y no se sobrescriba nada existente. Vamos a seguir con las asignaciones de columnas predeterminadas, ya que los datos de ejemplo ya coinciden con la estructura esperada; no se necesita ninguna asignación personalizada. La creación de particiones está desactivada para simplificar las cosas para este pequeño conjunto de datos; aunque la creación de particiones es útil para los datos a gran escala, no es necesaria aquí.

  5. En la página Revisar y guardar, asegúrate de que la opción Iniciar transferencia de datos inmediatamente esté activa y después selecciona Guardar y ejecutar.

    Sugerencia: Comenzar inmediatamente le permite ver la canalización en acción y confirmar que los datos llegan sin pasos adicionales.

    Se crea una nueva canalización que contiene una actividad Copiar datos, como se muestra aquí:

    Captura de pantalla de una canalización con una actividad Copiar datos.

    Cuando la canalización comienza a ejecutarse, puedes supervisar su estado en el panel Salida en el diseñador de canalizaciones. Use el icono (Actualizar) para actualizar el estado y espere hasta que la operación se haya realizado correctamente (puede tardar 10 minutos o más). Este conjunto de datos en particular contiene más de 75 millones de filas, y almacena aproximadamente 2,5 Gb de datos.

  6. En la barra de menús central, a la izquierda, selecciona el almacén de lago.

    Recorte de pantalla del almacén de lago de datos de Fabric en la barra de menús

  7. En la página Inicio, en el panel Explorador de almacén de lago, en el menú del nodo Tablas, selecciona Actualizar y expande Tablas para comprobar que se ha creado la tabla taxi_rides.

    Recorte de pantalla de la opción de actualización de las tablas de almacén de lago de datos de Fabric

    Nota: Si la nueva tabla aparece como no identificada, usa la opción de menú Actualizar para actualizar la vista.

    Sugerencia: La vista del explorador se almacena en caché. La actualización obliga a capturar los metadatos de tabla más recientes para que la nueva tabla aparezca correctamente.

  8. Selecciona la tabla taxi_rides para ver su contenido.

    Captura de pantalla de la tabla taxi_rides.

Consulta de datos en un almacén de lago

Ahora que has ingerido datos en una tabla de almacén de lago, puedes usar SQL para consultarlos.

Sugerencia: Las tablas de almacén de lago de datos son compatibles con SQL. Puede analizar los datos inmediatamente sin moverlos a otro sistema.

  1. En la parte superior derecha de la página del almacén de lago, cambia al punto de conexión de análisis SQL del almacén de lago.

    Recorte de pantalla de la opción de menú "Punto de conexión SQL" de almacén de lago de datos de Fabric

    Sugerencia: El punto de conexión de análisis SQL está optimizado para ejecutar consultas SQL en las tablas de almacén de lago de datos y se integra con herramientas de consulta conocidas.

  2. En la barra de herramientas, selecciona Nueva consulta SQL. A continuación, escribe el código SQL siguiente en el editor de consultas:

     SELECT  DATENAME(dw,lpepPickupDatetime) AS Day,
             AVG(tripDistance) As AvgDistance
     FROM taxi_rides 
     GROUP BY DATENAME(dw,lpepPickupDatetime)
    
  3. Selecciona el botón ▷ Ejecutar para ejecutar la consulta y revisar los resultados, que deben incluir la distancia media de viaje para cada día de la semana.

    Sugerencia: Esta consulta agrupa los trayectos por nombre del día y calcula la distancia media, con un ejemplo sencillo de agregación en el que se puede basar.

    Captura de pantalla de una consulta SQL.

Limpieza de recursos

Si has terminado de explorar Microsoft Fabric, puedes eliminar el área de trabajo que creaste para este ejercicio.

Sugerencia: Al eliminar el área de trabajo, se quitan todos los elementos creados en el laboratorio, lo que ayuda a evitar cargos continuados.

  1. En la barra de la izquierda, seleccione el icono del área de trabajo para ver todos los elementos que contiene.

  2. En la barra de herramientas, selecciona Configuración del área de trabajo.

  3. En la sección General, selecciona Quitar esta área de trabajo.