Consulta de un almacenamiento de datos en Microsoft Fabric

En Microsoft Fabric, un almacenamiento de datos proporciona una base de datos relacional para análisis a gran escala. El amplio conjunto de experiencias integradas en el área de trabajo de Microsoft Fabric permite a los clientes reducir el tiempo de obtención de información al tener un modelo semántico siempre conectado y fácil de consumir que se integra con Power BI en el modo Direct Lake.

Este laboratorio se tarda aproximadamente 30 minutos en completarse.

Nota: Necesitará una evaluación gratuita de Microsoft Fabric para realizar este ejercicio.

Creación de un área de trabajo

Antes de trabajar con datos de Fabric, crea un área de trabajo con la evaluación gratuita de Fabric habilitada.

  1. En la página principal de Microsoft Fabric, en https://app.fabric.microsoft.com/home?experience=fabric, selecciona Synapse Data Warehouse.
  2. En la barra de menús de la izquierda, seleccione Áreas de trabajo (el icono tiene un aspecto similar a 🗇).
  3. Cree una nueva área de trabajo con el nombre que prefiera y seleccione un modo de licencia que incluya capacidad de Fabric (Evaluación gratuita, Prémium o Fabric).
  4. Cuando se abra la nueva área de trabajo, debe estar vacía.

    Captura de pantalla de un área de trabajo vacía en Fabric.

Creación de un almacenamiento de datos de ejemplo

Ahora que tiene un área de trabajo, es el momento de crear un almacenamiento de datos.

  1. En la parte inferior izquierda, asegúrese de que está seleccionada la experiencia Data Warehouse.
  2. En la página Inicio, seleccione Almacenamiento de ejemplo y cree un almacenamiento de datos denominado sample-dw.

    Aproximadamente un minuto después se creará un almacén, que se rellenará con datos de ejemplo para un escenario de análisis de carreras de taxi.

    Captura de pantalla de un nuevo almacenamiento.

Consulta del almacenamiento de datos

El editor de consultas SQL proporciona compatibilidad con IntelliSense, finalización de código, resaltado de sintaxis y análisis, y validación del lado cliente. Puede ejecutar instrucciones del lenguaje de definición de datos (DDL), el lenguaje de manipulación de datos (DML) y el lenguaje de control de datos (DCL).

  1. En la página del almacenamiento de datos sample-dw, en la lista desplegable Nueva consulta SQL, seleccione Nueva consulta SQL.

  2. En el nuevo panel de consulta en blanco, escriba el siguiente código de Transact-SQL:

     SELECT 
     D.MonthName, 
     COUNT(*) AS TotalTrips, 
     SUM(T.TotalAmount) AS TotalRevenue 
     FROM dbo.Trip AS T
     JOIN dbo.[Date] AS D
         ON T.[DateID]=D.[DateID]
     GROUP BY D.MonthName;
    
  3. Use el botón ▷ Ejecutar para ejecutar el script SQL y ver los resultados, que deben mostrar el número total de viajes y total de ingresos mensual.

  4. Escriba el siguiente código de Transact-SQL:

    SELECT 
     D.DayName, 
     AVG(T.TripDurationSeconds) AS AvgDuration, 
     AVG(T.TripDistanceMiles) AS AvgDistance 
     FROM dbo.Trip AS T
     JOIN dbo.[Date] AS D
         ON T.[DateID]=D.[DateID]
     GROUP BY D.DayName;
    
  5. Ejecute la consulta modificada y vea los resultados, que muestran la duración media del viaje y la distancia por día de la semana.

  6. Escriba el siguiente código de Transact-SQL:

     SELECT TOP 10 
     G.City, 
     COUNT(*) AS TotalTrips 
     FROM dbo.Trip AS T
     JOIN dbo.Geography AS G
         ON T.PickupGeographyID=G.GeographyID
     GROUP BY G.City
     ORDER BY TotalTrips DESC;
        
     SELECT TOP 10 
         G.City, 
         COUNT(*) AS TotalTrips 
     FROM dbo.Trip AS T
     JOIN dbo.Geography AS G
         ON T.DropoffGeographyID=G.GeographyID
     GROUP BY G.City
     ORDER BY TotalTrips DESC;
    
  7. Ejecute la consulta modificada y vea los resultados, que muestran las 10 ubicaciones de recogida y entrega más populares.

  8. Cierre todas las pestañas de consulta.

Comprobación de la coherencia de los datos

La comprobación de la coherencia de los datos es importante para asegurarse de que los datos son precisos y confiables para el análisis y la toma de decisiones. Los datos incoherentes pueden provocar un análisis incorrecto y resultados engañosos.

Vamos a consultar el almacenamiento de datos para comprobar la coherencia.

  1. En la lista desplegable Nueva consulta SQL, seleccione Nueva consulta SQL.

  2. En el nuevo panel de consulta en blanco, escriba el siguiente código de Transact-SQL:

     -- Check for trips with unusually long duration
     SELECT COUNT(*) FROM dbo.Trip WHERE TripDurationSeconds > 86400; -- 24 hours
    
  3. Ejecute la consulta modificada y vea los resultados, que muestran los detalles de todos los viajes con una duración inusualmente larga.

  4. En la lista desplegable Nueva consulta SQL, seleccione Nueva consulta SQL para agregar una segunda pestaña de consulta. Luego, en la nueva pestaña de consulta vacía, ejecute el siguiente código:

     -- Check for trips with negative trip duration
     SELECT COUNT(*) FROM dbo.Trip WHERE TripDurationSeconds < 0;
    
  5. En el nuevo panel de consulta en blanco, escriba y ejecute el siguiente código de Transact-SQL:

     -- Remove trips with negative trip duration
     DELETE FROM dbo.Trip WHERE TripDurationSeconds < 0;
    

    Nota: Hay varias maneras de controlar datos incoherentes. En lugar de quitarlos, una alternativa es reemplazarlos por otro valor, como el promedio o el valor medio.

  6. Cierre todas las pestañas de consulta.

Guardar como vista

Supongamos que necesita filtrar determinados viajes para un grupo de usuarios que usarán los datos para generar informes.

Vamos a crear una vista basada en la consulta que hemos usado anteriormente y agregarle un filtro.

  1. En la lista desplegable Nueva consulta SQL, seleccione Nueva consulta SQL.

  2. En el nuevo panel de consulta en blanco, vuelva a escribir y ejecutar el siguiente código de Transact-SQL:

     SELECT 
         D.DayName, 
         AVG(T.TripDurationSeconds) AS AvgDuration, 
         AVG(T.TripDistanceMiles) AS AvgDistance 
     FROM dbo.Trip AS T
     JOIN dbo.[Date] AS D
         ON T.[DateID]=D.[DateID]
     GROUP BY D.DayName;
    
  3. Modifique la consulta para agregar WHERE D.Month = 1. Esto filtrará los datos para incluir solo los registros del mes de enero. La consulta final debe tener este aspecto:

     SELECT 
         D.DayName, 
         AVG(T.TripDurationSeconds) AS AvgDuration, 
         AVG(T.TripDistanceMiles) AS AvgDistance 
     FROM dbo.Trip AS T
     JOIN dbo.[Date] AS D
         ON T.[DateID]=D.[DateID]
     WHERE D.Month = 1
     GROUP BY D.DayName
    
  4. Seleccione el texto de la instrucción SELECT en la consulta. A continuación, junto al botón ▷ Ejecutar, seleccione Guardar como vista.

  5. Cree una nueva vista denominada vw_JanTrip.

  6. En el Explorador, vaya a Esquemas » dbo » Vistas. Anote la vista vw_JanTrip que acaba de crear.

  7. Cierre todas las pestañas de consulta.

Información adicional: Consulte Consulta mediante el editor de consultas SQL en la documentación de Microsoft Fabric para obtener más información sobre cómo consultar un almacenamiento de datos.

Limpieza de recursos

En este ejercicio, ha usado consultas para obtener información de los datos en un almacenamiento de datos de Microsoft Fabric.

Si ha terminado de explorar el almacenamiento de datos, puede eliminar el área de trabajo que creó para este ejercicio.

  1. En la barra de la izquierda, seleccione el icono del área de trabajo para ver todos los elementos que contiene.
  2. En el menú de la barra de herramientas, seleccione Configuración del área de trabajo.
  3. En la sección General, seleccione Quitar esta área de trabajo.