Exploración de Spark Streaming en Azure Synapse Analytics

En este ejercicio, usará Spark Structured Streaming y tablas delta en Azure Synapse Analytics para procesar datos de flujos.

Este laboratorio se tarda aproximadamente 15 minutos en completarse.

Antes de empezar

Necesitará una suscripción de Azure en la que tenga acceso de nivel administrativo.

Aprovisionar un área de trabajo de Synapse Analytics

Para usar Synapse Analytics, debe aprovisionar un recurso en el área de trabajo de Synapse Analytics en la suscripción de Azure.

Abra Azure Portal en Azure Portal e inicie sesión con las credenciales asociadas con su suscripción de Azure.

Nota: Asegúrese de que está trabajando en el directorio que contiene su propia suscripción, lo que se indica en la parte superior derecha, debajo del identificador de usuario. Si no es así, seleccione el icono de usuario y cambie el directorio.
En la página Inicio de Azure Portal, use el icono ＋ Crear un recurso para crear un recurso.
Busque Azure Synapse Analytics, y cree un recurso de Azure Synapse Analytics con la siguiente configuración:
- Suscripción: suscripción de Azure
  - Grupo de recursos: cree un grupo de recursos con un nombre apropiado, como “synapse-rg”.
  - Grupo de recursos administrado: escriba un nombre adecuado, por ejemplo, “synapse-managed-rg”.
- Nombre del área de trabajo: *escriba un nombre único para el área de trabajo, por ejemplo, “synapse-ws-*.
- Región: seleccione cualquier región disponible.
- Seleccionar Data Lake Storage Gen 2: en la suscripción.
  - Nombre de cuenta: *cree una cuenta con un nombre único, por ejemplo, “datalake"*.
  - Nombre del sistema de archivos: *cree un sistema de archivos con un nombre único, por ejemplo, “fs"*.
Nota: Un área de trabajo de Synapse Analytics requiere dos grupos de recursos en la suscripción de Azure; uno para los recursos creados explícitamente y otro para los recursos administrados que utiliza el servicio. También requiere una cuenta de almacenamiento de Data Lake en la que almacenar datos, scripts y otros artefactos.
Cuando haya especificado estos detalles, seleccione Revisar y crear y, a continuación, seleccione Crear para crear el área de trabajo.
Espere a que se cree el área de trabajo; puede tardar unos cinco minutos.
Una vez completada la implementación, vaya al grupo de recursos que se creó y observe que contiene el área de trabajo de Synapse Analytics y una cuenta de almacenamiento de Data Lake.
Seleccione el área de trabajo de Synapse y, en su página Información general, en la tarjeta Abrir Synapse Studio, seleccione Abrir para abrir Synapse Studio en una nueva pestaña del explorador. Synapse Studio es una interfaz basada en web que puede usar para trabajar con el área de trabajo de Synapse Analytics.
En el lado izquierdo de Synapse Studio, use el icono ›› para expandir el menú; esto muestra las distintas páginas de Synapse Studio que usará para administrar recursos y llevar a cabo tareas de análisis de datos, como se muestra aquí:

Crear un grupo de Spark

Para usar Spark para procesar datos de flujos, tiene que agregar un grupo de Spark al área de trabajo de Azure Synapse.

En Synapse Studio, seleccione la página Administrar.
Seleccione la pestaña Grupos de Apache Spark y, a continuación, use el icono ＋ Nuevo para crear un grupo de Spark con la siguiente configuración:
- Nombre del grupo de Apache Spark: sparkpool
- Familia de tamaños de nodo: optimizada para memoria
- Tamaño del nodo: pequeño (4 núcleos virtuales/32 GB)
- Escalabilidad automática: habilitada
- Número de nodos: 3—-3
Revise y cree el grupo de Spark y espere a que se implemente (puede tardar unos minutos).

Exploración del procesamiento de flujos

Para explorar el procesamiento de flujos con Spark, usará un cuaderno que contiene código y notas de Python para ayudarlo a llevar a cabo algún procesamiento de flujos básico con Spark Structured Streaming y tablas delta.

Descargue el cuaderno Structured Streaming and Delta Tables.ipynb en su equipo local (si el cuaderno se abre como archivo de texto en el explorador, guárdelo en una carpeta local; tenga en cuenta que debe guardarlo como Structured Streaming and Delta Tables.ipynb, no como archivo .txt)
En Synapse Studio, seleccione la página Desarrollar.
En el menú ＋, seleccione ↤ Importar y seleccione el archivo Structured Streaming and Delta Tables.ipynb en el equipo local.
Siga las instrucciones del cuaderno para adjuntarlo al grupo de Spark y ejecutar las celdas de código que contiene para explorar varias maneras de usar Spark para el procesamiento de flujos.

Eliminación de recursos de Azure

Nota: Si tiene previsto completar otros ejercicios que usan Azure Synapse Analytics, puede omitir esta sección. De lo contrario, siga los pasos que se indican a continuación para evitar costos innecesarios de Azure.

Cierre la pestaña del explorador de Synapse Studio, sin guardar los cambios, y vuelva a Azure Portal.
En Azure Portal, en la página Inicio, seleccione Grupos de recursos.
Seleccione el grupo de recursos del área de trabajo de Synapse Analytics (no el grupo de recursos administrado) y compruebe que contiene el área de trabajo de Synapse, la cuenta de almacenamiento y el grupo de Data Explorer del área de trabajo (si completó el ejercicio anterior, también incluirá un grupo de Spark).
En la parte superior de la página Información general del grupo de recursos, seleccione Eliminar grupo de recursos.
Escriba el nombre del grupo de recursos para confirmar que quiere eliminarlo y seleccione Eliminar.

Después de unos minutos, se eliminarán el área de trabajo de Azure Synapse y el área de trabajo administrada asociada a ella.