Explorar o Spark Streaming no Azure Synapse Analytics

Neste exercício, você usará o Streaming Estruturado do Spark e tabelas delta no Azure Synapse Analytics para processar dados de streaming.

Este laboratório levará aproximadamente 15 minutos para ser concluído.

Antes de começar

É necessário ter uma assinatura do Azure com acesso de nível administrativo.

Provisionar um workspace do Synapse Analytics

Para usar o Synapse Analytics, você deve provisionar um recurso de workspace do Synapse Analytics em sua assinatura do Azure.

Abra o portal do Azure em Portal do Azure e entre usando as credenciais associadas a sua assinatura do Azure.

Observação: verifique se você está trabalhando no diretório que contém a sua própria assinatura (indicado no canto superior direito embaixo da sua ID de usuário). Caso contrário, selecione o ícone de usuário e o troque o diretório.
Na portal do Azure, na Página Inicial, use o ícone ＋ Criar um recurso para criar um recurso.
Pesquise por Azure Synapse Analytics e crie um recurso do Azure Synapse Analytics com as seguintes configurações:
- Assinatura: sua assinatura do Azure
  - Grupo de recursos: Criar um grupo de recursos com um nome apropriado, como “synapse-rg”
  - Grupo de recursos gerenciado: Insira um nome apropriado, por exemplo, “synapse-managed-rg”.
- Nome do workspace: *Insira um nome exclusivo para o workspace, por exemplo, “synapse-ws-*.
- Região: Selecione qualquer região disponível.
- Selecione o Data Lake Storage Gen 2: Da assinatura
  - Nome da conta: *Crie conta com um nome exclusivo, por exemplo, “datalake"*.
  - Nome do sistema de arquivos: *Crie um sistema de arquivos com um nome exclusivo, por exemplo “fs"*.
Observação: um workspace do Synapse Analytics requer dois grupos de recursos na assinatura do Azure: um para recursos criados explicitamente e outro para recursos gerenciados que são usados pelo serviço. Ele também requer uma conta de armazenamento de Data Lake para armazenar dados, scripts e outros artefatos.
Depois de inserir esses detalhes, selecione Revisar + criar e selecione Criar para criar o workspace.
Aguarde a criação do workspace, isso levará cerca de cinco minutos.
Quando a implantação for concluída, vá para o grupo de recursos que foi criado e observe que ele contém o workspace do Synapse Analytics e uma conta de armazenamento Data Lake.
Selecione o seu workspace do Synapse e a página de Visão Geral dele, no cartão do Open Synapse Studio, selecione Abrir para abrir o Synapse Studio em uma nova guia do navegador. O Synapse Studio é uma interface baseada na Web que pode ser usada para trabalhar com o seu workspace do Synapse Analytics.
No lado esquerdo do Synapse Studio, use o ícone ›› para expandir o menu — isso revela as diferentes páginas do Synapse Studio que você usará para gerenciar recursos e executar tarefas de análise de dados, conforme mostrado aqui:

Criar um pool do Spark

Para usar o Spark para processar dados de streaming, você precisa adicionar um pool do Spark ao seu espaço de trabalho do Azure Synapse.

No Synapse Studio, selecione a página Gerenciar.
Selecione a guia pools do Apache Spark e use o ícone ＋ Novo para criar um pool do Spark com as seguintes configurações:
- Nome do pool do Apache Spark: sparkpool
- Família do tamanho do nó: Otimizado para memória
- Tamanho do nó: Pequeno (4 vCores / 32 GB)
- Dimensionamento automático: Habilitado
- Número de nós 3—-3
Revise e crie o pool do Spark e aguarde até que ele seja implantado (o que pode levar alguns minutos).

Explorar o processamento de fluxo

Para explorar o processamento de fluxo com o Spark, você usará um notebook que contém código Python e anotações para ajudá-lo a realizar algum processamento de fluxo básico com o Streaming Estruturado do Spark e tabelas delta.

Baixe o notebook Fluxo Estruturado e Tabelas Delta.ipynb para o seu computador local (se o notebook for aberto como um arquivo de texto em seu navegador, salve-o em uma pasta local; tomando cuidado para salvá-lo como Fluxo Estruturado e Tabelas Delta.ipynb, não como um arquivo .txt)
No Synapse Studio, selecione a página Desenvolver.
No menu ＋, selecione ↤ Importar e o arquivo Fluxo Estruturado e Tabelas Delta.ipynb no seu computador local.
Siga as instruções no notebook para anexá-lo ao seu pool do Spark e execute as células de código que ele contém para explorar várias maneiras de usar o Spark para processamento de fluxo.

Excluir recursos do Azure

Observação: se o seu objetivo for realizar outros exercícios que usam o Azure Synapse Analytics, ignore esta seção. Caso contrário, siga as etapas abaixo para evitar custos desnecessários com o Azure.

Feche a guia do navegador do Synapse Studio, sem salvar nenhuma alteração, e retorne ao portal do Azure.
No portal do Azure, na Página Inicial, selecione Grupos de recursos.
Selecione o grupo de recursos para o workspace do Synapse Analytics (não o grupo de recursos gerenciado) e verifique se ele contém o workspace do Synapse, a conta de armazenamento e o pool do Data Explorer para seu workspace (se você concluiu o exercício anterior, ele também conterá um pool do Spark).
Na parte superior da página de Visão Geral do grupo de recursos, selecione Excluir o grupo de recursos.
Digite o nome do grupo de recursos para confirmar que deseja excluí-lo e selecione Excluir.

Após alguns minutos, seu workspace do Azure Synapse e o workspace gerenciado associado a ele serão excluídos.