Explorar o Spark Streaming no Azure Synapse Analytics
Neste exercício, você usará o Streaming Estruturado do Spark e tabelas delta no Azure Synapse Analytics para processar dados de streaming.
Este laboratório levará aproximadamente 15 minutos para ser concluído.
Antes de começar
É necessário ter uma assinatura do Azure com acesso de nível administrativo.
Provisionar um workspace do Synapse Analytics
Para usar o Synapse Analytics, você deve provisionar um recurso de workspace do Synapse Analytics em sua assinatura do Azure.
-
Abra o portal do Azure em Portal do Azure e entre usando as credenciais associadas a sua assinatura do Azure.
Observação: verifique se você está trabalhando no diretório que contém a sua própria assinatura (indicado no canto superior direito embaixo da sua ID de usuário). Caso contrário, selecione o ícone de usuário e o troque o diretório.
- Na portal do Azure, na Página Inicial, use o ícone + Criar um recurso para criar um recurso.
- Pesquise por Azure Synapse Analytics e crie um recurso do Azure Synapse Analytics com as seguintes configurações:
- Assinatura: sua assinatura do Azure
- Grupo de recursos: Criar um grupo de recursos com um nome apropriado, como “synapse-rg”
- Grupo de recursos gerenciado: Insira um nome apropriado, por exemplo, “synapse-managed-rg”.
- Nome do workspace: *Insira um nome exclusivo para o workspace, por exemplo, “synapse-ws-
*. - Região: Selecione qualquer região disponível.
- Selecione o Data Lake Storage Gen 2: Da assinatura
- Nome da conta: *Crie conta com um nome exclusivo, por exemplo, “datalake
"*. - Nome do sistema de arquivos: *Crie um sistema de arquivos com um nome exclusivo, por exemplo “fs
"*.
- Nome da conta: *Crie conta com um nome exclusivo, por exemplo, “datalake
Observação: um workspace do Synapse Analytics requer dois grupos de recursos na assinatura do Azure: um para recursos criados explicitamente e outro para recursos gerenciados que são usados pelo serviço. Ele também requer uma conta de armazenamento de Data Lake para armazenar dados, scripts e outros artefatos.
- Assinatura: sua assinatura do Azure
- Depois de inserir esses detalhes, selecione Revisar + criar e selecione Criar para criar o workspace.
- Aguarde a criação do workspace, isso levará cerca de cinco minutos.
- Quando a implantação for concluída, vá para o grupo de recursos que foi criado e observe que ele contém o workspace do Synapse Analytics e uma conta de armazenamento Data Lake.
- Selecione o seu workspace do Synapse e a página de Visão Geral dele, no cartão do Open Synapse Studio, selecione Abrir para abrir o Synapse Studio em uma nova guia do navegador. O Synapse Studio é uma interface baseada na Web que pode ser usada para trabalhar com o seu workspace do Synapse Analytics.
-
No lado esquerdo do Synapse Studio, use o ícone ›› para expandir o menu — isso revela as diferentes páginas do Synapse Studio que você usará para gerenciar recursos e executar tarefas de análise de dados, conforme mostrado aqui:
Criar um pool do Spark
Para usar o Spark para processar dados de streaming, você precisa adicionar um pool do Spark ao seu espaço de trabalho do Azure Synapse.
- No Synapse Studio, selecione a página Gerenciar.
- Selecione a guia pools do Apache Spark e use o ícone + Novo para criar um pool do Spark com as seguintes configurações:
- Nome do pool do Apache Spark: sparkpool
- Família do tamanho do nó: Otimizado para memória
- Tamanho do nó: Pequeno (4 vCores / 32 GB)
- Dimensionamento automático: Habilitado
- Número de nós 3—-3
- Revise e crie o pool do Spark e aguarde até que ele seja implantado (o que pode levar alguns minutos).
Explorar o processamento de fluxo
Para explorar o processamento de fluxo com o Spark, você usará um notebook que contém código Python e anotações para ajudá-lo a realizar algum processamento de fluxo básico com o Streaming Estruturado do Spark e tabelas delta.
- Baixe o notebook Fluxo Estruturado e Tabelas Delta.ipynb para o seu computador local (se o notebook for aberto como um arquivo de texto em seu navegador, salve-o em uma pasta local; tomando cuidado para salvá-lo como Fluxo Estruturado e Tabelas Delta.ipynb, não como um arquivo .txt)
- No Synapse Studio, selecione a página Desenvolver.
- No menu +, selecione ↤ Importar e o arquivo Fluxo Estruturado e Tabelas Delta.ipynb no seu computador local.
- Siga as instruções no notebook para anexá-lo ao seu pool do Spark e execute as células de código que ele contém para explorar várias maneiras de usar o Spark para processamento de fluxo.
Excluir recursos do Azure
Observação: se o seu objetivo for realizar outros exercícios que usam o Azure Synapse Analytics, ignore esta seção. Caso contrário, siga as etapas abaixo para evitar custos desnecessários com o Azure.
- Feche a guia do navegador do Synapse Studio, sem salvar nenhuma alteração, e retorne ao portal do Azure.
- No portal do Azure, na Página Inicial, selecione Grupos de recursos.
- Selecione o grupo de recursos para o workspace do Synapse Analytics (não o grupo de recursos gerenciado) e verifique se ele contém o workspace do Synapse, a conta de armazenamento e o pool do Data Explorer para seu workspace (se você concluiu o exercício anterior, ele também conterá um pool do Spark).
- Na parte superior da página de Visão Geral do grupo de recursos, selecione Excluir o grupo de recursos.
-
Digite o nome do grupo de recursos para confirmar que deseja excluí-lo e selecione Excluir.
Após alguns minutos, seu workspace do Azure Synapse e o workspace gerenciado associado a ele serão excluídos.