Explorar o Azure Synapse Data Explorer
Observação: devido a alterações no produto, há alguns problemas conhecidos com a seção Criar um banco de dados e ingerir dados deste laboratório. Estamos trabalhando para resolver esses problemas.
Neste exercício, você usará o Azure Synapse Data Explorer para analisar dados de série temporal.
Este laboratório levará aproximadamente 25 minutos para ser concluído.
Antes de começar
É necessário ter uma assinatura do Azure com acesso de nível administrativo.
Provisionar um workspace do Synapse Analytics
Dica: se você já tiver um workspace do Azure Synapse de um exercício anterior, ignore esta seção e acesse Criar um pool do Data Explorer .
-
Abra o portal do Azure em https://portal.azure/com e entre usando as credenciais associadas a sua assinatura do Azure.
Observação: verifique se você está trabalhando no diretório que contém a sua assinatura (indicado no canto superior direito embaixo da sua ID de usuário). Caso contrário, selecione o ícone de usuário e o troque o diretório.
- Na portal do Azure, na Página Inicial, use o ícone + Criar um recurso para criar um recurso.
- Pesquise por Azure Synapse Analytics e crie um recurso do Azure Synapse Analytics com as seguintes configurações:
- Assinatura: sua assinatura do Azure
- Grupo de recursos: Criar um grupo de recursos com um nome apropriado, como “synapse-rg”
- Grupo de recursos gerenciado: Insira um nome apropriado, por exemplo, “synapse-managed-rg”.
- Nome do workspace: *Insira um nome exclusivo para o workspace, por exemplo, “synapse-ws-
*. - Região: Selecione qualquer região disponível.
- Selecione o Data Lake Storage Gen 2: Da assinatura
- Nome da conta: *Crie conta com um nome exclusivo, por exemplo, “datalake
"*. - Nome do sistema de arquivos: *Crie um sistema de arquivos com um nome exclusivo, por exemplo “fs
"*.
- Nome da conta: *Crie conta com um nome exclusivo, por exemplo, “datalake
Observação: um workspace do Synapse Analytics requer dois grupos de recursos na assinatura do Azure: um para recursos criados explicitamente e outro para recursos gerenciados que são usados pelo serviço. Ele também requer uma conta de armazenamento de Data Lake para armazenar dados, scripts e outros artefatos.
- Assinatura: sua assinatura do Azure
- Depois de inserir esses detalhes, selecione Revisar + criar e selecione Criar para criar o workspace.
- Aguarde a criação do workspace, isso levará cerca de cinco minutos.
- Quando a implantação for concluída, vá para o grupo de recursos que foi criado e observe que ele contém o workspace do Synapse Analytics e uma conta de armazenamento Data Lake.
- Selecione o seu workspace do Synapse e a página de Visão Geral dele, no cartão do Open Synapse Studio, selecione Abrir para abrir o Synapse Studio em uma nova guia do navegador. O Synapse Studio é uma interface baseada na Web que pode ser usada para trabalhar com o seu workspace do Synapse Analytics.
- No lado esquerdo do Synapse Studio, use o ícone ›› para expandir o menu, o que revela as diferentes páginas do Synapse Studio usadas para gerenciar recursos e executar tarefas de análise de dados.
Criar um pool do Data Explorer
- No Synapse Studio, selecione a página Gerenciar.
- Selecione a guia Pools do Data Explorer e use o ícone + Novo para criar um pool com as seguintes configurações:
- Nome do pool do Data Explorer: dxpool
- Carga de trabalho: computação otimizada
- Tamanho: extra pequeno (2 núcleos)
- Selecione Avançar: Configurações adicionais > e habilite a configuração de Ingestão de streaming. Isso permite que o Data Explorer ingira novos dados de uma fonte de streaming, como os Hubs de Eventos do Azure.
- Selecione Revisar e criar para criar o pool do Data Explorer e aguarde até que ele seja implantado (o que pode levar 15 minutos ou mais – o status mudará de Criando para Online).
Criar um banco de dados e ingerir dados
- No Synapse Studio, selecione a página Dados.
- Verifique se a guia Workspace está selecionada e, se necessário, selecione o ícone ↻ no canto superior esquerdo da página para atualizar a visualização a fim de que os Bancos de dados do Data Explorer sejam listados.
- Expanda bancos de dados do Data Explorer e verifique se dxpool está listado.
- No painel Dados, use o ícone + para criar um Banco de dados do Data Explorer no pool dxpool com o nome iot-data.
- Enquanto aguarda a criação do banco de dados, baixe devices.csv de https://github.com/MicrosoftLearning/DP-900T00A-Azure-Data-Fundamentals/raw/master/streaming/data/devices.csv e salve-o em qualquer pasta do computador local.
- No Synapse Studio, aguarde até que o banco de dados seja criado, se necessário, e no menu … do banco de dados iot-data, selecione Abrir no Azure Data Explorer.
- Na nova guia do navegador que contém o Azure Data Explorer, na guia Dados, selecione Ingerir novos dados.
- Na página Destino, selecione as seguintes configurações:
- Cluster: o pool do Data Explorer dxpool em seu workspace do Azure Synapse
- Banco de dados: iot-data
- Tabela: criar uma nova tabela chamada dispositivos
- Selecione Próximo: origem e, na página Origem, selecione as seguintes opções:
- Tipo de origem: arquivo
- Arquivos: carregue o arquivo devices.csv no computador local.
- Selecione Próximo: esquema e, na página Esquema, verifique se as seguintes configurações estão corretas:
- Tipo de compactação: descompactado
- Formato dos dados: CSV
- Ignorar o primeiro registro: selecionado
- Mapeamento: devices_mapping
- Verifique se os tipos de dados de coluna foram identificados corretamente como Time (datetime), Device (string) e Value (long)). Selecione Avançar: iniciar ingestão.
- Quando a ingestão for concluída, selecione Fechar.
-
No Azure Data Explorer, na guia Consulta, verifique se o banco de dados iot-data está selecionado e, no painel de consulta, insira a consulta a seguir.
devices
-
Na barra de ferramentas, selecione ▷ Executar para executar a consulta e revise os resultados, que devem ser semelhantes ao seguinte:
Hora Dispositivo Valor 2022-01-01T00:00:00Z Dev1 7 2022-01-01T00:00:01Z Dev2 4 … … … Se os resultados corresponderem a isso, você criou com êxito a tabela dispositivos dos dados no arquivo.
Dica: neste exemplo, uma quantidade muito pequena de dados em lote foi importada de um arquivo, o que é útil para os propósitos do exercício. Na realidade, você pode usar o Data Explorer para analisar volumes muito maiores de dados; como você habilita a ingestão de fluxo, também pode ter configurado o Data Explorer para ingerir dados na tabela de uma fonte de streaming, como Hubs de Eventos do Azure.
Use a linguagem de consulta Kusto para consultar a tabela no Synapse Studio
- Feche a guia do navegador do Azure Data Explorer e retorne à guia que contém o Synapse Studio.
- Na página Dados, expanda o banco de dados iot-data e sua pasta Tabelas. No menu …, para a tabela dispositivos, selecione Novo script KQL > Tomar 1.000 linhas.
-
Revise a consulta gerada e seus resultados. A consulta deve conter o seguinte código:
devices | take 1000
Os resultados da consulta contêm as primeiras 1.000 linhas de dados.
-
Modifique a consulta conforme o seguinte exemplo:
devices | where Device == 'Dev1'
-
Selecione ▷ Executar para executar a consulta. Revise os resultados, que devem conter apenas as linhas do dispositivo Dev1.
-
Modifique a consulta conforme o seguinte exemplo:
devices | where Device == 'Dev1' | where Time > datetime(2022-01-07)
-
Execute a consulta e revise os resultados, que devem conter apenas as linhas do dispositivo Dev1 depois de 7 de janeiro de 2022.
-
Modifique a consulta conforme o seguinte exemplo:
devices | where Time between (datetime(2022-01-01 00:00:00) .. datetime(2022-07-01 23:59:59)) | summarize AvgVal = avg(Value) by Device | sort by Device asc
-
Execute a consulta e revise os resultados, que devem conter o valor médio do dispositivo registrado entre 1º de janeiro e 7 de janeiro de 2022 em ordem crescente do nome do dispositivo.
- Feche a guia consulta KQL, descartando as alterações.
Excluir recursos do Azure
Agora que você terminou de explorar Azure Synapse Analytics, exclua os recursos que criou para evitar custos desnecessários do Azure.
- Feche a guia do navegador do Synapse Studio, sem salvar nenhuma alteração, e retorne ao portal do Azure.
- No portal do Azure, na Página Inicial, selecione Grupos de recursos.
- Selecione o grupo de recursos para o workspace do Synapse Analytics (não o grupo de recursos gerenciado) e verifique se ele contém o workspace do Synapse, a conta de armazenamento e o pool do Data Explorer para seu workspace (se você concluiu o exercício anterior, ele também conterá um pool do Spark).
- Na parte superior da página de Visão Geral do grupo de recursos, selecione Excluir o grupo de recursos.
-
Digite o nome do grupo de recursos para confirmar que deseja excluí-lo e selecione Excluir.
Após alguns minutos, seu workspace do Azure Synapse e o workspace gerenciado associado a ele serão excluídos.