Disponibilizar dados no Azure Machine Learning

Embora seja bastante comum trabalhar com dados em seu sistema de arquivos local, em um ambiente corporativo pode ser mais eficaz armazenar os dados em um local central onde vários cientistas de dados e engenheiros de aprendizado de máquina possam acessá-los.

Neste exercício, você vai explorar os armazenamentos de dados e os ativos de dados, que são os principais objetos usados para abstrair o acesso a dados no Azure Machine Learning.

Antes de começar

É necessário ter uma assinatura do Azure com acesso de nível administrativo.

Provisionar um workspace do Azure Machine Learning

Um workspace do Azure Machine Learning fornece um local central para gerenciar todos os recursos e ativos necessários para treinar e gerenciar seus modelos. Você pode interagir com o workspace do Azure Machine Learning por meio do estúdio, do SDK do Python e da CLI do Azure.

Você usará um script do Shell que usa a CLI do Azure para provisionar o workspace e os recursos necessários. Em seguida, você usará o Designer no estúdio do Azure Machine Learning para treinar e comparar modelos.

Criar o espaço de trabalho e os recursos de computação

Para criar o workspace do Azure Machine Learning e recursos de computação, você usará a CLI do Azure. Todos os comandos necessários são agrupados em um script do Shell para você executar.

  1. Na guia do navegador, abra o portal do Azure em https://portal.azure.com/ e entre com sua conta Microsoft.
  2. Selecione o botão [>_] (Cloud Shell) na parte superior da página à direita da caixa de pesquisa. Isso abre um painel do Cloud Shell na parte inferior do Portal.
  3. Selecione Bash se solicitado. Na primeira vez que abrir o Cloud Shell, será solicitado que você escolha o tipo de shell que quer usar (Bash ou PowerShell).
  4. Verifique se a assinatura correta está especificada e se Nenhuma conta de armazenamento necessária está selecionada. Escolha Aplicar.
  5. Insira os seguintes comandos no terminal para clonar o repositório:

     rm -r azure-ml-labs -f
     git clone https://github.com/MicrosoftLearning/mslearn-azure-ml.git azure-ml-labs
    

    Use SHIFT + INSERT para colar o código copiado no Cloud Shell.

  6. Digite os seguintes comandos depois que o repositório tiver sido clonado para alterar para a pasta deste laboratório e execute o script setup.sh contido:

     cd azure-ml-labs/Labs/03
     ./setup.sh
    

    Ignore todas as mensagens de (erro) que dizem que as extensões não foram instaladas.

  7. Aguarde a conclusão do script - isso normalmente leva cerca de 5 a 10 minutos.

Explorar os armazenamentos de dados padrão

Quando você cria um workspace do Azure Machine Learning, uma Conta de Armazenamento é automaticamente criada e conectada ao workspace. Você vai explorar como a Conta de Armazenamento é conectada.

  1. No portal do Azure, navegue até o novo grupo de recursos nomeado rg-dp100-….
  2. Selecione a Conta de Armazenamento no grupo de recursos. O nome geralmente começa com o nome que você forneceu para o workspace (sem hífens).
  3. Examine a página Visão geral da Conta de Armazenamento. Observe que a Conta de Armazenamento tem várias opções para Armazenamento de dados, conforme mostrado no painel Visão geral e no menu à esquerda.
  4. Selecione Contêineres para explorar a parte de Armazenamento de Blobs da Conta de Armazenamento.
  5. Observe o contêiner azureml-blobstore-…. O armazenamento de dados padrão para ativos de dados usa esse contêiner para armazenar dados.
  6. Usando o botão + Contêiner na parte superior da tela, crie um novo contêiner e nomeie-o training-data.
  7. Selecione Compartilhamentos de arquivo no menu à esquerda para explorar a parte de Compartilhamento de arquivo da Conta de Armazenamento.
  8. Observe o compartilhamento de arquivo code-…. Todos os notebooks no workspace são armazenados aqui. Depois de clonar os materiais de laboratório, você pode encontrar os arquivos neste compartilhamento de arquivos, na pasta code-…/Usuários/seu-nome-de-usuário/azure-ml-labs.

Copiar a chave de acesso

Para criar um armazenamento de dados no workspace do Azure Machine Learning, você precisa fornecer algumas credenciais. Uma maneira fácil de fornecer ao workspace acesso a um armazenamento de Blob é usar a chave de conta.

  1. Na Conta de Armazenamento, selecione a guia Chaves de acesso no menu à esquerda.
  2. Observe que duas chaves são fornecidas: key1 e key2. Cada chave tem a mesma funcionalidade.
  3. Selecione Mostrar para o campo Chave em key1.
  4. Copie o valor do campo Chave para um bloco de notas. Você vai precisar colar esse valor no notebook mais tarde.
  5. Copie o nome da sua conta de armazenamento da parte superior da página. O nome deve começar com mlwdp100storage…. Você precisará colar esse valor no notebook mais tarde também.

Observação: copie o nome e a chave da conta para um bloco de notas para evitar o uso automático de maiúsculas (o que acontece no Word). A chave diferencia maiúsculas de minúsculas.

Clonar os materiais de laboratório

Para criar um armazenamento de dados e ativos de dados com o SDK do Python, você precisará clonar os materiais de laboratório no workspace.

  1. No portal do Azure, navegue até o workspace do Azure Machine Learning nomeado mlw-dp100-labs.
  2. Selecione o espaço de trabalho do Azure Machine Learning e, em sua página Visão geral, selecione Iniciar estúdio. Outra guia será aberta em seu navegador para abrir o estúdio do Azure Machine Learning.
  3. Feche todos os pop-ups que aparecem no estúdio.
  4. No estúdio do Azure Machine Learning, navegue até a página Computação e verifique se a instância de computação e o cluster criados na seção anterior existem. A instância de computação deve estar em execução, o cluster deve estar ocioso e ter 0 nós em execução.
  5. Na guia Instâncias de computação, localize sua instância de computação e selecione o aplicativo Terminal.
  6. No terminal, instale o SDK do Python na instância de computação executando os seguintes comandos no terminal:

     pip uninstall azure-ai-ml
     pip install azure-ai-ml
     pip install mltable
    

    Ignore todas as mensagens (de erro) que dizem que os pacotes não foram instalados.

  7. Execute o seguinte comando para clonar um repositório Git contendo notebooks, dados e outros arquivos em seu espaço de trabalho:

     git clone https://github.com/MicrosoftLearning/mslearn-azure-ml.git azure-ml-labs
    
  8. Quando o comando for concluído, no painel Arquivos, clique em para atualizar a exibição e verificar se uma nova pasta Users/your-user-name/azure-ml-labs foi criada.

Opcionalmente, em outra guia do navegador, volte até o portal do Azure. Explore novamente o compartilhamento de arquivo code-… na Conta de armazenamento para localizar os materiais de laboratório clonados na pasta recém-criada azure-ml-labs.

Criar um armazenamento de dados e ativos de dados

O código para criar um armazenamento de dados e ativos de dados com o SDK do Python é fornecido em um notebook.

  1. Abra o notebook Labs/03/Work with data.ipynb .

    Selecione Autenticar e siga as etapas necessárias se aparecer uma notificação solicitando que você se autentique.

  2. Verifique se o notebook usa o kernel Python 3.8 - AzureML.
  3. Execute todas as células no notebook.

Opcional: explore os ativos de dados

Opcionalmente, você pode explorar como os ativos de dados são armazenados na Conta de Armazenamento associada.

  1. Navegue até a guia Dados no estúdio do Azure Machine Learning para explorar os ativos de dados.
  2. Selecione o nome do ativo de dados diabetes-local para explorar seus detalhes.

    Nas Fontes de dados para o ativo de dados diabetes-local, você encontrará o local para aonde o arquivo foi carregado. O caminho que começa com LocalUpload/… mostra o caminho dentro do contêiner da Conta de Armazenamento azureml-blobstore-…. Você pode verificar se o arquivo existe navegando até esse caminho no portal do Azure.

Excluir recursos do Azure

Se você terminou de explorar o Azure Machine Learning, exclua os recursos que criou para evitar custos desnecessários do Azure.

  1. Feche a guia do estúdio do Azure Machine Learning e retorne ao portal do Azure.
  2. No portal do Azure, na Página Inicial, selecione Grupos de recursos.
  3. Selecione o grupo de recursos rg-dp100-….
  4. Na parte superior da página de Visão Geral do grupo de recursos, selecione Excluir o grupo de recursos.
  5. Digite o nome do grupo de recursos para confirmar que deseja excluí-lo e selecione Excluir.