Знакомство с Azure Synapse Data Explorer

Примечание. Из-за изменений продукта существуют некоторые известные проблемы с разделом Создание базы данных и прием данных этого практического задания. Мы работаем над решением этих проблем.

В этом упражнении вы будете использовать обозреватель данных Azure Synapse Analytics для анализа данных временных рядов.

Выполнение этого задания займет около 25 минут.

Перед началом работы

Вам потребуется подписка Azure с доступом уровня администратора.

Создание рабочей области Synapse Analytics

Совет. Если у вас все еще есть рабочая область Azure Synapse из предыдущего упражнения, пропустите этот раздел и сразу перейдите к Созданию пула Data Explorer.

  1. Войдите на портал Azure по адресу https://portal.azure/com, используя учетные данные, связанные с вашей подпиской Azure.

    Примечание. Убедитесь, что работаете в каталоге, содержащем вашу подписку. Он указан в правом верхнем углу под идентификатором пользователя. В противном случае нажмите значок пользователя и переключите каталог.

  2. На портале Azure на домашней странице используйте значок + Создать ресурс, чтобы создать новый ресурс.
  3. Выполните поиск по запросу Azure Synapse Analytics и создайте хранилище Azure Synapse Analytics с приведенными ниже параметрами.
    • Подписка: ваша подписка Azure
      • Группа ресурсов — создайте новую группу ресурсов с подходящим именем, например “synapse-rg”.
      • Управляемая группа ресурсов — введите подходящее имя, например “synapse-managed-rg”.
    • Имя рабочей области — *введите уникальное имя рабочей области, например “synapse-ws-".*
    • Регион — выберите любой доступный регион.
    • Выбор Data Lake Storage 2-го поколения — из подписки.
      • Имя учетной записи — *создайте новую учетную запись с уникальным именем, например “datalake".*
      • Имя файловой системы — *создайте новую файловую систему с уникальным именем, например “fs".*

    Примечание. Для рабочей области Synapse Analytics требуются две группы ресурсов в подписке Azure: одна для ресурсов, явно создаваемых вами, а другая — для управляемых ресурсов, используемых службой. Для нее также необходима учетная запись хранения Data Lake, в которой она будет хранить данные, скрипты и другие артефакты.

  4. После ввода этих сведений выберите Просмотр и создание, а затем выберите Создать, чтобы создать рабочую область.
  5. Дождитесь создания рабочей области. Это займет около пяти минут.
  6. После завершения развертывания перейдите к созданной группе ресурсов и обратите внимание, что она содержит рабочую область Synapse Analytics и учетную запись хранения Data Lake.
  7. Выберите рабочую область Synapse и на странице Обзор в карточке Открыть Synapse Studio выберите Открыть, чтобы открыть Synapse Studio на новой вкладке браузера. Synapse Studio — это веб-интерфейс, с помощью которого можно использовать рабочую область Synapse Analytics.
  8. В левой части Synapse Studio нажмите на значок ››, чтобы развернуть меню. В нем откроются различные страницы Synapse Studio, которые будут использоваться для управления ресурсами и выполнения задач аналитики данных.

Создание пула Data Explorer

  1. В Synapse Studio выберите страницу Управление.
  2. Перейдите на вкладку Пулы Data Explorer, а затем используйте значок + Создать, чтобы создать новый пул со следующими параметрами:
    • Имя пула обозревателя данных: dxpool
    • Рабочая нагрузка: оптимизированная для вычислений
    • Размер: очень маленький (2 ядра)
  3. Выберите Далее: Дополнительные параметры > и включите Прием потоковой передачи. Это позволит Data Explorer принимать новые данные из источника потоковой передачи, например из Центров событий Azure.
  4. Выберите Проверить и создать, чтобы создать пул обозревателя данных, а затем дождитесь его развертывания (это может занять 15 минут или более). Состояние изменится с Создание на Готово.

Создание базы данных и прием данных

  1. В Synapse Studio выберите страницу Данные.
  2. Убедитесь, что выбрана вкладка Рабочая область, и при необходимости щелкните значок в левом верхнем углу страницы, чтобы обновить представление и отобразить Базы данных Data Explorer.
  3. Разверните Обозреватель данных базы данных и убедитесь, что в списке указан dxpool.
  4. На панели Данные используйте значок , чтобы создать в пуле dxpool новую базу данных Data Explorer с именем iot-data.
  5. Пока ожидается создание базы, скачайте файл devices.csv по адресу https://github.com/MicrosoftLearning/DP-900T00A-Azure-Data-Fundamentals/raw/master/streaming/data/devices.csv и сохраните его в любой папке на локальном компьютере.
  6. В Synapse Studio дождитесь создания базы данных, если это необходимо, а затем в меню для новой базы данных iot-data выберите Открыть в Обозревателе данных Azure.
  7. На новой вкладке браузера, содержащей обозреватель данных Azure, на вкладке Данные выберите Принять новые данные.
  8. На странице Назначение выберите следующие параметры:
    • Кластер: пул обозреватель данных dxpool в рабочей области Azure Synapse.
    • База данных: iot-data
    • Таблица: создание новой таблицы с именем devices
  9. Выберите Далее: источник и на странице источник выберите следующие параметры:
    • Тип источника: файл
    • Файлы: Загрузите файл devices.csv с локального компьютера.
  10. Выберите Далее: схема и на странице Схема убедитесь в правильности следующих параметров:
    • Тип сжатия: без сжатия
    • Формат данных: CSV
    • Пропускать первую запись: выбрано
    • Сопоставление: devices_mapping
  11. Убедитесь, что типы данных столбца правильно определены как время (DateTime), устройство (строка) и значение (Long)). Затем нажмите кнопку Далее: начать прием.
  12. По завершении приема нажмите кнопку Закрыть.
  13. В обозревателе данных Azure на вкладке Запрос убедитесь, что выбрана база данных iot-data, а затем на панели запроса введите следующий запрос.

     devices
    
  14. На панели инструментов нажмите ▷ Запуск, чтобы выполнить запрос, и просмотрите результаты, которые должны выглядеть примерно так:

    Время Устройство Значение
    2022-01-01T00:00:00Z Dev1 7
    2022-01-01T00:00:01Z Dev2 4

    Если результаты такие же, вы успешно создали таблицу Устройства из данных в файле.

    Совет. В этом примере вы импортировали из файла лишь небольшой объем пакетных данных, что подходит для целей этого упражнения. На практике можно использовать обозреватель данных для анализа больших объемов данных, а так как вы включили прием потоков, можно также настроить обозреватель данных для приема данных в таблицу из источника потоковой передачи, такого как Центры событий Azure.

Использование языка запросов Kusto для запроса таблицы в Synapse Studio

  1. Закройте вкладку “Обозреватель данных Azure” и вернитесь на вкладку Synapse Studio.
  2. На странице Данные разверните базу данных iot-data и папку Tables (таблицы) в ней. Затем в меню для таблицы Devices (устройства) выберите новый KQL-скрипт > ** Принимать 1000 строк**.
  3. Проверьте созданный запрос и его результаты. Он должен содержать следующий код:

     devices
     | take 1000
    

    Результаты запроса содержат первые 1000 строк данных.

  4. Измените запрос следующим образом:

     devices
     | where Device == 'Dev1'
    
  5. Нажмите ▷ Запуск, чтобы выполнить запрос. Затем просмотрите результаты, которые должны содержать только строки для устройства Dev1.

  6. Измените запрос следующим образом:

     devices
     | where Device == 'Dev1'
     | where Time > datetime(2022-01-07)
    
  7. Выполните запрос и проверьте результаты, которые должны содержать только строки для устройства Dev1 позже чем 7 января 2022 г.

  8. Измените запрос следующим образом:

     devices
     | where Time between (datetime(2022-01-01 00:00:00) .. datetime(2022-07-01 23:59:59))
     | summarize AvgVal = avg(Value) by Device
     | sort by Device asc
    
  9. Выполните запрос и проверьте результаты, которые должны содержать среднее значение устройства, записанное между 1 января и 7 января 2022 г. в порядке возрастания имени устройства.

  10. Закройте вкладку запроса KQL, отменив изменения.

Удаление ресурсов Azure

Теперь, когда вы завершили изучение Azure Synapse Analytics, вы должны удалить созданные ресурсы, чтобы избежать ненужных затрат на Azure.

  1. Закройте вкладку браузера Synapse Studio, не сохраняя изменений, и вернитесь на портал Azure.
  2. На домашней странице портала Azure выберите Группы ресурсов.
  3. Выберите группу ресурсов для рабочей области Synapse Analytics (не управляемую группу ресурсов) и убедитесь, что в ней есть рабочая область Synapse, учетная запись хранения и пул обозревателя данных для вашей рабочей области (если вы выполнили предыдущее упражнение, оно также будет содержать пул Spark).
  4. В верхней части страницы Обзор группы ресурсов выберите Удалить группу ресурсов.
  5. Введите имя группы ресурсов, чтобы подтвердить ее удаление, и выберите Удалить.

    Через несколько минут рабочая область Azure Synapse и связанная с ней управляемая рабочая область будут удалены.