Знакомство с Azure Synapse Data Explorer
Примечание. Из-за изменений продукта существуют некоторые известные проблемы с разделом Создание базы данных и прием данных этого практического задания. Мы работаем над решением этих проблем.
В этом упражнении вы будете использовать обозреватель данных Azure Synapse Analytics для анализа данных временных рядов.
Выполнение этого задания займет около 25 минут.
Перед началом работы
Вам потребуется подписка Azure с доступом уровня администратора.
Создание рабочей области Synapse Analytics
Совет. Если у вас все еще есть рабочая область Azure Synapse из предыдущего упражнения, пропустите этот раздел и сразу перейдите к Созданию пула Data Explorer.
-
Войдите на портал Azure по адресу https://portal.azure/com, используя учетные данные, связанные с вашей подпиской Azure.
Примечание. Убедитесь, что работаете в каталоге, содержащем вашу подписку. Он указан в правом верхнем углу под идентификатором пользователя. В противном случае нажмите значок пользователя и переключите каталог.
- На портале Azure на домашней странице используйте значок + Создать ресурс, чтобы создать новый ресурс.
- Выполните поиск по запросу Azure Synapse Analytics и создайте хранилище Azure Synapse Analytics с приведенными ниже параметрами.
- Подписка: ваша подписка Azure
- Группа ресурсов — создайте новую группу ресурсов с подходящим именем, например “synapse-rg”.
- Управляемая группа ресурсов — введите подходящее имя, например “synapse-managed-rg”.
- Имя рабочей области — *введите уникальное имя рабочей области, например “synapse-ws-
".* - Регион — выберите любой доступный регион.
- Выбор Data Lake Storage 2-го поколения — из подписки.
- Имя учетной записи — *создайте новую учетную запись с уникальным именем, например “datalake
".* - Имя файловой системы — *создайте новую файловую систему с уникальным именем, например “fs
".*
- Имя учетной записи — *создайте новую учетную запись с уникальным именем, например “datalake
Примечание. Для рабочей области Synapse Analytics требуются две группы ресурсов в подписке Azure: одна для ресурсов, явно создаваемых вами, а другая — для управляемых ресурсов, используемых службой. Для нее также необходима учетная запись хранения Data Lake, в которой она будет хранить данные, скрипты и другие артефакты.
- Подписка: ваша подписка Azure
- После ввода этих сведений выберите Просмотр и создание, а затем выберите Создать, чтобы создать рабочую область.
- Дождитесь создания рабочей области. Это займет около пяти минут.
- После завершения развертывания перейдите к созданной группе ресурсов и обратите внимание, что она содержит рабочую область Synapse Analytics и учетную запись хранения Data Lake.
- Выберите рабочую область Synapse и на странице Обзор в карточке Открыть Synapse Studio выберите Открыть, чтобы открыть Synapse Studio на новой вкладке браузера. Synapse Studio — это веб-интерфейс, с помощью которого можно использовать рабочую область Synapse Analytics.
- В левой части Synapse Studio нажмите на значок ››, чтобы развернуть меню. В нем откроются различные страницы Synapse Studio, которые будут использоваться для управления ресурсами и выполнения задач аналитики данных.
Создание пула Data Explorer
- В Synapse Studio выберите страницу Управление.
- Перейдите на вкладку Пулы Data Explorer, а затем используйте значок + Создать, чтобы создать новый пул со следующими параметрами:
- Имя пула обозревателя данных: dxpool
- Рабочая нагрузка: оптимизированная для вычислений
- Размер: очень маленький (2 ядра)
- Выберите Далее: Дополнительные параметры > и включите Прием потоковой передачи. Это позволит Data Explorer принимать новые данные из источника потоковой передачи, например из Центров событий Azure.
- Выберите Проверить и создать, чтобы создать пул обозревателя данных, а затем дождитесь его развертывания (это может занять 15 минут или более). Состояние изменится с Создание на Готово.
Создание базы данных и прием данных
- В Synapse Studio выберите страницу Данные.
- Убедитесь, что выбрана вкладка Рабочая область, и при необходимости щелкните значок ↻ в левом верхнем углу страницы, чтобы обновить представление и отобразить Базы данных Data Explorer.
- Разверните Обозреватель данных базы данных и убедитесь, что в списке указан dxpool.
- На панели Данные используйте значок +, чтобы создать в пуле dxpool новую базу данных Data Explorer с именем iot-data.
- Пока ожидается создание базы, скачайте файл devices.csv по адресу https://github.com/MicrosoftLearning/DP-900T00A-Azure-Data-Fundamentals/raw/master/streaming/data/devices.csv и сохраните его в любой папке на локальном компьютере.
- В Synapse Studio дождитесь создания базы данных, если это необходимо, а затем в меню … для новой базы данных iot-data выберите Открыть в Обозревателе данных Azure.
- На новой вкладке браузера, содержащей обозреватель данных Azure, на вкладке Данные выберите Принять новые данные.
- На странице Назначение выберите следующие параметры:
- Кластер: пул обозреватель данных dxpool в рабочей области Azure Synapse.
- База данных: iot-data
- Таблица: создание новой таблицы с именем devices
- Выберите Далее: источник и на странице источник выберите следующие параметры:
- Тип источника: файл
- Файлы: Загрузите файл devices.csv с локального компьютера.
- Выберите Далее: схема и на странице Схема убедитесь в правильности следующих параметров:
- Тип сжатия: без сжатия
- Формат данных: CSV
- Пропускать первую запись: выбрано
- Сопоставление: devices_mapping
- Убедитесь, что типы данных столбца правильно определены как время (DateTime), устройство (строка) и значение (Long)). Затем нажмите кнопку Далее: начать прием.
- По завершении приема нажмите кнопку Закрыть.
-
В обозревателе данных Azure на вкладке Запрос убедитесь, что выбрана база данных iot-data, а затем на панели запроса введите следующий запрос.
devices
-
На панели инструментов нажмите ▷ Запуск, чтобы выполнить запрос, и просмотрите результаты, которые должны выглядеть примерно так:
Время Устройство Значение 2022-01-01T00:00:00Z Dev1 7 2022-01-01T00:00:01Z Dev2 4 … … … Если результаты такие же, вы успешно создали таблицу Устройства из данных в файле.
Совет. В этом примере вы импортировали из файла лишь небольшой объем пакетных данных, что подходит для целей этого упражнения. На практике можно использовать обозреватель данных для анализа больших объемов данных, а так как вы включили прием потоков, можно также настроить обозреватель данных для приема данных в таблицу из источника потоковой передачи, такого как Центры событий Azure.
Использование языка запросов Kusto для запроса таблицы в Synapse Studio
- Закройте вкладку “Обозреватель данных Azure” и вернитесь на вкладку Synapse Studio.
- На странице Данные разверните базу данных iot-data и папку Tables (таблицы) в ней. Затем в меню … для таблицы Devices (устройства) выберите новый KQL-скрипт > ** Принимать 1000 строк**.
-
Проверьте созданный запрос и его результаты. Он должен содержать следующий код:
devices | take 1000
Результаты запроса содержат первые 1000 строк данных.
-
Измените запрос следующим образом:
devices | where Device == 'Dev1'
-
Нажмите ▷ Запуск, чтобы выполнить запрос. Затем просмотрите результаты, которые должны содержать только строки для устройства Dev1.
-
Измените запрос следующим образом:
devices | where Device == 'Dev1' | where Time > datetime(2022-01-07)
-
Выполните запрос и проверьте результаты, которые должны содержать только строки для устройства Dev1 позже чем 7 января 2022 г.
-
Измените запрос следующим образом:
devices | where Time between (datetime(2022-01-01 00:00:00) .. datetime(2022-07-01 23:59:59)) | summarize AvgVal = avg(Value) by Device | sort by Device asc
-
Выполните запрос и проверьте результаты, которые должны содержать среднее значение устройства, записанное между 1 января и 7 января 2022 г. в порядке возрастания имени устройства.
- Закройте вкладку запроса KQL, отменив изменения.
Удаление ресурсов Azure
Теперь, когда вы завершили изучение Azure Synapse Analytics, вы должны удалить созданные ресурсы, чтобы избежать ненужных затрат на Azure.
- Закройте вкладку браузера Synapse Studio, не сохраняя изменений, и вернитесь на портал Azure.
- На домашней странице портала Azure выберите Группы ресурсов.
- Выберите группу ресурсов для рабочей области Synapse Analytics (не управляемую группу ресурсов) и убедитесь, что в ней есть рабочая область Synapse, учетная запись хранения и пул обозревателя данных для вашей рабочей области (если вы выполнили предыдущее упражнение, оно также будет содержать пул Spark).
- В верхней части страницы Обзор группы ресурсов выберите Удалить группу ресурсов.
-
Введите имя группы ресурсов, чтобы подтвердить ее удаление, и выберите Удалить.
Через несколько минут рабочая область Azure Synapse и связанная с ней управляемая рабочая область будут удалены.