Изучение потоковой передачи Spark в Azure Synapse Analytics

Выполняя это упражнение, вы будете использовать Spark Structured Streaming и дельта-таблицы в Azure Synapse Analytics для обработки потоковых данных.

Выполнение этого задания займет около 15 минут.

Перед началом работы

Вам потребуется подписка Azure с доступом уровня администратора.

Создание рабочей области Synapse Analytics

Чтобы использовать Synapse Analytics, необходимо подготовить ресурс рабочей области Synapse Analytics в подписке Azure.

Войдите на портал Azure по адресу портал Azure, используя учетные данные, связанные с вашей подпиской Azure.

Примечание. Убедитесь, что работаете в каталоге, содержащем вашу подписку. Он указан в правом верхнем углу под идентификатором пользователя. В противном случае нажмите значок пользователя и переключите каталог.
На портале Azure на домашней странице используйте значок ＋ Создать ресурс, чтобы создать новый ресурс.
Выполните поиск по запросу Azure Synapse Analytics и создайте хранилище Azure Synapse Analytics с приведенными ниже параметрами.
- Подписка: ваша подписка Azure
  - Группа ресурсов — создайте новую группу ресурсов с подходящим именем, например “synapse-rg”.
  - Управляемая группа ресурсов — введите подходящее имя, например “synapse-managed-rg”.
- Имя рабочей области — *введите уникальное имя рабочей области, например “synapse-ws-".*
- Регион — выберите любой доступный регион.
- Выбор Data Lake Storage 2-го поколения — из подписки.
  - Имя учетной записи — *создайте новую учетную запись с уникальным именем, например “datalake".*
  - Имя файловой системы — *создайте новую файловую систему с уникальным именем, например “fs".*
Примечание. Для рабочей области Synapse Analytics требуются две группы ресурсов в подписке Azure: одна для ресурсов, явно создаваемых вами, а другая — для управляемых ресурсов, используемых службой. Для нее также необходима учетная запись хранения Data Lake, в которой она будет хранить данные, скрипты и другие артефакты.
После ввода этих сведений выберите Просмотр и создание, а затем выберите Создать, чтобы создать рабочую область.
Дождитесь создания рабочей области. Это займет около пяти минут.
После завершения развертывания перейдите к созданной группе ресурсов и обратите внимание, что она содержит рабочую область Synapse Analytics и учетную запись хранения Data Lake.
Выберите рабочую область Synapse и на странице Обзор в карточке Открыть Synapse Studio выберите Открыть, чтобы открыть Synapse Studio на новой вкладке браузера. Synapse Studio — это веб-интерфейс, с помощью которого можно использовать рабочую область Synapse Analytics.
В левой части Synapse Studio щелкните значок ››, чтобы развернуть меню. В нем содержатся различные страницы Synapse Studio, которые вы будете использовать для управления ресурсами и выполнения задач аналитики данных, как показано ниже:

Создание пула Spark

Чтобы использовать Spark для обработки потоковых данных, необходимо добавить пул Spark в рабочую область Azure Synapse.

В Synapse Studio выберите страницу Управление.
Перейдите на вкладку Пулы Apache Spark, а затем используйте значок ＋ Создать, чтобы создать новый пул Spark со следующими параметрами:
- Имя пула Apache Spark: sparkpool
- Семейство размеров узла — оптимизированные для операций в памяти.
- Размер узла — малый (4 виртуальных ядра, 32 ГБ).
- Автомасштабирование — включено.
- Количество узлов — 3—-3.
Просмотрите и создайте пул Spark, а затем дождитесь его развертывания (это может занять несколько минут).

Обзор потоковой обработки

Для изучения потоковой обработки, выполняемой с помощью Spark, вы будете использовать записную книжку, содержащую код Python и примечания, которые помогут вам выполнить базовую потоковую обработку с помощью Spark Structured Streaming и дельта-таблиц.

Скачайте записную книжку Structured Streaming and Delta Tables.ipynb на локальный компьютер (если записная книжка открыта в виде текстового файла в браузере, сохраните ее в локальной папке; обязательно сохраните ее как Structured Streaming and Delta Tables.ipynb, а не в виде файла .txt)
В Synapse Studio выберите страницу Разработка.
В меню ＋ щелкните ↤ Импортировать и выберите файл Structured Streaming and Delta Tables.ipynb на локальном компьютере.
Выполните указанные в блокноте инструкции, чтобы подключить его к пулу Spark и запустить содержащиеся в нем ячейки кода для изучения различных способов использования Spark для потоковой обработки.

Удаление ресурсов Azure

Примечание. Если вы планируете выполнять другие упражнения, где используется Azure Synapse Analytics, можете пропустить этот раздел. В противном случае выполните приведенные ниже действия, чтобы избежать ненужных затрат на Azure.

Закройте вкладку браузера Synapse Studio, не сохраняя изменений, и вернитесь на портал Azure.
На домашней странице портала Azure выберите Группы ресурсов.
Выберите группу ресурсов для рабочей области Synapse Analytics (не управляемую группу ресурсов) и убедитесь, что в ней есть рабочая область Synapse, учетная запись хранения и пул обозревателя данных для вашей рабочей области (если вы выполнили предыдущее упражнение, оно также будет содержать пул Spark).
В верхней части страницы Обзор группы ресурсов выберите Удалить группу ресурсов.
Введите имя группы ресурсов, чтобы подтвердить ее удаление, и выберите Удалить.

Через несколько минут рабочая область Azure Synapse и связанная с ней управляемая рабочая область будут удалены.