探索 Microsoft Fabric 中的数据分析

在本练习中，你将探索 Microsoft Fabric 湖屋中的数据引入和分析。

完成本实验后，你将：

了解 Microsoft Fabric 湖屋的概念：** 了解如何创建工作区和湖屋，这是在 Fabric 中组织和管理数据资产的核心。
使用管道引入数据：** 使用引导式管道将外部数据引入湖屋，因此无需手动编写代码即可进行查询。
使用 SQL 浏览和查询数据：** 使用常用 SQL 查询分析引入的数据，直接在 Fabric 中获取见解。
管理资源：了解清理资源的最佳做法，以避免不必要的费用。

纽约出租车数据集背景：

“纽约出租车 - 绿色”数据集包含纽约市出租车行程的详细记录，包括上下车时间、地点、行程距离、费用和乘客人数。该数据集被广泛应用于数据分析和机器学习，以探索城市交通、需求预测和异常情况检测。在本实验中，你将使用此真实数据集在 Microsoft Fabric 中练习数据引入和分析。

完成本实验室大约需要 25 分钟。

注意：需要 Microsoft Fabric 许可证才能完成本练习。有关如何启用免费 Fabric 试用版许可证的详细信息，请参阅 Fabric 入门。需要 Microsoft 学校或工作帐户才能执行此操作。如果没有该帐户，可以注册 Microsoft Office 365 E3 或更高版本的试用版。

首次使用任何 Microsoft Fabric 功能时，可能会出现提示。消除这些内容。

创建工作区

在 Fabric 中处理数据之前，创建一个已启用的 Fabric 试用版的工作区。

**** 提示：工作区是所有资产（湖屋、管道、笔记本、报表）的容器。启用 Fabric 容量即可让这些项目运行。

在浏览器中，导航到 Microsoft Fabric 主页 (https://app.fabric.microsoft.com/home?experience=fabric)，使用 Fabric 凭据登录。
在左侧菜单栏中，选择“工作区”（图标类似于 🗇）。
新建一个工作区并为其指定名称，并在“高级”部分选择包含 Fabric 容量（试用版、高级版或 Fabric）的许可模式。

**** 提示：选择包含 Fabric 的容量可为工作区提供数据工程任务所需的引擎。使用专用工作区可使实验室资源保持独立且易于清理。
打开新工作区时，它应为空。

创建湖屋

现在已经有了工作区，可以为数据文件创建湖屋了。

**** 提示：湖屋将文件和表一起放在 OneLake 上。可以存储原始文件，也可以创建能使用 SQL 查询的托管 Delta 表。

在左侧菜单上，选择“创建”。在“新建”页的 “数据工程” 部分下，选择“湖屋”。为其指定唯一的名称。

备注：如果未将“创建”选项固定到边栏，则需要首先选择省略号 (…) 选项。

大约一分钟后，一个新的湖屋创建完成：
查看新的湖屋，并注意使用左侧的湖屋资源管理器窗格可浏览湖屋中的表和文件：
- Tables 文件夹包含可以使用 SQL 语义查询的表。 Microsoft Fabric 湖屋中的表基于 Apache Spark 中常用的开源 Delta Lake 文件格式。
- Files 文件夹包含湖屋的 OneLake 存储中未与托管增量表关联的数据文件。还可以在此文件夹中创建快捷方式，以引用存储在外部的数据。
目前，湖屋中没有表或文件。

**** 提示：对原始数据或临时数据使用文件，对已策展且可供查询的数据集使用表。表由 Delta Lake 提供支持，因此它们支持可靠的更新和高效的查询。

引入数据

引入数据的一种简单方法是使用管道中的“复制数据”活动从源中提取数据并将其复制到湖屋中的文件。

**** 提示：管道提供了一种引导式的可重复方法将数据引入湖屋。它们比从头开始编写代码要容易得多，可以在以后根据需要进行计划。

在湖屋的“主页”** 上的“获取数据”** 菜单中选择“新建数据管道”**，并创建名为“引入数据”** 的新数据管道。
在复制数据** 向导的“选择数据源”** 页上，选择“示例数据”**，然后选择“NYC Taxi - Green”** 示例数据集。
在“连接到数据源”** 页上查看数据源中的表。应该有一个表，其中包含纽约市出租车行程的详细信息。然后选择“下一步”，跳转至“连接到数据目标”页**。
在“连接到数据目标”页上，设置以下数据目标选项，然后选择“下一步”：
- 根文件夹：Tables
- 加载设置：加载到新表
- 目标表名称：taxi_rides （可能需要等待列映射预览显示，然后才能更改此项）
- 列映射：保持默认映射不变
- 启用分区：未选中
为什么选择这些选项？****

我们首先使用表作为“基础”，这样数据将直接流入一个托管的 Delta 表，你可以立即对其进行查询。** 将其加载到新表，以便此实验室保持自包含状态，并且不会覆盖任何现有表。由于示例数据已符合预期结构（无需自定义映射），我们将沿用默认列映射。** 分区处于关闭状态，以确保此小型数据集简单明了；虽然分区对于大规模数据很有用，但此处不需要。
在“查看 + 保存”页上，确保选中“立即开始数据传输”选项，然后选择“保存 + 运行” 。

**** 提示：立即启动可让你监视管道的运行情况，并确认数据到达时无需执行额外的步骤。

将创建一个包含“复制数据”活动的新管道，如下所示：

管道开始运行时，可以在管道设计器下的“输出”窗格中监视其状态。使用 ↻（刷新）图标刷新状态，并等待它成功（可能需要 10 分钟或更长时间）**。此特定数据集包含超过 7500 万行，存储约 2.5 GB 数据。
在左侧的中心菜单栏中，选择你的湖屋。
在主页的湖屋资源管理器窗格中的表节点的 … 菜单中，选择刷新，然后展开表以验证是否已创建 taxi_rides 表。

注意：如果新表被列为“无法识别”** 的表，请使用“刷新”** 菜单选项刷新视图。

**** 提示：缓存资源管理器视图。刷新会强制提取最新的表元数据，使新表正确显示。
选择 taxi_rides ** 表以查看其内容。

查询湖屋中的数据

将数据引入湖屋中的表后，可以使用 SQL 对其进行查询。

**** 提示：湖屋表支持 SQL。可以立即分析数据，而无需将其移动到另一个系统。

在湖屋页面的右上角，从湖屋视图切换到湖屋的 SQL 分析终结点。

**** 提示：SQL 分析终结点已经过优化，可对湖屋表运行 SQL 查询，并与常用的查询工具集成。

在工具栏中选择“新建 SQL 查询”。然后在查询编辑器中输入以下 SQL 代码：

 SELECT  DATENAME(dw,lpepPickupDatetime) AS Day,
         AVG(tripDistance) As AvgDistance
 FROM taxi_rides 
 GROUP BY DATENAME(dw,lpepPickupDatetime)

选择“▷Run”** 按钮运行查询并查看结果，其中应包括每周每一天的平均行程距离。

**** 提示：此查询按日期对行程进行分组并计算平均距离，展示了一个可用于构建的简单聚合示例。

清理资源

如果已完成 Microsoft Fabric 探索，则可以删除为此练习创建的工作区。

**** 提示：删除工作区会移除实验中创建的所有项目，避免持续收费。

在左侧栏中，选择工作区的图标以查看其包含的所有项。
在工具栏中，选择“工作区设置”。
在“常规”部分中，选择“删除此工作区”。****