创建组合型文档智能模型
在本练习中,你将创建并训练两个用于分析不同税务表的自定义模型。 然后,你将创建一个包含这两个自定义模型的组合模型。 你将通过提交一个表单来测试模型,并检查它是否正确识别文档类型和标记字段。
设置资源
我们将使用脚本创建 Azure AI 文档智能资源、包含示例表单的存储帐户和资源组:
- 启动 Visual Studio Code。
- 打开面板 (SHIFT+CTRL+P) 并运行“Git:克隆”命令,以将
https://github.com/MicrosoftLearning/mslearn-ai-document-intelligence
存储库克隆到本地文件夹(任意文件夹均可)。 -
克隆存储库后,在 Visual Studio Code 中打开文件夹。
注意:如果 Visual Studio Code 显示一条弹出消息,提示你信任打开的代码,请单击弹出窗口中的“是,我信任该作者”选项**。
注意:如果系统提示你添加生成和调试所需的资产,请选择以后再说。 如果 Visual Studio Code 中存在任何其他弹出窗口,你可以放心地将其消除。
-
展开左窗格中的“Labfiles”** 文件夹,然后右键单击 03-composed-model** 目录。 选择“在集成终端中打开”选项,并执行以下脚本:
az login --output none
注意:如果你收到有关无活动订阅且已启用 MFA 的错误,则可能需要首先登录到 Azure 门户
https://portal.azure.com
,然后重新运行az login
。 - 根据提示登录到 Azure 订阅。 然后,返回到 Visual Studio Code 并等待登录过程完成。
-
在集成终端中,运行以下命令来设置资源:
./setup.ps1
重要说明:该脚本创建的最后一个资源是你的 Azure AI 文档智能服务。 如果该命令由于已存在 F0 层资源而失败,请使用此实验室的该资源,或者在 Azure 门户中使用 S0 层手动创建一个。
创建 1040 表单自定义模型
若要创建组合模型,必须先创建两个或多个自定义模型。 若要创建首个自定义模型,请执行以下操作:
- 在新的浏览器选项卡中,从
https://documentintelligence.ai.azure.com/studio
启动 Azure AI 文档智能工作室。 - 向下滚动,然后在“自定义模型”下选择“自定义提取模型”。****
- 如果系统要求你登录帐户,请使用 Azure 凭据。
- 如果系统询问要使用哪个 Azure AI 文档智能资源,请选择创建 Azure AI 文档智能资源时使用的订阅和资源名称。
- 在“我的项目”** 下,选择“+ 创建项目”**。
- 在“项目名称”文本框中,键入“1040 表单”,然后选择“继续”****。
- 在“配置服务资源”页面的“订阅”下拉列表中,选择你的 Azure 订阅****。
- 在“资源组”下拉列表中,选择已为你创建的 DocumentIntelligenceResources<xxxx>。****
- 在“文档智能或认知服务资源”下拉列表中,选择 DocumentIntelligence<xxxx>。
- 在“API 版本”下拉列表中,确保已选中“2024-07-31(预览版)”,然后选择“继续”。
- 在“连接训练数据源”页面上的“订阅”下拉列表中,选择你的 Azure 订阅****。
- 在“资源组”下拉列表中,选择“DocumentIntelligenceResources<xxxx>”****。
- 在“存储帐户”下拉列表中,选择列出的唯一存储帐户**。 如果你的订阅中有多个存储帐户,请选择以 docintelstorage 开头的存储帐户
- 在“Blob 容器”下拉列表中,选择“1040examples”,然后选择“继续”****。
- 在“查看和创建”页上选择“创建项目”****。
- 在“立即启动标记操作”弹出窗口中选择“运行布局”下的“立即运行”,然后等待分析完成。
标记 1040 表单自定义模型
现在,让我们标记示例表单中的字段:
- 在“标记数据”页的右上角,选择“+ 添加字段”,然后选择“字段”。****
- 键入“FirstName”,然后按 Enter**。
- 在左侧列表中选择名为“f1040_1.pdf”的文档,选择“John”,然后选择“FirstName”****。
- 在页面右上角,选择“+ 添加字段”,然后选择“字段”****。
- 键入“LastName”,然后按 Enter**。
- 在文档中,选择“Doe”,然后选择“LastName”****。
- 在页面右上角,选择“+ 添加字段”,然后选择“字段”****。
- 键入“City”,然后按 Enter**。
- 在文档中,选择“Los Angeles”,然后选择“City”****。
- 在页面右上角,选择“+ 添加字段”,然后选择“字段”****。
- 键入“State”,然后按 Enter**。
- 在文档中,选择“CA”,然后选择“State”****。
- 使用你创建的标签对左侧列表中的其余表单重复此标记过程。 标记相同的四个字段:FirstName、LastName、City 和 State****。 请注意,其中一个文档没有城市或州数据。
** 重要说明:就本练习而言,我们仅使用五个示例表单并仅标记四个字段。 在真实模型中,应使用尽可能多的样本来最大限度地提高预测的准确性和置信度。 还应标记表单中的所有可用字段,而不仅仅是这四个字段。
训练 1040 表单自定义模型
既然已经标记好了示例表单,我们就可以训练第一个自定义模型了:
- 在 Azure AI 文档智能工作室中,选择屏幕右上角的“训练”。
- 在“训练新模型”对话框的“模型 ID”文本框中,键入“1040FormsModel”****。
- 在“生成模型”下拉列表中,选择“模板”,然后选择“训练”****。
- 在“正在进行训练”对话框中,选择“转到模型”****。
创建 1099 表单自定义模型
现在,必须创建第二个模型,你将使用示例 1099 税务表对其进行训练:
- 在 Azure AI 文档智能工作室中,选择“自定义提取模型”。**
- 在“我的项目”** 下,选择“+ 创建项目”**。
- 在“项目名称”文本框中,键入“1099 表单”,然后选择“继续”****。
- 在“配置服务资源”页面的“订阅”下拉列表中,选择你的 Azure 订阅****。
- 在“资源组”下拉列表中,选择“DocumentIntelligenceResources<xxxx>”****。
- 在“文档智能或认知服务资源”下拉列表中,选择 DocumentIntelligence<xxxx>。
- 在“API 版本”下拉列表中,确保已选中“2024-07-31(预览版)”,然后选择“继续”。
- 在“连接训练数据源”页面上的“订阅”下拉列表中,选择你的 Azure 订阅。****
- 在“资源组”下拉列表中,选择“DocumentIntelligenceResources<xxxx>”****。
- 在“存储帐户”下拉列表中,选择列出的唯一存储帐户**。
- 在“Blob 容器”下拉列表中,选择“1099examples”,然后选择“继续”****。
- 在“查看和创建”页上选择“创建项目”****。
- 选择“运行布局”的下拉按钮,然后选择“未分析的文档”。
- 等待分析完成。
标记 1099 表单自定义模型
现在,使用一些字段标记示例表单:
- 在“标记数据”页的右上角,选择“+ 添加字段”,然后选择“字段”。****
- 键入“FirstName”,然后按 Enter**。
- 在左侧列表中选择名为“f1099msc_payer.pdf”的文档,选择“John”,然后选择“FirstName”****。
- 在页面右上角,选择“+ 添加字段”,然后选择“字段”****。
- 键入“LastName”,然后按 Enter**。
- 在文档中,选择“Doe”,然后选择“LastName”****。
- 在页面右上角,选择“+ 添加字段”,然后选择“字段”****。
- 键入“City”,然后按 Enter**。
- 在文档中,选择“New Haven”,然后选择“City”****。
- 在页面右上角,选择“+ 添加字段”,然后选择“字段”****。
- 键入“State”,然后按 Enter**。
- 在文档中,选择“CT”,然后选择“State”****。
- 对左侧列表中的其余表单重复此标记过程。 标记相同的四个字段:FirstName、LastName、City 和 State****。 请注意,其中两个文档没有任何要标记的名称数据。
训练 1099 表单自定义模型
现在可以训练第二个自定义模型:
- 在 Azure AI 文档智能工作室中,选择右上角的“训练”。
- 在“训练新模型”对话框的“模型 ID”文本框中,键入“1099FormsModel”****。
- 在“生成模型”下拉列表中,选择“模板”,然后选择“训练”****。
- 在“正在进行训练”对话框中,选择“转到模型”****。
- 训练过程可能需要数分钟。 请时而刷新浏览器,直到两个模型都显示“已成功”状态**。
使用模型
现在,该模型已完成,让我们使用示例形式对其进行测试:
- 在 Azure AI 文档智能工作室中,选择“模型”页,然后选择 1040FormsModel。
- 选择“测试”。
- 选择“浏览文件”**,然后浏览到你克隆存储库的位置。
- 选择 03-composed-model/trainingdata/TestDoc/f1040_7.pdf**,然后选择“打开”。**
- 选择“运行分析”。 Azure AI 文档智能使用组合模型分析表单。
- 你分析的文档是 1040 税务表的一个示例。 检查 DocType 属性以查看是否使用了正确的自定义模型**。 还要检查模型标识的 FirstName、LastName、City 和 State 值******。
清理资源
现在你已经了解了组合模型的工作原理,让我们删除你在 Azure 订阅中创建的资源。
- 在 Azure 门户
https://portal.azure.com/
中,选择“资源组”。**** - 在“资源组”** 列表中,选择你创建的 **DocumentIntelligenceResources<xxxx>,然后选择“删除资源组”。**
- 在“键入资源组名称”文本框中,键入资源组的名称,然后选择“删除”以删除文档智能资源和存储帐户。****