SSIS 术语提取转换中的排除选项卡

在本文中,我们将向您展示在 SSIS 术语提取转换中使用排除选项卡提取名词短语的方法。

在阅读本文关于 SSIS 排除选项卡的介绍之前,请参阅 术语提取 文章,了解此转换的定义和功能。并参阅 在 SSIS 中使用术语提取转换提取名词短语 文章,了解如何在 SSIS 中的源数据中提取名词短语。

下图显示了我们的源数据

Source Table

让我们也看看排除列表

在本例中,我们将显示源数据中存在的所有名词短语,但不包括上述名称。

配置 SSIS 术语提取转换中的排除选项卡

步骤 1:打开 BIDS,将数据流任务从工具箱拖放到控制流。然后,将其重命名为“SSIS 术语提取转换中的排除选项卡”。

Exclusion Tab in SSIS Term Extraction Transformation 1

步骤 2:从工具箱将 OLE DB 源、术语提取转换和 OLE DB 目标拖放到数据流区域。

Exclusion Tab in SSIS Term Extraction Transformation 2

双击数据流区域中的 OLE DB 源将打开连接管理器设置。它提供了编写 SQL 语句的空间。有关更多转换,请单击此处。

在这里,我们选择了以下数据库作为我们的源数据库,并且使用的 SQL 命令是

SELECT [Player Information]
FROM [Term Extraction Transformation Source]

步骤 4:单击列选项卡以验证列。

将 OLE DB 源的输出箭头拖到术语提取转换上,以对源数据执行转换。

步骤 5:双击术语提取转换进行配置。在“术语提取”选项卡中,从可用的输入列中选择要用于术语提取的列。我们将输出列名保留为默认的“术语”和“得分”。

Exclusion Tab in SSIS Term Extraction Transformation 5

排除选项卡:在这里,我们想从名词短语中排除(如前所述)国家名称。为此,让我们配置 OLE DB 连接管理器和排除项。

Exclusion Tab in SSIS Term Extraction Transformation 6

我们从上图中的数据库选择了 [术语提取中的排除列表] 表。我们从这个表中选择了 CountryName,因为它包含排除项,例如国家名称。

步骤 6:在本例中,我们仅提取名词短语。因此,我们将“名词短语”选为术语类型,并将频率阈值设置为 1。请参阅 提取名词短语 文章,了解如何从源数据中提取名词。另请参阅 仅提取名词短语提取名词和名词短语 文章。

Exclusion Tab in SSIS Term Extraction Transformation 7

从下图可以看出,术语提取转换上有一个警告符号。您可以通过配置术语提取转换的错误输出来删除该警告符号。因此,双击“配置错误输出”按钮将打开一个新窗口来设置错误输出。

术语提取转换的默认配置是重定向错误行。您可以通过连接错误输出或将默认行为更改为“忽略失败”或“失败组件”来消除此警告。让我们更改为“忽略失败”。

Exclusion Tab in SSIS Term Extraction Transformation 8

单击“确定”以完成术语提取转换的配置。

步骤 7:现在,使用 OLE DB 目标提供目标服务器、数据库和表详细信息。

OLE DB destination editor 9

在这里,我们选择了目标数据源(localhost 作为服务器实例)和 [SSIS 术语提取转换中的排除选项卡] 表作为我们的目标表。

步骤 8:单击“映射”选项卡以验证源列是否已正确映射到目标列。

Column mapping 10

单击“确定”以完成 SSIS 术语提取转换包的设计。让我们运行包。

Exclusion Tab in SSIS Term Extraction Transformation 11

如果不包含排除列表,输出将与下方相同。

Destination Table 11

让我们打开 SQL Server Management Studio,在 SSIS 术语提取转换中添加排除列表后检查结果。

Table 12