SSIS 中的术语提取转换以提取名词和短语

在本文中,我们将向您展示如何使用 SSIS 术语提取转换来提取名词和名词短语。在阅读本文之前,请参阅 术语提取 文章以了解此转换的定义和功能。

提示:请参阅 术语提取转换 文章以了解提取名词的步骤。并参阅 使用术语提取转换提取名词短语 文章,以了解在 SSIS 中从源数据提取名词短语的步骤。

下图显示了我们的源数据。

Source Table

在 SSIS 中配置术语提取转换以提取名词和短语

步骤 1:打开 BIDS,然后将数据流任务从工具箱拖放到控制流。接下来,将其重命名为“在 SSIS 中使用术语提取转换提取名词和名词短语”。

Extract Nouns and Noun Phrase using Term Extraction Transformation 1

双击它将打开数据流选项卡。有关更多转换,请点击此处 >> 点击这里

步骤 2:从工具箱将 OLE DB 源、术语提取转换和 OLE DB 目标拖放到数据流区域。

Extract Nouns and Noun Phrase using Term Extraction Transformation 2

步骤 3:双击数据流区域中的 OLE DB 源,将打开连接管理器设置,并提供编写 SQL 语句的空间。

OLE DB Source Editor 3

这里我们选择以下数据库作为我们的源数据库,并且在上面的屏幕截图中使用的 SQL 命令是:

SELECT [Player Information]
FROM [Term Extraction Transformation Source]

步骤 4:单击“列”选项卡以验证列。在此选项卡中,我们也可以取消勾选不需要的列。

Available External Columns 4

将 OLE DB 源的输出箭头拖到术语提取转换上,以对源数据执行转换。

步骤 5:双击术语提取转换将打开术语提取编辑器进行配置。在“术语提取”选项卡中,从可用的输入列中选择要用于术语提取的列。我们将输出列名保留为默认的“术语”和“得分”。

Extract Nouns and Noun Phrase using Term Extraction Transformation 5

排除选项卡:如果您想在术语提取期间排除特定术语,请通过指定包含排除术语的列来配置此选项卡。

Extract Nouns and Noun Phrase using Term Extraction Transformation 6

在此 SSIS 术语提取转换示例中,我们将其保留,因为我们要从源数据中提取所有名词短语。

步骤 6:术语提取转换编辑器对话框的“高级”选项卡对于选择术语类型、源类型和频率阈值很重要。在此示例中,我们正在提取名词和名词短语。因此,我们选择“名词和名词短语”作为术语类型,并将频率阈值选择为 1。

请参阅 提取名词使用术语提取转换排除选项卡 文章以了解如何从源数据中提取名词,并参阅 提取名词短语 文章以了解如何从数据源中提取名词短语。

Extract Nouns and Noun Phrase using Term Extraction Transformation 7

从下图可以看到,术语提取转换上有一个警告符号。它表示错误输出未连接。您可以通过配置术语提取转换的错误输出来删除警告符号。双击“配置错误输出”按钮将打开一个新窗口来设置错误输出。

术语提取转换的默认配置是重定向错误行。您可以通过连接错误输出来摆脱此警告。或者通过将默认行为更改为“忽略失败”或“组件失败”。我们将其更改为“忽略失败”。

Extract Nouns and Noun Phrase using Term Extraction Transformation 8

单击“确定”完成 SSIS 术语提取转换的配置,以提取名词和短语。

步骤 7:现在,我们需要提供目标服务器、数据库和表详细信息。双击 OLE DB 目标并提供所需信息。

OLE DB Destination Editor 9

这里我们选择的目标数据源(localhost 作为服务器实例)和 [SSIS 中提取名词和名词短语] 表作为我们的目标表。

步骤 8:单击“映射”选项卡以检查源列是否与目标列精确匹配。如果未匹配,请将其分配给适当的目标列。

Input and External Columns mapping 10

单击“确定”完成设计我们的使用术语提取转换包提取名词和名词短语。让我们运行该包。

Extract Nouns and Noun Phrase using Term Extraction Transformation 11

让我们打开 SQL Server Management Studio 并检查结果。