在本文中,我们将介绍如何在 SSIS 中使用术语提取转换来提取名词。请参阅从源数据提取名词短语一文,以了解如何从源数据中提取名词短语。
提示:在阅读这篇 SSIS 提取名词的文章之前,请参考SSIS 中的术语提取一文,了解此转换的定义、属性和功能。此外,还请参考使用术语提取转换提取名词和名词短语和SSIS 术语提取转换中的排除选项卡文章。
下图显示了我们的源数据

配置 SSIS 中的术语提取转换 - 提取名词
步骤 1:打开 BIDS,将数据流任务从工具箱拖放到控制流,并将其重命名为 SSIS 中的使用术语提取转换提取名词。

双击它将打开数据流选项卡。有关更多转换,请点击此处 >> 点击这里。
步骤 2:将 OLE DB 源、术语提取转换和 OLE DB 目标从工具箱拖放到数据流区域。

步骤 3:双击数据流区域的 OLE DB 源,将打开连接管理器设置,并提供编写 SQL 语句的空间。
在这里,我们将选择以下数据库作为我们的源数据库,并且将使用的 SQL 命令是:

步骤 4:单击“列”选项卡以验证列。在这里,我们可以取消选中不需要的列。

将 OLE DB 源的输出箭头拖到术语提取转换上,以对源数据执行转换。
步骤 5:双击术语提取转换将打开编辑器进行配置。在“术语提取”选项卡中,您需要从可用输入列中选择要用于提取的列。我们将输出列名保留为默认的“术语”和“分数”。

排除选项卡:如果您想在术语提取期间排除特定术语,可以通过指定包含排除术语的列来配置此选项卡。

在此示例中,我们将其保留,因为我们希望从源数据中提取所有名词。
步骤 6:术语提取转换编辑器对话框的“高级”选项卡对于选择术语类型、源类型和频率阈值至关重要。在此示例中,我们仅提取名词。因此,我们选择“名词”作为术语类型,并将频率阈值选择为 1。

从下面的屏幕截图中,您可以看到术语提取转换上有一个警告符号。这表明错误输出未连接。您可以通过配置术语提取转换的错误输出来移除警告符号。因此,双击“配置错误输出”按钮将打开一个新窗口来设置错误输出。
术语提取转换的默认配置是重定向错误行。您可以通过连接错误输出来消除此警告。或者通过将默认行为更改为“忽略失败”或“组件失败”。我们将其更改为“忽略失败”。

单击“确定”以完成 SSIS 术语提取转换的配置以提取名词。
步骤 7:现在,我们需要提供目标服务器、数据库和表详细信息。因此,双击 OLE DB 目标并提供所需信息。

在这里,我们选择数据库作为目标数据源(localhost 作为服务器实例)和 [使用术语提取提取名词] 表作为我们的目标表。
步骤 8:单击“映射”选项卡以检查源列是否与目标列精确映射。如果不是,请将它们分配给合适的目标列。

单击“确定”以完成设计我们的 SSIS 包中的使用术语提取转换提取名词。让我们运行包。

让我们打开 SQL Server Management Studio 并检查结果。

提示:如果我们从任何产品描述中提取术语,产品名称会重复出现多次。但我们不需要产品名称作为输出。在这种情况下,我们将这些产品名称表添加到排除列表中。
评论已关闭。