SSIS 中的术语提取转换首先从源数据中的文本提取术语,然后将提取的术语写入转换输出列。
例如,人们正在评论您的产品,您想联系他们以获取进一步的指导。在这些情况下,您可以使用 SSIS 术语提取转换从评论中提取用户的电子邮件地址和姓名。
注意:SSIS 术语提取转换使用其自己的英语词典和语言设置从源数据中提取术语。
在 SSIS 中,我们只能对 DT_WSTR 和 DT_NTEXT 数据类型的列执行术语提取转换。如果您的输入列不同于这两种,请使用 数据转换 将其他数据类型转换为 DT_WSTR 和 DT_NTEXT 数据类型。
提示:请参阅 SSIS 中的术语查找转换 文章,以了解术语查找技术。
配置 SSIS 中术语提取的步骤
双击此转换将打开一个术语提取转换编辑器窗口进行配置。它包含三个选项卡:术语提取、排除和高级选项卡。
术语提取选项卡
在 SSIS 术语提取选项卡中,我们必须从“可用输入列”选项中选择源数据的列名。

术语提取转换仅生成两个输出列。列的默认名称是“术语”和“分数”,但您可以根据您的需求进行更改。
- 术语:此列包含从文本中提取的术语。例如,如果我们提取名词,那么所有名词都将存储在此列中。
- 分数:此列包含术语在输入列中重复的次数。例如,印度是第一个从文本中提取的术语。术语提取转换将检查所有行并计算术语“印度”在输入列中的所有可用行中重复的次数。
SSIS 术语提取转换中的排除选项卡
此选项卡用于从提取中排除不需要的术语。例如,当我们从包含公司所有产品评论的源数据中提取术语时,我们不需要从输入文本中提取产品名称。要将排除术语添加到术语提取转换,请选中“使用排除术语”选项。
提示:请参阅 SSIS 术语提取转换中的排除选项卡 文章,以了解排除选项卡的配置。更多转换 >> 点击此处。

排除选项卡中可用于配置排除列表的选项如下:
- OLE DB 连接管理器:SSIS 术语提取转换仅支持 OLE DB 连接管理器 来连接持有排除列表的服务器。因此,如果已创建,请从下拉列表中选择一个现有的。或者,如果要创建新连接,请单击“新建”按钮。
- 新建:使用 OLE DB 连接管理器对话框创建到数据库的新连接。
- 表或视图:从下拉列表中选择包含排除术语的表或视图。
- 列:从包含排除术语的表或视图中选择列名。
- 配置错误输出:单击此按钮可配置错误。
高级选项卡
使用术语提取转换编辑器中的高级选项卡来配置提取属性。

从上图可以看出,高级选项卡中提供了以下选项列表:
- 名词:如果选择此选项,SSIS 术语提取转换将仅从输入文本中提取名词。有关详细信息,请参阅 SSIS 术语提取转换。
- 名词短语:如果选择此选项,转换将仅从输入文本中提取名词短语。有关详细信息,请参阅 SSIS 中使用术语提取转换提取名词短语。
- 名词和名词短语:术语提取转换将从输入文本中提取名词和名词短语。有关详细信息,请参阅 SSIS 中使用术语提取转换提取名词和名词短语。
- 频率:如果选择此选项,“分数”列将存储术语在输入列中重复的频率信息。
- TFIDF:分数列将存储术语的 TFIDF 值信息。
- 频率阈值:如果我们指定 3,转换将提取至少重复三次的术语,并忽略重复次数少于三次的术语。
- 术语的最大长度:请输入单词或短语的最大长度。如果我们选择仅名词短语选项,则此选项可用。
- 使用区分大小写的术语提取:如果要在区分大小写的情况下进行提取,请选中此选项。