在 Talend 中读取 Excel 文件

在本节中,我们将通过一个示例展示如何在 Talend 中读取 Excel 文件。下面的 Talend 屏幕截图显示了您要读取的 Excel 文件中的数据。

Source File

Talend 读取 Excel 文件示例

要在 Talend 中读取 Excel 文件,您必须在“文件 Excel”文件夹下创建元数据。为此,请右键单击“文件 Excel”将打开上下文菜单。从中,请选择“创建文件 Excel”选项或使用“导出项”选项导出 Excel 元数据。

Read Excel File in Talend 1

单击“创建文件 Excel”选项将打开下面的“新建 Excel 文件”窗口。请填写文件名、创建目的以及文件中数据的简要说明。

在步骤 2 中,单击“浏览”按钮选择要加载到 Talend 中的 Excel 文件。请记住,如果您的数据或 Excel 文件是 2007 格式,请勾选“读取 excel2007 文件格式(xlsx)”。此处,我们正在选择 ExcelData.xls 文件。

选择所需的 Excel 文件后,您可以看到 Excel 文件中的工作表数据和可用工作表。在此,您可以根据需要选择工作表。我们的 Excel 文件只有一个工作表,因此我们选择了该工作表。

Read Excel File in Talend 5

在步骤 3 中,我们有很多选项。

  • 文件设置: 默认情况下,Talend 将选择编码;否则,从下拉列表中选择一个。如果您的 Excel 文件具有千位或小数分隔符,请选中复选框并指定相同的分隔符。
  • 要跳过的行: 如果您有任何要跳过或忽略的行,您可以选择位置(标题行或页脚行),然后指定要跳过的行数。例如,如果标题中有列名,则必须跳过第一行(标题 = 1)。如果文件信息(如商店详细信息)位于页脚,则选择页脚并跳过这些行。
  • 元数据列设置: 指定元数据信息(列名)。请指定它是第一列还是最后一列。
  • 行数限制: 如果您的文件有数百万条记录,而您想将其限制为 100,000 条,请使用此限制选项并指定数字。

请勾选“将标题行设置为列名”,然后单击“刷新预览”按钮。我们之所以这样做,是因为我们的第一列有列名。如果您注意到“要跳过的行”部分,它会自动勾选“标题”选项并为其分配 1。

Read Excel File in Talend 7

在步骤 4 中,为此 Excel 元数据分配唯一名称。接下来,检查数据类型、长度和数据模式(如果有),然后单击完成按钮。

Read Excel File in Talend 8

现在,您可以在“文件 Excel”文件夹下看到 Excel 元数据。

Read Excel File in Talend 9

有两种方法可以在 Talend 作业中使用此 Excel 数据。第一种方法是拖放 tFileInputExcel 并将属性类型选择为“存储库”。

如果属性类型是内置的,则必须手动选择 Excel 文件。此过程用于在不创建元数据的情况下在 Talend 中读取 Excel 文件。

理想的方法是使用我们之前创建的Talend元数据。因此,将“ExcelData”从“文件 Excel”文件夹拖放到作业设计中。

它将打开以下窗口。如果您将此元数据用作输入,则选择 tFileInputExcel,如果要用作输出(目标文件),则选择 tFileOutputExcel。

现在,您可以看到 tFileInputExcel 组件选项卡中的属性已填充了元数据信息。

Read Excel File in Talend 13

在此,我们想在 tLogRow 中显示 Excel 文件输出。因此,从 Talend tFileInputExcel 拖动“主行”,并将其放置在空白区域。它将自动打开一个文本框来键入字段名。此处,我们键入了 tLog,它显示了所有可能的匹配项。在此,我们为 tLogRow 选择表预览。

让我们运行 Talend 读取 Excel 文件作业。您可以看到结果。有关将文件加载到数据库的更多信息,请参阅 将数据从 Excel 加载到数据库 文章。

Run the Job to Read Excel File in Talend