白皮书下载
数据采集(网页)
一、视频示例
二、功能说明
采集网页中的表格数据、商品列表页或详情页中的内容(支持选择多页),并将采集结果保存到指定变量或数据表、Excel中。
三、属性说明

- 配置数据采集项:按照默认采集规则,配置所需采集的数据、数据格式以及所需采集的范围。如需修改,可重新配置采集规则(重新配置时,需在同一个页面采集,或清空已有配置再采集数据)。
- 查看配置代码:启用该选项,即可查看数据采集的代码详细配置内容。默认关闭。
- 网页对象:选择待采集目标数据的网页对象。
- 采集页数:自主选择需要采集当前页、所有页或指定页的数据。
- 输出到变量:将采集的数据结果和页码,分别保存到指定变量。
- 将结果保存至数据表:当勾选此选项时,可将数据采集的结果,在控制台的“数据表”中展示。否则,不展示。
- 将结果保存至Excel中:当勾选此选项时,可将数据采集的结果,保存至指定路径、指定名称的Excel文件中。否则,不保存。
四、使用示例
1、使用说明
① 将需要进行数据采集的页面置于屏幕顶部,添加”数据采集“组件,在弹窗中点击“采集浏览器网页数据”。

② 用户可设置数据的采集范围(需要采集多少页内的数据)。可选所有页、当前页和指定页。采集规则配置完成后,运行组件,即可按照配置的规则进行对应数据的采集。

③ 系统会在初始页面,自动解析页面中包含的字段。用户也可手动点击选择所需采集的元素,并选择需要提取的数据对象(如文本、链接、图片等),添加至采集的数据表中。
注意:
1、当采集的数据对象为单个元素时,打印输出结果的表头内容为空,用户可在数据预览表中单击“编辑表头”,自定义添加并编辑表头数据。
2、若采集的数据对象是网页表格数据,则不支持编辑表头操作。
3、默认不支持跨页面采集数据。如需采集,需点击“清空”后再重新采集。

④ 在数据预览表中,支持对采集到的数据进行编辑,包括:编辑列、拾取同类数据、前/后移动列、删除列等。
- 若数据未采集完全,可单击“拾取同类数据”进行数据的补充拾取。
- 若数据采集发生错误,可单击右上角的“帮助”图标,按照提示信息进行纠正。
2、输出结果
采集的数据结果,可直接保存为Excel文件,也可赋值到变量,以便后续使用。

五、注意事项
1、拾取网页元素时,部分元素可能会拾取不到。原因是目前数据采集的支持程度,仅基于“循环相似元素”组件的支持程度。具体表现如:若用户选择了两个视觉上相同的元素,但是元素层结构不同(例如多一层div),则程序不认为是同类元素,即不会采集此元素。
2、当前仅支持操作系统为win7家庭版、win10家庭版,与普通元素拾取支持程度相同。
3、支持常见的浏览器类型,包括但不限于:IE、Chrome、Firefox、Edge和360安全浏览器等。
4、若直接在组件的【高级属性】中勾选“打印组件的输出变量值”选项时,打印的输出结果为:数据结果+页码。如下图所示:





