1. 首页
  2. 文档
  3. 数据采集(网页)

白皮书下载

实在智能Agent产品白皮书(7.2.0).pdf

数据采集(网页)

发刊日期:
2023/12/08

编辑团队:
实在学院

一、视频示例

二、功能说明

采集网页中的表格数据、商品列表页或详情页中的内容(支持选择多页),并将采集结果保存到指定变量或数据表、Excel中。

注意:首次启用该组件功能时,系统会自动添加“打开网页”组件进行配合使用;后续需手动添加。
 

三、属性说明

  • 配置数据采集项:按照默认采集规则,配置所需采集的数据、数据格式以及所需采集的范围。如需修改,可重新配置采集规则(重新配置时,需在同一个页面采集,或清空已有配置再采集数据)。
  • 查看配置代码:启用该选项,即可查看数据采集的代码详细配置内容。默认关闭。
  • 网页对象:选择待采集目标数据的网页对象。
  • 采集页数:自主选择需要采集当前页、所有页或指定页的数据。
  • 输出到变量:将采集的数据结果和页码,分别保存到指定变量。
  • 将结果保存至数据表:当勾选此选项时,可将数据采集的结果,在控制台的“数据表”中展示。否则,不展示。
  • 将结果保存至Excel中:当勾选此选项时,可将数据采集的结果,保存至指定路径、指定名称的Excel文件中。否则,不保存。

 

四、使用示例

1、使用说明

 将需要进行数据采集的页面置于屏幕顶部,添加”数据采集“组件,在弹窗中点击“采集浏览器网页数据”。

 

 用户可设置数据的采集范围(需要采集多少页内的数据)。可选所有页、当前页和指定页。采集规则配置完成后,运行组件,即可按照配置的规则进行对应数据的采集。

 

 系统会在初始页面,自动解析页面中包含的字段。用户也可手动点击选择所需采集的元素,并选择需要提取的数据对象(如文本、链接、图片等),添加至采集的数据表中。

注意

1、当采集的数据对象为单个元素时,打印输出结果的表头内容为空,用户可在数据预览表中单击“编辑表头”,自定义添加并编辑表头数据。

2、若采集的数据对象是网页表格数据,则不支持编辑表头操作。

3、默认不支持跨页面采集数据。如需采集,需点击“清空”后再重新采集。

 

 在数据预览表中,支持对采集到的数据进行编辑,包括:编辑列、拾取同类数据、前/后移动列、删除列等。

    • 若数据未采集完全,可单击“拾取同类数据”进行数据的补充拾取。
    • 若数据采集发生错误,可单击右上角的“帮助”图标,按照提示信息进行纠正。

2、输出结果

采集的数据结果,可直接保存为Excel文件,也可赋值到变量,以便后续使用。

 

五、注意事项

1、拾取网页元素时,部分元素可能会拾取不到。原因是目前数据采集的支持程度,仅基于“循环相似元素”组件的支持程度。具体表现如:若用户选择了两个视觉上相同的元素,但是元素层结构不同(例如多一层div),则程序不认为是同类元素,即不会采集此元素。

2、当前仅支持操作系统为win7家庭版、win10家庭版,与普通元素拾取支持程度相同。

3、支持常见的浏览器类型,包括但不限于:IE、Chrome、Firefox、Edge和360安全浏览器等。

4、若直接在组件的【高级属性】中勾选“打印组件的输出变量值”选项时,打印的输出结果为:数据结果+页码。如下图所示:

企业培训
技术支持
加入社群
公众号
实在智能Agent学习群
扫码关注微信公众号