白皮书下载
实在智能RPA产品白皮书(7.0.0).pdf
数据采集
发刊日期:
2023/12/16
编辑团队:
实在学院
基本说明
数据采集是流程自动化中频繁出现的场景,特别是针对网页的信息拾取,是常见的自动化环节,以便拾取数据后,进行自动化分析和操作。
实在RPA有智能的数据拾取,其功能开启后,首先会对页面元素进行解析识别,而后自动将同类组件归类到一列。并在对象页面下方,展示预拾取的数据效果。既可更改拾取的字段、也可设置拾取的范围。
数据采集作为一个智能的组件,内置在设计器中,其操作方式与组件相似。但其操作过程,配合了数据采集配置和数据处理等。因此,数据采集的操作包括有:
- 组件引用
- 属性配置
- 采集数据配置
- 采集结果处理
组件引用
数据采集作为常用的特殊的功能组件,在工具栏可快速引用。
进入流程块详情编辑页面,点击工具栏的“数据采集”按钮,即可将数据采集组件引用到组件编辑区。
可点击顶部的数据采集 icon 或 组件的【配置动作】或点击属性中的【采集数据】进入下面的数据采集过程,在采集的过程不能做其他操作。
属性配置
在点击组件的右上角的小笔头 icon 可配置数据采集的属性,或者在数据采集的过程中进行该组件的属性配置。
基础属性
- 配置数据采集项:配置采集规则,如采集的数据内容、格式以及需采集的范围。
- 采集页数:需采集的页数,如当前页、多页、所有页等,默认为当前页。
- 采集条数:需采集的数据条数。
- 输出到变量:将数据采集的结果保存至指定变量。
- 将结果保存至数据表:将数据采集的结果,在实在RPA设计器的底部的“数据表”栏目中进行展示,可通过此进行采集数据的预览。默认为勾选状态。
- 将结果保存至Excel中:设置将结果保存为Excel文件。因Excel是本地文件,需要有文件的名称和保存的地址。所以在勾选了“将结果保存至Excel中”选项后,会展开文件名和文件路径的字段需要填写。
- 将结果保存至松塔:将数据采集的结果,同步至松塔的数据表中,通过“数据服务”进行后续调用。注:需开通松塔产品的权限,方可保存至松塔.
采集数据配置
- 点击配置采集,会自动激活浏览器需要拾取的对象页面。系统自动在页面右侧或下方浮出拾取配置窗口。可对拾取的内容进行对应的数据提取和增删改等操作,也可对采集数据项进行清除和纠错。
-
对采集的范围进行设定,可采集所有页、当前页或多页、按条。支持滚动翻页和点击按页码翻页的不同场景。为保障采集数据的速度,建议按需要的范围设定页数,尽量不要采集所有页。
- 采集数据的选择。如果是列表列数据,用户只需要选择任一条数据,软件自动将同类数据采集到预览框。如果发现采集到的数据与期望不符合,可对所选择的对象进行编辑修改,最终实现目标数据的精准采集。
-
如果所采集的数据处于页面的表格(Table)结构中,只需要选中表格中任意元素对象,系统会自动识别出整个表格而推荐是否需要采集整个表格数据,如果选中是,则一键实现整个表格数据的自动采集。
- 可对采集数据进行简单的预处理,让采集的原始数据直接转换成后续所需的高质量数据。点击预览框表头的下拉箭头,可浮出预处理的方式。包括三类操作:对采集对象的定位微调,如:编辑表头、编辑列数据、拾取同类数据;采集提取内容类型调整,如:提取文本内容、提取链接地址、提取图片地址、格式化内容(通过正则条件进行数据的过滤或分割等);当前列位置调整,如:前移一列、后移一列,删除列。
- 更多操作指导,请参见组件“帮助说明”。
采集结果处理
采集数据的结果,有多种方式使用和处理,适用于多种场景。如:将采集结果保存到变量,以便后续流程的引用。同时支持将其结果数据保存至数据表、Excel,或直接同步数据至松塔。IPA 模式采集结果存入到数据表后可在普通模式的数据表查看。