在做实在学院的高级认证,里面的实践题要求用XPath批量抓取评论,具体要求如下:
使用实在RPA完成以下操作:
1.打开网址:https://www.douyin.com/video/6824420753455189259
2.抓取该短视频下方的全部评论内容,包含表情包(包括视频评论和评论留言,即一级评论和二级评论)

3、连接本地数据库,新建名为“sz_rpa”的表
4、将 视频评论(一级评论) 写入数据库表A列, 评论留言(二级评论)写入B列(格式参考如下)

开发要求
1、浏览器:推荐使用谷歌 Chrome 浏览器
2、实在设计器版本:设计器 v7.0.0以上版本
3、流程涉及到的所有元素,均使用xpath定位
注意事项
1、下载并安装实在设计器
2、安装浏览器插件并启动插件、开启开发者模式
3、提前登录抖音账号
4、含有表情的评论,需要把对应img标签里面的alt属性值取出来与评论原文拼接
问题一:
我根据实在学院里的教程在开发者模式下提取了相应一级评论的Xpath:
//*[@id="douyin-right-container"]/div[2]/div/div/div[1]/div[5]/div/div/div[3]/div/div/div[2]/div[1]/div[2]/span/span/span/span/span/span/span
但是实测发现使用该指令只能提取5、6条评论,而如果用元素拾取方式定位可以获取35条评论,但是如果把页面拉到底一共有255条评论,大部分评论是因为没有下拉加载而没有捕捉到,这应该如何解决呢?只能用鼠标滚动这样的笨办法吗?
问题二:
该题目要求含有表情的评论,需要把对应img标签里面的alt属性值取出来与评论原文拼接
但是img标签和普通文本的路径不同,一个是/span,一个是/img/@alt,如何将它们拼接在一起呢?
问题三:
每个二级评论的XPath都在一级评论的目录下,也就意味着不同一级评论下的二级评论,它们的XPath互不相同,如何设计XPath语言能一次性捕捉所有的二级评论呢?以及捕捉后如何在一级评论和二级评论之间建立字典联系呢?
5人点赞
后可进行评论
扫码关注
获取专业的解决方案
帮您实现业务爆发式的增长




