火车头采集器如何过滤内容中的垃圾信息

时间:2024-10-13 06:14:49

1、点击进入采集内容规则区域的内容标签页面,在第二部分数据处理的地方点击添加,选择HTML标签过滤

火车头采集器如何过滤内容中的垃圾信息

2、标签过滤一般需要过滤掉链接,脚本,以及首尾空白,勾选之后需要点击确定按钮才生效

火车头采集器如何过滤内容中的垃圾信息

3、标签过滤之后需要过滤一些其他文字垃圾,同样点击添加按钮,选择内容替换

火车头采集器如何过滤内容中的垃圾信息

4、在右侧框内输入不需要的信息,右侧框若不输入文字,则默认为将左侧框内的内容全部删除,舁捡侣惭若右侧框有文字则默认替换为该部分内容,类似word中的替换功能

火车头采集器如何过滤内容中的垃圾信息

5、最后一部分的过滤就是内容过滤了,点击内容过滤显示右侧条件,可以根据自己的需要来勾选或添加相关条件。这样就可以过滤掉自己不需要的信息

火车头采集器如何过滤内容中的垃圾信息
© 手抄报圈