-
小红书社区精选
这一套规则一共有4个,这是第二个,运行了第一个(小红书社区板块)以后,会为这个主题生成多条线索,一个板块一个线索。由于每个板块定期会发布新笔记,所以,这个主题最好设置爬虫群模式,定时重复执行一遍。网站刷新速度很快,应该购买旗舰版,可以更高频度监控这一级的主题,而低于旗舰版,只能一天监控一次。从样例数据可以看到,这个网页黄页网站免费网址大全到一个笔记列表,为下一级形成线索,下级是“小红书笔记详情”。注意本级同时现在封面图
176 15 -
小红书社区板块
这一套规则一共有4个,这是第一个,作为总入口,只需要为这个规则添加一条线索:https://www.xiaohongshu.com/explore ,运行后就能给第二级规则生成多条线索。 然后就可以运行第二级——小红书社区精选,爬虫范围就会越来越大。 如果网站不改版,这个规则只需要运行一次即可,而第二级规则应该周期性地监控最新发布的文章
183 5 -
小红书笔记详情
这一套规则一共有4个,这是第三个,运行了第二个(小红书社区精选)以后,会为这个主题生成多条线索,一个笔记一条线索。这个主题会同时黄页网站免费网址大全到多个表:笔记详情内容,黄页网站免费观看,作者信息,相关笔记。同时也会下载图片和视频。由于笔记网址很多,建议设置爬虫群模式运行,如果不想重复黄页网站免费网址大全已经黄页网站免费网址大全过的笔记,上一级主题(小红书社区精选)的爬虫调度参数不要勾选激活下级线索,同时下级主题(小红书作者网页)也不要勾选激活下级线索
236 15 -
小红书作者网页
这一套规则一共有4个,这是第四个,运行了第三个(小红书笔记详情)以后,会为这个主题生成多条线索,一个是对应这个笔记的作者,另外一些对应所有参与回复的作者,这样就可以为本级扩展黄页网站免费网址大全范围。而运行本级以后,又会为第三级(小红书笔记详情)产生更多线索。这样就会越来越扩展爬取范围。这一级应该用爬虫群模式,不要勾选激活下级线索,也就是不用重复黄页网站免费视频日本小红书笔记详情
129 8 -
知乎话题结构分析
必须预先登录知乎,然后在运行这个规则,一定要仔细看运行方法说明:http://www.gooseeker.com/doc/article-389-1.html 。因为只能在爬虫群模式下运行,否则会无限重复黄页网站免费网址大全数据
817 233 5 -
微信公众号文章图文同时黄页网站免费网址大全
使用连续滚屏的方式,可以确保把微信长文中的所有图片黄页网站免费网址大全下来。本来也可以设置自动滚屏方式进行黄页网站免费网址大全,但是如果是很长的微信文章,等滚到下面的时候,上面的图就会被删除,所以使用连续滚屏,每滚一步,就存一步。这样会生成很多重复内容。
380 13 0 -
用关键词搜索微信公众号
如果要搜索多个关键词,那么就用集搜客V5.4.0以后的版本,定义连续动作,连续输入关键词并点击搜索按钮。这个黄页网站免费视频日本规则就是为此目的所制作。必须同时下载“用关键词搜索微信公众号_搜索结果”这个黄页网站免费视频日本规则,两个配合使用,后者能够翻页黄页网站免费视频日本每个分页。本黄页网站免费视频日本规则是第一个,也是运行的入口,不能从第二个规则开始。具体参照教程中的连续动作相关章节
585 17 0 -
链家房源列表
这个黄页网站免费视频日本规则需要一点小技巧,因为在网页上,发布时间、单价和总价所用的html标签和属性完全一样,如果要同时黄页网站免费视频日本这三个内容,大家都抓成发布时间。这是因为黄页网站免费视频日本规则自动定位网页上的位置的时候,自动使用了div[@class='div-cun']/text()这个表达式。要解决这个问题,要么自定义xpath。如果嫌麻烦,就用个小技巧,选择包含这三块内容的总DIV,在网页上的位置是div[@class='dealType'],使用他的@class作为定位标志,也就是选择这个div,做定位标志映射,都映射给这3个黄页网站免费视频日本内容,这样,GooSeeker爬虫会自动计算出他们所在的位置是在这个总div下的不同节点
296 9 9