21世界网_21世界导航网,一切网络搜索资源尽收眼底!

21网址导航_知识分享_【专注搜罗世界网址】- 21世界网

当前位置: 主页 > 知识分享 > it知识分享 >

复杂运用火车头采集器批量采集整站网页图片(处理闪退)

时间:2019-03-06 14:49来源:未知 作者:ldsuper 点击:
最近搞了下电影站,需求用到火车头采集工具,相似爬虫,采集各大网站的视频信息并发布到本人的网站。略微研讨了下,别说这火车头功用还真的挺弱小,于是就想着可以拿来搞搞事情。 有时分需求下很多网页图片的时分,需求一张张点下载,特别费事,于是想用火车

最近搞了下电影站,需求用到火车头采集工具,相似爬虫,采集各大网站的视频信息并发布到本人的网站。略微研讨了下,别说这火车头功用还真的挺弱小,于是就想着可以拿来搞搞事情。

有时分需求下很多网页图片的时分,需求一张张点下载,特别费事,于是想用火车头做个示范,间接7*24小时挂机下载。

那麼我们就来做个正派(shenshi)的示范吧!

爲了满足各位大佬的口味,特别找了个正派(hentai)的网站:http://www.cosplaymore.com/ 我们翻开写真。。哦不,cos这一栏,这里示范把整个cos栏里一切的图片都下载到电脑(包括帖子里的图片)。
末尾前请先下载火车头采集工具:链接:https://pan.baidu.com/s/1hr5LMRE 密码:olso  ,chrome阅读器。
剖析网页
网页里的东西之所以能被批量下载,是由于有特定的规律,我们要做的就是找到这个规律,并编写规律规则,交给火车头去执行。
翻开网页后点“cos”页面,可以看到分如下区块:
我们要采集的是帖子区域里,帖子里的图片:

所以我们的剖析思绪就是:找出帖子区每个帖子的链接,然后经过链接翻开每个帖子并获取外面的图片地址并下载它们。要完成这个操作,那麼就要运用chrome阅读器的F12了。

 

2.采集帖子地址

    翻开火车头采集器,新建一个分组cosplaymore,选中该分组并按“义务”在该分组下新建一个名叫cos的义务。

翻到第二页,这是你会发现网址由http://www.cosplaymore.com/list-30-1.html变成了http://www.cosplaymore.com/list-30-2.html,list-30-x x代表的是以后页数。

 

我们看到有起始网址,多级网址获取这个选项。

 

    回到火车头,添加批量网址,如图,将 list-30-x 中的页数用(*)这个变量替代,由于一共有80页,所以项数改成80,上面会生成批量地址:
    • 回到我们翻开的网页,察看上面翻页和网址:

然后再按“添加”参加全部地址。

image.png

这样就搞定第一级网址了。

 

    接上去我们获取第二级地址,即一切帖子的地址。按下F12,选中帖子区,挪动鼠标至其中一个层(div)时,可以发现整个帖子区都被选中了。
如图我们可以发现整个帖子区是从 到 的,外面的每个 标签就是一个帖子,而 标签里href前面就是帖子的地址。
    回到火车头,添加多级网址获取–从选定区域获取网址–从 到。爲了采集更准确,我们设定网址必需包括“show”。(PS.不能从<div class="con">到</div> ,否则每页采集的只要一个帖子地址,至于爲什麼细心看下上图就晓得了) 我们测试一下网址采集,如图,可以看到曾经正常获取帖子地址了,80页共有2226个帖子地址。
(小编:ldsuper)
顶一下
(1)
100%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容