复杂运用火车头采集器批量采集整站网页图片（处理闪退）- 21世界网

最近搞了下电影站，需求用到火车头采集工具，相似爬虫，采集各大网站的视频信息并发布到本人的网站。略微研讨了下，别说这火车头功用还真的挺弱小，于是就想着可以拿来搞搞事情。

有时分需求下很多网页图片的时分，需求一张张点下载，特别费事，于是想用火车头做个示范，间接7*24小时挂机下载。

那麼我们就来做个正派（shenshi）的示范吧！

爲了满足各位大佬的口味，特别找了个正派（hentai）的网站：http://www.cosplaymore.com/ 我们翻开写真。。哦不，cos这一栏，这里示范把整个cos栏里一切的图片都下载到电脑（包括帖子里的图片）。

末尾前请先下载火车头采集工具：链接：https://pan.baidu.com/s/1hr5LMRE 密码：olso ，chrome阅读器。

剖析网页

网页里的东西之所以能被批量下载，是由于有特定的规律，我们要做的就是找到这个规律，并编写规律规则，交给火车头去执行。

翻开网页后点“cos”页面，可以看到分如下区块：

我们要采集的是帖子区域里，帖子里的图片：

所以我们的剖析思绪就是：找出帖子区每个帖子的链接，然后经过链接翻开每个帖子并获取外面的图片地址并下载它们。要完成这个操作，那麼就要运用chrome阅读器的F12了。

2.采集帖子地址

翻到第二页，这是你会发现网址由http://www.cosplaymore.com/list-30-1.html变成了http://www.cosplaymore.com/list-30-2.html，list-30-x x代表的是以后页数。

我们看到有起始网址，多级网址获取这个选项。

然后再按“添加”参加全部地址。

image.png

这样就搞定第一级网址了。

接上去我们获取第二级地址，即一切帖子的地址。按下F12，选中帖子区，挪动鼠标至其中一个层（div）时，可以发现整个帖子区都被选中了。如图我们可以发现整个帖子区是从到的，外面的每个标签就是一个帖子，而标签里href前面就是帖子的地址。

回到火车头，添加多级网址获取–从选定区域获取网址–从到。爲了采集更准确，我们设定网址必需包括“show”。（PS.不能从<div class="con">到</div> ，否则每页采集的只要一个帖子地址，至于爲什麼细心看下上图就晓得了）我们测试一下网址采集，如图，可以看到曾经正常获取帖子地址了，80页共有2226个帖子地址。 (小编：ldsuper)

搜索

热门标签:

复杂运用火车头采集器批量采集整站网页图片（处理闪退）