最近搞了下电影站,需求用到火车头采集工具,相似爬虫,采集各大网站的视频信息并发布到本人的网站。略微研讨了下,别说这火车头功用还真的挺弱小,于是就想着可以拿来搞搞事情。
有时分需求下很多网页图片的时分,需求一张张点下载,特别费事,于是想用火车头做个示范,间接7*24小时挂机下载。
那麼我们就来做个正派(shenshi)的示范吧!
所以我们的剖析思绪就是:找出帖子区每个帖子的链接,然后经过链接翻开每个帖子并获取外面的图片地址并下载它们。要完成这个操作,那麼就要运用chrome阅读器的F12了。
2.采集帖子地址
-
翻开火车头采集器,新建一个分组cosplaymore,选中该分组并按“义务”在该分组下新建一个名叫cos的义务。
翻到第二页,这是你会发现网址由http://www.cosplaymore.com/list-30-1.html变成了http://www.cosplaymore.com/list-30-2.html,list-30-x x代表的是以后页数。
我们看到有起始网址,多级网址获取这个选项。
-
回到火车头,添加批量网址,如图,将 list-30-x 中的页数用(*)这个变量替代,由于一共有80页,所以项数改成80,上面会生成批量地址:
-
-
回到我们翻开的网页,察看上面翻页和网址:
然后再按“添加”参加全部地址。
image.png
这样就搞定第一级网址了。
-
接上去我们获取第二级地址,即一切帖子的地址。按下F12,选中帖子区,挪动鼠标至其中一个层(div)时,可以发现整个帖子区都被选中了。
-
回到火车头,添加多级网址获取–从选定区域获取网址–从 到。爲了采集更准确,我们设定网址必需包括“show”。(PS.不能从<div class="con">到</div> ,否则每页采集的只要一个帖子地址,至于爲什麼细心看下上图就晓得了) 我们测试一下网址采集,如图,可以看到曾经正常获取帖子地址了,80页共有2226个帖子地址。