python岂止于强大, 22行代码实现资源大咖, 抓取整站最新

作者: Python新世界 | 来源:发表于2018-09-05 20:23 被阅读7次

python岂止于强大, 22行代码实现资源大咖, 抓取整站最新
90秒抓取安卓APP数据教程
【Python】每隔固定时间抓取百度 python代码
Python学习究竟有多强大，Python代码能实现哪些功能
Node100行实现抓取新浪微博并且发送邮件提醒
Python网络爬虫抓取动态网页并将数据存入数据库MYSQL
Python网络爬虫抓取动态网页并将数据存入数据库MYSQL
wget 抓取整站
奇葩思路获取各大平台Vip资源，思维决定python爬虫的应用高
奇葩思路获取各大平台Vip资源，思维决定python爬虫的应用高

image

image.gif

利用Python去爬了某个资源网，主要是爬最新的资源。经过测试，只要是用相同模板的网站都可以爬。

其实很多网站都差不多，随便写个正则想爬什么都可以。我已经把脚本挂到服务器了，调用接口就可以得到我们爬取的内容。

image

image.gif

我把自己的接口发出来，大家如果有需要可以用：（私信小编007获取大量python学习资料）

image

image.gif

http://hh52.cn:6600/zyw/ziyuan/

（希望不是很多人用，不然我9块5的服务器是挺不住的）

代码可以看看，都写有注释，有很多可以拓展的，有时间我也还拓展。

import requests,time,re #一共三个模块，没装的先装 #学习群号码前面548中间377后面875def zyw(): while(True): url='https://www.525zyw.com/' #爬的网站URL html=requests.get(url).text #获取网站的首页源代码 re_url=re.findall('<li class="column half"><div class="lbbt_c00">(.?)</div>.?</li>',html,re.S) #比配最新资源 list_r='' for i in re_url: tiem=re.findall('.?>(.?)</span>.?',i,re.S)[0] #这里的四个正则主要是进一步的提取我们需要的东西 src=re.findall('.?<img src="(.?)"/>.?',i,re.S)[0] # href=re.findall('.?<a href="(.?)".?',i,re.S)[0] title=re.findall('.?title="(.?)".?',i,re.S)[0] res='<span style="font-weight: bold;">%s</span><img src="%s%s"/> <a href="%s%s" title="%s" style="color:#000000;" target="_blank">%s</a>
'%(tiem,url,src,url,href,title,title) list_r=list_r+res #经过上面的拼接，这里是所有的内容加入一个字符串 f=open('./templates/zyw.html','w') #打开文件 f.write(list_r) #把字符串写入文件 f.close() time.sleep(3600) #这里是每隔1个小时去爬一次，测试时先注释掉 if name == 'main': zyw() #调用

效果展示：