美文网首页
Python_kad爬虫学习笔记(一)

Python_kad爬虫学习笔记(一)

作者: 瓦力求索 | 来源:发表于2015-03-21 00:21 被阅读135次

为了对爬虫有更深的理解,我决定在网上随意找个小网站进行抓取,实践出真知。也是像豆瓣爬虫学习一样,分阶段进行,分阶段更新。也算是备份,方便日后查看。第一阶段成功如下:

# -*- coding: cp936 -*-

import urllib2

import re

f=urllib2.urlopen(‘http://www.360kad.com/dymhh/allclass.shtml’).read()

n1=f.find(‘http://www.360kad.com/Category_45/Index.aspx’)

n2=f.find(‘Category_4057/Index.aspx” target=”_blank”>’)

f1=f[n1:(n2)+54]#在豆瓣爬虫学习笔记(五)提到学到的技巧,总看别人写的优秀源代码确实很有帮助。

f2=re.findall(‘http://www.360kad.com/Category_\d{1,}/Index.aspx’,f1)

r=0

for n in f2:

tagpag=urllib2.urlopen(n).read()

r=r+1

e=file(‘tagpag_%d.txt’%r,’w')#批量新建文件,抓到的原始tag代码批量保存到文件中,方便日后编辑

e.write(tagpag)

e.close()

运行结果如下:

学习过程中碰到的问题:我本想讲tag的url和name以dic形式保存,结果没有弄明白,对dic还不熟,就先简单的只保存url吧

相关文章

网友评论

      本文标题:Python_kad爬虫学习笔记(一)

      本文链接:https://www.haomeiwen.com/subject/aswwxttx.html