美文网首页
Python豆瓣爬虫学习笔记(四)

Python豆瓣爬虫学习笔记(四)

作者: 瓦力求索 | 来源:发表于2015-03-21 00:18 被阅读23次

学习阶段四(update:2014-3-26):实现功能:整理单个tag下的所有页面链接代码如下:

# -*- coding: cp936 -*-

import urllib2

import re

raw_text=urllib2.urlopen('http://movie.douban.com/tag/cult').read()#指定打开cult标签页

text0=re.findall('page="\d{1,}"',raw_text)#初步提取总页面数,人工查看代码后发现page="\d{1,}表示总页面

text1=''.join(text0)

text2=text1.replace('page=','').replace('"','')#得出总页面的具体值

text5=[]

for text3 in range(int(text2)):#range生成页面数列表,循环读取

text4='http://movie.douban.com/tag/cult?start=%d&type=T'%(text3*20)+'\n'#人工发现url规律为页面数*20, 最后\n为排版需要

text5.append(text4)

text6=''.join(text5)

e=file('douban_movie8.txt','w')

e.write(text6)

e.close()

运行结果:

学习总结:range(int(text2))和%(text3*20)可减少代码行数

相关文章

网友评论

      本文标题:Python豆瓣爬虫学习笔记(四)

      本文链接:https://www.haomeiwen.com/subject/sswwxttx.html