Python豆瓣爬虫学习笔记（四）

作者: 瓦力求索 | 来源:发表于2015-03-21 00:18 被阅读23次

大师兄的Python学习笔记(二十二）: 爬虫（三）
大师兄的Python学习笔记(二十四）: 爬虫（五）
Python豆瓣爬虫学习笔记（四）
大师兄的Python学习笔记(三十）: 爬虫（十一）
Python学习
大师兄的Python学习笔记(二十一）: 爬虫（二）
大师兄的Python学习笔记(二十九）: 爬虫（十）
大师兄的Python学习笔记(二十六）: 爬虫（七）
大师兄的Python学习笔记(二十五）: 爬虫（六）
大师兄的Python学习笔记(十九）: Python与(XML和

学习阶段四（update:2014-3-26）:实现功能：整理单个tag下的所有页面链接代码如下：

# -*- coding: cp936 -*-

import urllib2

import re

raw_text=urllib2.urlopen('http://movie.douban.com/tag/cult').read()#指定打开cult标签页

text0=re.findall('page="\d{1,}"',raw_text)#初步提取总页面数，人工查看代码后发现page="\d{1,}表示总页面

text1=''.join(text0)

text2=text1.replace('page=','').replace('"','')#得出总页面的具体值

text5=[]

for text3 in range(int(text2)):#range生成页面数列表，循环读取

text4='http://movie.douban.com/tag/cult?start=%d&type=T'%(text3*20)+'\n'#人工发现url规律为页面数*20, 最后\n为排版需要

text5.append(text4)

text6=''.join(text5)

e=file('douban_movie8.txt','w')

e.write(text6)

e.close()

运行结果：

学习总结：range(int(text2))和%(text3*20)可减少代码行数

大师兄的Python学习笔记(二十二）: 爬虫（三）
师兄的Python学习笔记(二十一）: 爬虫（二）大师兄的Python学习笔记(二十三）: 爬虫（四）四、保存数...
大师兄的Python学习笔记(二十四）: 爬虫（五）
大师兄的Python学习笔记(二十三）: 爬虫（四）大师兄的Python学习笔记(二十五）: 爬虫（六）六、模拟...
Python豆瓣爬虫学习笔记（四）
学习阶段四（update:2014-3-26）:实现功能：整理单个tag下的所有页面链接代码如下： # -*- c...
大师兄的Python学习笔记(三十）: 爬虫（十一）
大师兄的Python学习笔记(二十九）: 爬虫（十）大师兄的Python学习笔记(三十一）: 爬虫（十二）十一、...
Python学习
python爬虫(四) python爬虫爬取豆瓣电影数据今天我们爬取一下豆瓣电影TOP250页面电影的数据，依然...
大师兄的Python学习笔记(二十一）: 爬虫（二）
大师兄的Python学习笔记(二十）: 爬虫（一）大师兄的Python学习笔记(二十二）: 爬虫（三）三、提取信...
大师兄的Python学习笔记(二十九）: 爬虫（十）
大师兄的Python学习笔记(二十八）: 爬虫（九）大师兄的Python学习笔记(三十）: 爬虫（十一）十一、S...
大师兄的Python学习笔记(二十六）: 爬虫（七）
大师兄的Python学习笔记(二十五）: 爬虫（六）大师兄的Python学习笔记(二十七）: 爬虫（八）八、使用...
大师兄的Python学习笔记(二十五）: 爬虫（六）
大师兄的Python学习笔记(二十四）: 爬虫（五）大师兄的Python学习笔记(二十六）: 爬虫（七）七、识别...
大师兄的Python学习笔记(十九）: Python与(XML和
大师兄的Python学习笔记(十八）: Python与HTTP大师兄的Python学习笔记(二十）: 爬虫（一） ...