Python豆瓣爬虫学习笔记（二）

作者: 瓦力求索 | 来源:发表于2015-03-21 00:17 被阅读43次

大师兄的Python学习笔记(二十二）: 爬虫（三）
Python豆瓣爬虫学习笔记（二）
Python爬虫学习（十六）初窥Scrapy
大师兄的Python学习笔记(三十）: 爬虫（十一）
大师兄的Python学习笔记(二十一）: 爬虫（二）
大师兄的Python学习笔记(二十九）: 爬虫（十）
大师兄的Python学习笔记(二十四）: 爬虫（五）
大师兄的Python学习笔记(二十六）: 爬虫（七）
大师兄的Python学习笔记(二十五）: 爬虫（六）
大师兄的Python学习笔记(十九）: Python与(XML和

学习阶段二(update:2014-3-25)：实现功能：代码中加入for循环，批量抓取全部tag，存放到本地txt代码如下：

# -*- coding: cp936 -*-

import urllib2

import re

raw_text=urllib2.urlopen('http://movie.douban.com/tag/?view=type').read()

text0=re.findall('"./.*?"',raw_text)#初步抓取tag，findall输出为list

text1=''.join(text0)#list转str，方便replace

text2=text1.replace('"./','').replace('"','\n')#tag提取完成

text3=[]#新建空list，方便后面append

for text4 in text2.split('\n'):#for in对象需为list，用split将str转为list

tagurl='http://movie.douban.com/tag/%s'%text4#讲URL前缀同tag拼接，方便后期多tag抓取

text3.append(tagurl)#循环赋值到空列表

text5='\n'.join(text3)#排版格式，\n换行符

e=file('douban_movie6.txt','w')

e.write(text5)

e.close()

运行结果：

学习总结：1、多用print，不仅可以帮助自己更好的排查错误，也可以更好的理解程序的运行逻辑。2、多用print type()。现阶段对每种函数生成结果的存储类型还不熟悉，根据想当然的思路写通常会报错，都是数据类型不支持。3、初步明白for in的用法，对% 用法进一步了解4、list.append() 进一步了解。接触一种函数不仅要明白怎么用，还得留意函数输出后的数据类型