美文网首页
Python豆瓣爬虫学习笔记(二)

Python豆瓣爬虫学习笔记(二)

作者: 瓦力求索 | 来源:发表于2015-03-21 00:17 被阅读43次

    学习阶段二(update:2014-3-25):实现功能:代码中加入for循环,批量抓取全部tag,存放到本地txt代码如下:

    # -*- coding: cp936 -*-

    import urllib2

    import re

    raw_text=urllib2.urlopen('http://movie.douban.com/tag/?view=type').read()

    text0=re.findall('"./.*?"',raw_text)#初步抓取tag,findall输出为list

    text1=''.join(text0)#list转str,方便replace

    text2=text1.replace('"./','').replace('"','\n')#tag提取完成

    text3=[]#新建空list,方便后面append

    for text4 in text2.split('\n'):#for in对象需为list,用split将str转为list

    tagurl='http://movie.douban.com/tag/%s'%text4#讲URL前缀同tag拼接,方便后期多tag抓取

    text3.append(tagurl)#循环赋值到空列表

    text5='\n'.join(text3)#排版格式,\n换行符

    e=file('douban_movie6.txt','w')

    e.write(text5)

    e.close()

    运行结果:

    学习总结:1、多用print,不仅可以帮助自己更好的排查错误,也可以更好的理解程序的运行逻辑。2、多用print type()。现阶段对每种函数生成结果的存储类型还不熟悉,根据想当然的思路写通常会报错,都是数据类型不支持。3、初步明白for in的用法,对% 用法进一步了解4、list.append() 进一步了解。接触一种函数不仅要明白怎么用,还得留意函数输出后的数据类型

    相关文章

      网友评论

          本文标题:Python豆瓣爬虫学习笔记(二)

          本文链接:https://www.haomeiwen.com/subject/zjwwxttx.html