爬个贴吧的帖子

作者: _weber_ | 来源:发表于2016-12-21 15:09 被阅读51次

致敬:

http://blog.csdn.net/omuyejingfeng1/article/details/24182313

功能:

爬取百度贴吧指定帖子的指定页面的内容,并以HTML格式保存。为了便于理解,注释比代码还多,高手见谅(o)/~

代码:

# -*- coding:utf-8 -*-  
'''
声明编码格式,这行应该是py文件的标配
因为python2默认的编码是unicode,无法支持中文
该行代码的作用就是将编码修改为utf-8,以便支持中文
python3默认编码已经是utf-8,该声明可以取消
'''
import urllib.request as request
import urllib.parse as parse
'''
引入urllib库的request和parse子模块,使用request和parse作为别名便于使用
request模块可以方便地抓取URL内容
parse模块用于解析URL
刚开始不理解也不要紧,先用起来,用几遍自然就明白作用了
'''
import string
# string模块用来进行字符串处理
def baidu_tieba(url, begin_page, end_page):
  for i in range(begin_page, end_page+1):
    sName = 'c:/wwb/python/temp/'+str(i).zfill(5)+'.html'
    print('正在下载第'+str(i)+'个页面,并保存为'+sName)
    m = request.urlopen(url+str(i)).read()
    with open(sName, 'wb') as file:
      file.write(m)
  print('WELL DONE!')
'''
创建一个函数,包含URL,开始页,结束页三个参数
使用for循环读取begin_page到end_page页的内容
保存到本地目录c:/wwb/python/temp
'''
url = 'http://tieba.baidu.com/p/4906913050?pn='
begin_page = 1
end_page = 3
baidu_tieba(url, begin_page, end_page)
'''
输入三个参数,调用函数
你会在c:/wwb/python/temp/目录下得到三个html文件
你觉得太简单,那就对了,现在你知道爬虫没什么大不了的
'''

相关文章

  • 爬个贴吧的帖子

    致敬: http://blog.csdn.net/omuyejingfeng1/article/details/2...

  • 可视化pyecharts库初体验

    爬取学校贴吧150个帖子,统计词频,简单数据分析 一、数据采集目标站点:百度贴吧 二、分词统计词频(jieba) ...

  • 爬取百度贴吧帖子

    依然是参考教程 Python爬虫实战一之爬取百度贴吧帖子。作者崔庆才写了很多关于Python爬虫的文章,大家有兴趣...

  • 爬虫系列(十):使用xpath做爬虫

    案例:使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个...

  • 如何写好贴吧帖子标题

    引流最重要的还是依靠内容,而在贴吧中,我们把内容称为「帖子」。 在产出帖子内容中,最重要的就是:帖子标题。 贴吧引...

  • python爬虫-抓取百度贴吧帖子图片

    本爬虫可以爬取百度贴吧帖子中的图片,代码有待完善,欢迎大家指教!出处:https://github.com/jin...

  • 贴吧帖子加了“精”

    喜欢的事,就去干,干了就坚持,坚持了,就做的漂亮。 喜欢上朱一龙,在他的贴吧里逛了逛,一时兴起,开了个帖子——三行...

  • 用Python爬取百度贴吧帖子

    一、介绍 前前后后拖了很久的一个爬虫纯原创我心中的NBA2014-2015赛季现役50大,一般的抓取信息还是蛮简单...

  • 默默无闻的角落,做着微不足道的小事

    偶尔翻阅贴吧,又看到某前任在贴吧发的帖子。 一个记录她生活日常的帖子,基本上一天更新一两帖,有些人生感悟,生活趣事...

  • 剑三818

    最近学习绘画,闲得无聊想寻找剑三绘画同人图,于是去翻了翻贴吧,贴吧里除了各种外观帖子,而且还有许多的818帖子。...

网友评论

    本文标题:爬个贴吧的帖子

    本文链接:https://www.haomeiwen.com/subject/fveqvttx.html