美文网首页python学习圈大数据 爬虫Python AI Sql
python爬虫学习教程,用python爬取新浪微博数据

python爬虫学习教程,用python爬取新浪微博数据

作者: dc260c55dcc9 | 来源:发表于2019-08-06 09:03 被阅读3次

爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片(可选)。

运行环境

开发语言:python2/python3

系统: Windows/Linux/macOS

以爬取迪丽热巴的微博为例,她的微博昵称为"Dear-迪丽热巴",id为1669879400(后面会讲如何获取用户id)。我们选择爬取她的原创微博。程序会自动生成一个weibo文件夹,我们以后爬取的所有微博都被存储在这里。然后程序在该文件夹下生成一个名为"Dear-迪丽热巴"的文件夹,迪丽热巴的所有微博爬取结果都在这里。"Dear-迪丽热巴"文件夹里包含一个csv文件、一个txt文件和一个img文件夹,img文件夹用来存储下载到的图片。

csv文件结果如下所示:

txt文件结果如下所示:

下载的图片如下所示:

img文件夹

本次下载了766张图片,大小一共1.15GB,包括她原创微博中的图片和转发微博转发理由中的图片。图片名为yyyymmdd+微博id的形式,若某条微博存在多张图片,则图片名中还会包括它在微博图片中的序号。本次下载有一张图片因为超时没有下载下来,该图片url被写到了not_downloaded_pictures.txt。

 源码分享:

python爬取新浪微博数据源码

注意事项

1.user_id不能为爬虫微博的user_id。因为要爬微博信息,必须先登录到某个微博账号,此账号我们姑且称为爬虫微博。爬虫微博访问自己的页面和访问其他用户的页面,得到的网页格式不同,所以无法爬取自己的微博信息;

2.cookie有期限限制,超过有效期需重新更新cookie。

在学习过程中有什么不懂得可以加我的python学习交流扣扣qun,934109170,群里有不错的学习教程、开发工具与电子书籍。与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容。

相关文章

  • python爬虫学习教程,用python爬取新浪微博数据

    爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该...

  • Python学习

    python爬虫(五) python爬虫爬取豆瓣电影Top250数据 利用python爬取豆瓣电影TOP250页面...

  • 【工具】echarts+kuno+分词

    数据: python爬虫:微博爬虫、借助'出书啦'爬微信知乎Java爬虫:Java微博爬虫 时间轴: JAVA时间...

  • 用python网络爬虫爬取英雄联盟英雄图片

    用python爬虫爬取lol皮肤。 这也用python网络爬虫爬取lol英雄皮肤,忘了是看哪个大神的博客(由于当时...

  • Python学习

    python爬虫(四) python爬虫爬取豆瓣电影数据 今天我们爬取一下豆瓣电影TOP250页面电影的数据,依然...

  • scrapy爬取新浪微博分享(1)

    内容概要: 最近自己学习了一些爬虫,学习之余,写了一个新浪微博的爬虫。大规模爬数据没有试过,但是爬取几十万应该没有...

  • scrapy爬取新浪微博分享(2)

    内容概要: 最近自己学习了一些爬虫,学习之余,写了一个新浪微博的爬虫。大规模爬数据没有试过,但是爬取几十万应该没有...

  • scrapy爬取新浪微博分享(3)

    内容概要: 最近自己学习了一些爬虫,学习之余,写了一个新浪微博的爬虫。大规模爬数据没有试过,但是爬取几十万应该没有...

  • Python入门---爬虫

    私以为学习Python最好从爬虫开始,python对爬虫是如此的友好,支持库琳琅满目,而且爬取数据对于以后的学习又...

  • python爬虫爬取英雄联盟英雄图片

    python爬虫爬取英雄联盟英雄图片 python爬取数据四步走1、确定目标2、分析目标3、编写代码4、执行爬虫 ...

网友评论

    本文标题:python爬虫学习教程,用python爬取新浪微博数据

    本文链接:https://www.haomeiwen.com/subject/rtwbdctx.html