嘤嘤嘤,写的时候刚好在放这首歌就顺手点上去了。
内容仅供学习参考!!!
一 . 介绍
微博:
(1)网页端:http://weibo.com
(2)手机端:http://m.weibo.cn
(3)移动端:http://weibo.cn
以下是三种方式的页面:
爬取难度:网页端>手机端>移动端(页面最丑,最好爬)
[图片上传失败...(image-c2cca6-1558252899775)]
Python学习交流群:1004391443,这里有资源共享,技术解答,还有小编从最基础的Python资料到项目实战的学习资料都有整理,希望能帮助你更了解python,学习python。
[图片上传失败...(image-b59ad8-1558252899775)]
[图片上传失败...(image-b5fcd6-1558252899775)]
!!!本文选取难度适中的手机端。
二. 分析
[图片上传失败...(image-2c89ed-1558252899775)]
因为微博是动态加载的,所以下拉页面就会出url是不同的,我们需要做到找到共同的规律。
发现max_id的值不同,max_id_type也是不同的
[图片上传失败...(image-6e9ede-1558252899775)]
而max_id和max_id_type在返回的json文件里面有出现。
所以此处URL是由https://m.weibo.cn/comments/hotflow?用户id&midid&max_id&max_id_type组成
获取相关数据层层“拨开”
如获取评论者“昵称”
data_name=html.json()['data']['data'][0]['user]['screen_name']
[图片上传失败...(image-f37dc9-1558252899775)]
三. 程序
[图片上传失败...(image-bf6854-1558252899774)]
[图片上传失败...(image-e516fc-1558252899774)]
[图片上传失败...(image-b37616-1558252899774)]
[图片上传失败...(image-b9b57-1558252899774)]
四. 结果
[图片上传失败...(image-f8471f-1558252899774)]
五. 我只是学习的搬运工,坚信1000小时定律。
记录学习,排版令人绝望
网友评论