美文网首页程序员互联网科技大数据 爬虫Python AI Sql
【视频】于欢案之网民的意见(1)?

【视频】于欢案之网民的意见(1)?

作者: 大邓和他的python | 来源:发表于2017-03-28 06:58 被阅读235次

公众号:大邓带你玩python 

本文建议在公众号阅读,从公众号复制过程中缺失了很多图片

在那种情景下,是个人都很难理性的。于欢与其母人身自由失去了,生命权生存权尊严的权利面临着随时被侵害的风险,在这种情况下,为了自己的母亲,于欢做了他应该做的事情,我觉得他没有做错。

他的行为合情:

于欢因为母亲受辱,做出了我们都认为对的事情,儿子就该这样做,符合孝道为人子的行为规范,他的行为,合情。

他的行为合法:

在那特定情境下,人身自由被限制,生命安全随时受到伤害,属于不法侵害正在发生,阻止犯罪行为的继续进行,属于正当防卫,合法。

哎,但有的时候我就是觉得法律与人情有交叉又有分离,并不能完美的划上等号,这真的很让人纠结。

故事的开始是这样

2016年4月14日,一位22岁的男子于欢,在母亲苏银霞和自己被11名催债人长达一小时的侮辱后,情急之下用水果刀刺伤了4人。其中,被刺中的杜志浩自行驾车就医,却因失血过多休克死亡。儿子于欢因刺死1人被判无期,判决引发社会热议。山东女企业家苏银霞年轻的儿子于欢,杀死了催债人杜志浩。

案例:于欢案微博评论

微博搜#辱母杀人案#,我们发现人民日报的评论都只有不到1000条,但通过一些分析,发现澎湃新闻相关新闻有近3万条评论。那么我们就爬“澎湃新闻”吧

如果不想看后面的详细图文,也可直接看视频


【python爬虫】于欢案之网民的意见(1)?_腾讯视频

任务分析

我们之前做过几次微动态网页爬虫,也有针对微博的爬虫任务。通过经验,总结为一下几个要点:

1、抓包分析获得有规律的网址

2、使用cookie保持微博的登录状态

3、数据传输是json格式(类似于字典)

4、这次用正则表达式匹配出想要的评论文本

4、这次再多一个文本数据的保存

1、抓包分析

澎湃新闻网址

http://weibo.com/thepapernewsapp?refer_flag=1005055014_

点击这条新闻的评论,出现下图:

然后我们点击“查看更多”,弹出了另外一个网页

http://weibo.com/5044281310/EBCPc6GhJ?filter=hot&root_comment_id=0&type=comment

打开开发者工具,进行抓包分析,先点击‘查看更多

出现可疑网址

可疑网址:

http://weibo.com/aj/v6/comment/big?ajwvr=6&id=4089673821592515&root_comment_max_id=183623306287751&root_comment_max_id_type=0&root_comment_ext_param=&page=4&filter=hot&sum_comment_number=6598&filter_tips_before=0&from=singleWeiBo&__rnd=1490606915317

发现该网址中去掉不可用的部分,如下

'http://weibo.com/aj/v6/comment/big?ajwvr=6&id=4089673821592515&root_comment_max_id=162870024611262&root_comment_max_id_type=0&root_comment_ext_param=&page=5&filter=hot'

发现现在是在第五个叶片,page=5。

那么我们就先默认这个网址是可行的,进行后续的操作。

构造出base_url = 'http://weibo.com/aj/v6/comment/big?ajwvr=6&id=4089673821592515&root_comment_max_id=162870024611262&root_comment_max_id_type=0&root_comment_ext_param=&page={page}&filter=hot'

2、cookie的使用

这里我就简单说下吧

Cookie = {'Cookie':‘你的cookie’}

然后发请求

r = requests.get(url, cookies= Cookie)

3、json格式数据

r = requests.get(url, cookies= Cookie)

在咱们这个案例中,数据就是类似于字典的数据

r.text返回的似乎是dict格式的数据,那么真的如自己所想吗?检验下数据格式

结果print(type(r.text))返回的是str,所以我们暂时还不能用dict[key]这种方式获取我们想要的html数据。

这里首先要将str转换为dict,解决办法有两个:

方法一:

import json

Data = json.loads(r.text)

方法二:

直接使用requests的方法

Data = r.json()

我们使用方法二,也建议大家使用方法二:

现在我们马上能能获取html了,在其中也应该能找到评论。结果如下

4、正则匹配出评论文本

首先我们列出几个评论,如下

:不是所有的警察都是这样的。就是因为败类警察太多。

:严查黑恶势力的保护伞,公安系统没有保护伞,他们不会那么猖獗

我们发现评论内容前都出现了,评论内容后出现

那么我们可以构造一个正则表达式规律模板:

re.compile(r': (.*?) )

但是,评论中还是有杂质,如图片链接等,我们只要汉字内容!!!

那么我们这里再用一次正则,匹配出所有的汉字

汉字的正则表达式是

re.compile(r'[\u4e00-\u9fa5]')

多个汉字的表达式是

re.compile(r'[\u4e00-\u9fa5]+')

我们用多个(多于一个汉字)汉字的表达式

但评论是列表格式,我们必须把每个评论编程字符串格式。这里用到列表中多个字符串的拼接方法

5、保存

import os

#获取当前代码所在的文件夹路径

path = os.getcwd()

filename = '辱母杀人评论.txt'

file = path + '/' + filename

f = open(file, 'a+', encoding='utf-8')

#文本写入txt文件

f.write(comment)

#这么详细,不要我写了吧,大功告成了

更多内容

大数据

大数据时代,你如何成为弄潮儿

爬虫

【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”

【视频】快来get新技能--抓包+cookie,爬微博不再是梦

【视频教程】用python批量抓取简书用户信息

爬豆瓣电影名的小案例(附视频操作)

爬豆瓣电影名的小案例2(附视频操作)

python代理爬虫抓豆瓣电影数据(一)

python代理爬虫抓豆瓣电影数据(二)

用Python抓取百度地图里的店名,地址和联系方式

Python大法好:贴吧爬虫大法

文本分析

python居然有情感??真的吗??

基于共现发现人物关系的python实现

用python计算两文档相似度

神奇的python

怜香惜玉,我用python帮助办公室文秘

逆天的量化交易分析库-tushare

开扒皮自己微信的秘密

8行代码实现微信聊天机器人

使用Python登录QQ邮箱发送QQ邮件

相关文章

  • 【视频】于欢案之网民的意见(1)?

    公众号:大邓带你玩python本文建议在公众号阅读,从公众号复制过程中缺失了很多图片 在那种情景下,是个人都很难理...

  • “于欢”背后:世间本无所谓真相,唯有现象永存

    这两天来,“于欢”案经过媒体渲染,成为了全中国网民关于“法律”和“正义”的公开课。在舆论近乎一边倒的言论下,“于欢...

  • 于欢案

    2017.03我很关注于欢案。 黑社会凌辱母亲,包括殴打,辱骂,过分的是用男性生殖器抽打母亲脸部,儿子是被殴打后反...

  • “于欢”案

    这个周末是被“于欢”案刷屏了,大致看了大家的讨论,舆论像以前一样,两极格局。暂且就划分成“道德派”和“法律派”吧。...

  • 于欢案

    "中国知识分子既无独立的地位,更无独立的人格,真是最深刻的悲哀。" 朋友圈,变成了新闻圈。 圈内的法官转发的内容和...

  • “辱母杀人案”|血性和人性不能丢。

    多数网民讨论“辱母杀人案”中的于欢该不该拿起刀子反击,我觉得是应该的。这也是他自己的选择,当然如果换作任何人,面对...

  • 于欢案感想

    天朝所谓的“法律”,还处于违法后的惩罚阶段(不知道是不是很喽),个人觉得法律存在的意义在与违法前的预防而不是违法后...

  • 论于欢案

    山东辱母案,在过去近一年后,近日沸沸扬扬,成为热点。 从新闻资料了解完过程后,基于目前网上的信息,我也...

  • 于欢案有感!

    作为大体量民营经济的一份子,小微企业资金支持历来都是问题!这点我们做企业的屡见不鲜! 企业做成这样与...

  • 网络舆论对司法公正的积极作用大于消极作用

    于欢案的种种问题近来引发社会热议,网民的热烈声讨对司法程序产生了必不可免的影响。 开宗明义,网络舆论是指公众通过网...

网友评论

    本文标题:【视频】于欢案之网民的意见(1)?

    本文链接:https://www.haomeiwen.com/subject/yxwdottx.html