使用 Python 和 Pandas 分析犯罪记录开放数据

作者: Vector_Wan | 来源:发表于2019-04-29 21:39 被阅读0次

使用 Python 和 Pandas 分析犯罪记录开放数据
如何用 Python 和 Pandas 分析犯罪记录开放数据？
pandas简介
pandas学习笔记
「数据分析」02数据源的导入与matplotlib模块的使用
Pandas操作Excel学习笔记（1）——准备知识
pandas使用技巧系列总览
1.基本介绍和文件读写
《利用Python进行数据分析》读书笔记
太赞了！30 个 Python 函数，加速你的数据分析处理速度

从开放数据中，你可以了解一个城市或社区是否安全，并合理避险。

本文借鉴知乎@王树义的分析思路，使用 Python 和数据分析包 Pandas 对该数据集进行分析和可视化。

原网址为：https://zhuanlan.zhihu.com/p/58314015?utm_source=qq&utm_medium=social

首先，访问 Denton 开放数据主页，地址是 http://data.cityofdenton.com/ 。搜索 crime 获取数据。

读入 Pandas 库，并使用 Pandas 方法读入 CSV 文件。文件保存在 df 中，并确认文件已经成功读入。

import pandas as pd
df = pd.read_csv('crime_data_20190322.csv')
df.head()

结果图

下面来着重分析一下，都有哪些犯罪类型，每种类型下，又有多少记录。

这里我们使用的是 Pandas 中的 value_counts 函数。它可以帮助我们自动统计某一列中不同类别出现的次数，而且还自动进行排序。为了显示的方便，我们只要求展示前 10 项内容。

value_counts() 是一种查看表格某列中有多少个不同值的快捷方法，并计算每个不同值有在该列中有多少重复值。
value_counts() 是 Series 拥有的方法，一般在 DataFrame 中使用时，需要指定对哪一列或行使用。

iloc 方法是基于索引位来选取数据集，例如 0:4就是选取 0，1，2，3 这四行，需要注意的是这里是前闭后开集合。

df.crime.value_counts().iloc[:10]

结果图

可以看到位于前几位的犯罪类型分别为：轻微人身攻击，所有其他盗窃案，财产的破坏，醉酒，商店行窃，汽车失窃，使用毒品，诈骗，入室盗窃。

为了更直观查看数据统计结果，我们调用 Pandas 内置的绘图函数 plot ，并且指定绘图类型为“横向条状图”（barh）。

import matplotlib as plt
df.crime.value_counts().iloc[:10].sort_values().plot(kind='barh')

结果为：

结果图

下面，我们着重了解某一种犯罪的情况。因为犯罪类型五花八门，所以我们从中选择一种严重的暴力犯罪——抢劫（Robbery）。

这里，为了后续分析的便利。我们首先把抢劫类型的犯罪单独提炼出来，存储在 robbery 这样一个新的数据框里。同样只展示前几种。

pandas.Series.str.contains() 方法可以通过查询每行是否包含指定字符串进行模糊查询。

robbery = df[df.crime.str.contains('ROBBERY')]; robbery.head()

结果图

我们查看一下“犯罪位置”（locname）类型，以及每种类型对应的记录条目数。

这次，我们使用 groupby 函数，先把犯罪位置进行分类，然后用 size() 函数来查看条目统计。

这里，我们指定排序为从大到小。

groupby('locname').size() 函数可以按照‘locname’这一列进行分组并统计数量。

robbery.shape
robbery.groupby('locname').size().sort_values(ascending=False)

结果图

当然以上代码可以使用value_counts 方法解决。

robbery.locname.value_counts()

结果相同。

根据结果显示，入室抢劫次数最多，在学校、公交车上发生的次数最少。

下面还是用 plot 函数，把结果可视化呈现。

robbery.groupby('locname').size().sort_values(ascending=False).head(10).sort_values().plot(kind='barh')

下一步，我们尝试把分析的粒度做得更加细致——研究一下，哪些街区比较危险。

地址信息都表示为类似“19XX BRINKER RD”这样的方式。把具体地址的后两位隐藏，是为了保护受害者的隐私。

我们如果要统计某一条街道的犯罪数量，就需要把前面的数字忽略，并且按照街道名称加总。

这个处理起来，并不困难，只要用正则表达式即可。

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑.

regex = r"\d+XX\s(?P<street>.*)"
subst = "\\g<street>"

这里，我们用括号把需要保留的内容，赋值为 street 分组。然后替换的时候，只保留这个分组的信息。于是前面的具体地址数字就忽略了。

调用 Pandas 的 str.replace 函数，我们可以让它自动将每一个地址都进行解析替换，并且把结果存入到了一个新的列名称，即 street 。

robbery["street"] = robbery.publicadress.str.replace(regex, subst)

可以看到在 DataFrame 的最后一列是简化的街道。

依然按照前面的方法，我们分组统计每一条街道上的犯罪数量，并且进行排序。

robbery.groupby('street').size().sort_values(ascending=False).head(10)

看来，大学西道（W University DR）抢劫频发，没事儿最好少去瞎转悠。

注意，我们其实是在分析10年的犯罪信息汇总。如果更进一步，想要利用时间数据，进行切分，我们就得把日期信息做一下转换处理。

我们从 dateutil 里面的 parser 模块，载入全部内容。

from dateutil.parser import *

下面，我们抽取年度信息。因为目前的日期时间列（incidentdatetime）是个字符串，因此我们可以直接用 parse 函数解析它，并且抽取其中的年份（year）项。

robbery["year"] = robbery.incidentdatetime.apply(lambda x: parse(x).year)

apply 函数是pandas里面所有函数中自由度最高的函数。该函数如下：

DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)

该函数最有用的是第一个参数，这个参数是函数，相当于 C/C++ 的函数指针。

这个函数需要自己实现，函数的传入参数根据 axis 来定，比如 axis = 1，就会把一行数据作为 Series 的数据结构传入给自己实现的函数中，我们在函数中实现对 Series 不同属性之间的计算，返回一个结果，则 apply 函数会自动遍历每一个DataFrame 的数据，最后将所有结果组合成一个 Series 数据结构并返回。