作者 | Walker Harrison
编译 | 张意莉
题图 | 站酷海洛
在美国,如果你用肉眼观察一个地区是贫民区还是富人区,那就OUT了!在这个DT时代,有一位数据侠利用相关性关系来辨别美国小区的富裕情况,不信你就看看他是怎么做到的。
评估一个小区的贫富度除了用传统的人均收入或暴力犯罪率外,还可以透过树的宽度和健康度来量度。
我有幸成长于布鲁克林的公园边坡旁 。这是一个有利于抚养小孩的小区,因为在这里你不难发现有很多本地人穿着锦衣华服,推着昂贵的婴儿车,或是拎着有机农产品。
回想起来,在布鲁克林的其他小区,从著名的体育场地Flatbush大道走到举办年度数学竞赛的商业中心区,或是走到Bay Ridge区见我女朋友,这些小区的富裕程度或白人居民所占比率都不及布鲁克林的公园边坡一带。
很多中学生并不熟悉常用于辨别小区富裕程度的指标,例如:人均收入、暴力犯罪率、传染病发病率等等。不过,如果你住在布鲁克林,你会知道其实还有很多别的辨别方法。
干净的街道、安静的夜晚和亲切的门卫都着味着那里是一个良好的小区;相反,嘈吵的狗吠声、一道道的铁丝网和满地破碎的酒瓶代表着差劣的小区。春天时,在良好的小区中,树木总是开得繁花似锦。
因此,基于这个现象,通过纽约市的公园及康乐管理局每隔几年对纽约市所有树木作出的统计,我们可以作出一个验证。
▍数据准备
在纽约市公开数据中可以找到2015年树木普查结果,当中记录了超过68万棵树的生长地点、尺寸、品种和健康状况。另外,纽约全市三十七个小区的人口及小区边界数据也可以在Zip Atlas 的网站上找到。
这个验证主要用到以下几个R数据包 (XML, ggplot2, ggmap, RSocrata)来抓取数据,代码如下:
url_trees <- 'https://data.cityofnewyork.us/resource/nwxe-4ae8.csv'
url_zips <- 'http://zipatlas.com/us/ny/brooklyn/zip-code-comparison/median-household-income.htm'
trees <-read.socrata(url_trees)
trees <- subset(trees, boroname == 'Brooklyn')
trees$tree_dbh <- as.numeric(trees$tree_dbh)
neighborhoods <- readHTMLTable(url_zips, header=T, which=1, stringsAsFactors=F)
neighborhoods <- neighborhoods[complete.cases(neighborhoods), c(2,5,6)]
neighborhoods <- neighborhoods[-1, ]
names(neighborhoods) <- c("zipcode", "population", "income")
neighborhoods$population <- as.numeric(gsub("[$,]", "", neighborhoods$population))
neighborhoods$income <- as.numeric(gsub("[$,]", "", neighborhoods$income))
在以上的代码中,其中一个变量是tree_dbh,代表树木的胸径,这是一个常用于量度树木宽度的指标。根据树木普查的数据库,胸径的定义是指地面往上4英呎(1.2米)处的树干直径(树周长除以π)。
▍数据分析与可视化
首先,我们可以先把树木按邮编进行分组,再计算每组树木的平均胸径、人均树木值(trees per capita),把现成的各区树木数量除以人口,再把结果跟其他经济数据作比较,看看当中各区的富裕度跟树木的胸径大小的关系。因此,我用R 跑了一次回归分析。
虽然回归分析的结果显示树木胸径的粗幼度跟小区的家庭收入并不是呈现绝对的正比关系,但从上图中可以看出,两者仍有一定程度的关系:该区家庭收入越高,树木胸径就越粗。
举个例子:在家庭收入中位数只有$20,000美元的邮编区,其小区的树木胸径只有7至8英寸粗 (17.8cm 至20.32cm);反之,在家庭收入中位数达$40,000美元的邮编区,其小区的树木胸径至少有10英寸(25.4cm),很多甚至达到15英寸(38.1cm)。
树木胸径会随着树木的年龄而增加,由此可推断,很多较富裕的小区比其他小区更早规划,且拥有更多粗壮的树木和珍贵的品种,例如在Cobble Hill 柏油路上的一片枫树或是Prospect 公园周边高耸的橡树。
另外,从上述的回归分析图的绿点可见,在富人区,平均每十人拥有一棵树,而在穷人区,平均每二十至二十五人拥有一棵树。
在最后的分析中,我会带大家看看极端例子。最富裕的五个邮编区分别为:11201、11215、11217、11231和11234,分别对应了Brooklyn Heights区、Park Slope区、Boerum Hill区、Carroll Gardens区和Mill Basin区。
而最贫穷的五个区则为:11239、11206、 11212、11224和11221,分别覆盖了East New York区、Bedford-Stuyvesant区、Brownsville区、West Brighton区和Bushwick区。
以下是一张布鲁克林的卫星图像,上面蓝色的点代表每一棵在富人区的树的坐标,而红色的树木坐标则反映了穷人区。从这张简单的图片,也不难看出,富人区的树木的数量比穷人区的密集。
以下是生成这张卫星图像的代码:
另外,当我尝试寻找樱桃树(一种专门在春天开得特别灿烂的树),发现长在富人区的樱桃树比在穷人区的多3倍(1,136棵 VS 356棵)。扣除了穷人区拥有较少树木的因素外,穷人区比富人区有更多死树 (452棵VS406棵) 和更多的运动鞋挂在树上(29棵 VS 17棵)。
▍项目总结
总而言之,如果你经过布鲁克林的富人区,你不仅会看到更多的树木,而且会发现这些树木都长得更大、更健康和更美。
在这个项目里不能只考虑因果关系,基于“喜欢与树木玩耍的原因”而得出上述的结果是不太可能的,因为很多针对小区的量度方法都是带有周期性和自我强调(self-reinforcing)的特质。在我们这个例子中,树木的生长状况可能吸引了高收入人士去选择迁入某个小区,因而树木受惠于该区有更多的时间和资源来照顾它们。
这个研究希望提供一种额外的方法用于量化布鲁克林区的不公平状况。这个研究期望找到一个中立的角度去解读城市的统计结果和现实生活中的体验,但两者通常都是对立的。这是一种自然的趋势,把知识分为可学习的东西跟可感受的信息。有时候,你可以在志愿者的帮助下,利用一些统计软件进行研究。
注:本文编译自A [big, beautiful] Tree Grows in Brooklyn [if you’re wealthy].内容仅为作者观点,不代表DT数据侠立场。文中图片来自作者。
▍数据侠门派
本文数据侠Walker Harrison,数据博客perplex.city创始人,杜克大学统计学研究生毕业。
▍加入数据侠
数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。
网友评论