大佬，您的选房系统已上线

作者: 数智物语 | 来源:发表于2018-11-28 16:54 被阅读7次

大佬，您的选房系统已上线
您的选房系统已上线——利用python和R如何进行房价预测
房有道自主研发的房地产渠道营销管理系统上线
好无聊哦
亲，您的BF已上线！
（您的起名废已上线）
您的郝医生已上线
十五您的好友已上线
孟母三迁？房团惠带您选个好邻居
【临沂兴华】实车到店，您的博越PRO已上线！！！

转自 | 数据团学社，微信搜索metrodata_xuexi 即可关注

本文约1500字，阅读需要5分钟

关键词：买房 Python 选房 R 定价

本文讲述了借助Python，Gis和R语言制作房源定价系统的方法，对原理、过程都有详细的讲述

为了能在当今竞争激烈的社会活下去，我一直在孜孜不倦地开发自己的潜能，寻找更多的副职业增加收入，从而在双十一后的双十二可以继续剁手。

这不，成为业余房地产咨询师的第一天，客户戳我了：我要在上海16个区买16套房子，资金到位，您给估个价吧。

对于这类在在如此严峻的房地产政策之下，还想拥有两位数以上房产的“忽悠”高手，我一向给予至尊VIP的待遇。

决定一套房子价格的因素主要是三个方面，房屋本身的属性，房屋的空间位置和周边的其他因素。这篇文章会讲述考虑这些因素的分析——建模——检验的过程。

数据集的准备

这里分为两步：

第一步，抓取所有URL：

if__name__=='__main__':

url_list = create_url(220,2)#填写区间最大面积和公差，保证按大于最大面积搜索，房源数小于等于3000

data_list = []

#data_list = craw_second_url(url_list)

craw_second_url(url_list)

data = pd.DataFrame(pd.Series(data_list),columns=['url'])

data.to_csv('./urls.csv',encoding='gbk',index=0)

print('finish')

接下来，爬取房源信息：

defread_url(path):

path = path

data = pd.read_csv(path,engine='python')

try:

data_received = pd.read_csv('./house_inf_lianjia.csv',engine='python')

print('导入爬取数据')

data_received_list = data_received['url'].tolist()

print('转换表格')

url_list = data[~data['url'].isin(data_received_list)]['url'].unique().tolist()

print('剔除已爬取数据')

print(len(url_list))

except:

url_list = data['url'].unique().tolist()

data = pd.DataFrame(

columns=['house_id','name','price','area_price','area','room','livingroom','kitchenroom',

'bathroom','lng','lat','url'])

data.to_csv('./house_inf_lianjia.csv', encoding='gbk', index=0)

print('无历史数据')

returnurl_list

我还顺手做了一个断点续传功能，每次开始爬虫前会匹配URL列表，保证爬取过的不再爬取，方便更新和分时段爬取。详细代码请见文末，我爬取了1W+的数据作为样本：

另外，我准备了另一份数据：美团美食频道1W+的餐饮POI. 同样使用爬虫获取。

建模准备

这一部分我们会将房源数据和POI数据等信息整合在一起用于建模，可以用ArcGis完成。

红色的为餐饮POI，绿色的为房源数据（有时间的朋友可以爬取全量数据）

先对房源做缓冲区，缓冲区半径为1KM，考虑这个范围内的POI数据。

结果如图：

然后使用缓冲区与餐饮POI进行空间关联，这样就可以统计出一个房源1KM半径范围内餐饮POI的数量，价格，评论数等等信息，以便接下来建模使用。

另外，常识告诉我们，一般离市中心越近，房价越高，随意我们再增加一个距离属性。先添个底图：

然后创建一个上海中心点点数据。上海的中心点，在人民广场附近，方便起见，就在地图上点一个吧！

把图层转换成投影坐标系，便于计算距离：

给中心点数据和缓冲区数据添加两个字段，存放投影经纬度

然后使用计算几何，获取投影经纬度，单位选择米

结果如图（部分）：

接下来计算距离，可以在GIS内直接操作，也可以导出数据，在EXCEL中用两点之间距离公式计算。

这样，我们就整合完成了一份样本数据，可以用来进行建模操作！

建模操作

左手python右手R,先导入一堆包:

library(readr)

library(funr)

library(openxlsx)

library(dplyr)

library(caret)

library(readxl)

library(psych)

library(plyr)

library(ggplot2)

创建工作路径和读取数据

########################################### path setting and data reading ##########################################

path <- get_script_path()# 获取脚本路径

# path = '' #可以手动输入工作路径

print(path)

setwd(path)# 设定工作路径

model_data <- read_csv("model_data.csv")

然后，是数据清洗，提炼我们需要建模的属性

########################################### Data cleaning ##########################################

model_data <- na.omit(model_data)

model_data <- model_data %>% select(price,area,room,livingroom,kitchenroom,

bathroom,Count_,Sum_allcommentNum,Avg_allcommentNum,

Avg_avgprice,Avg_avgscore,Sum_avgscore,len)#可以使用names(model_data)函数在Console中查看字段名称

model_data <- rename(model_data,c(Count_='resturant_counts'))

我们今天要拟合一个回归模型，所以，先来看一看属性之间的相关性

psych::pairs.panels(model_data)#查看相关性

这行代码会画出一张逼格很高的图：

理解几个关键点：

1.相关性系数，绝对值越接近1表明相关性越显著，比如房价和面积相关度为0.77；

2.图中的直方图为每个维度的数据分布；

3.散点图中圆越完美表明相关度越低，椭圆形状表明相关度显著。

4.图中的线条是查看线性关系的，可以体现自变量和因变量之间的关系。

下面，我们使用全部属性构建一个回归模型。Price是因变量，“~.”表示导入所有自变量。最后打印模型结果查看。

model <-lm(price~.,data=model_data)

print(summary(model))

print(car::vif(model))

我们可以从结果中读取到拟合后的函数，残差，回归系数，P值，R方等。对于多元线性回归，R方会随着变量的增多不变或增加，所以看实际R方并不科学，模型引入了惩罚因子，最后，我们以调整R方作为最终判定拟合度的依据。我们看到，R方为0.8393，拟合度应该相当不错。

然后，我们还要关注一下共线问题。

什么是共线问题？

简单说就是两个变量描述的是同一个内容，我们需要去掉其中一个。比如，“双十一我剁手了”和”我这个月要吃土了”表达的是一个意思：没钱！

我们看到缓冲区内餐厅数量和平均得分之和数字都超过了200，只要大于10的都属于共线，应该根据具体情况删减。

下面我们使用逐步回归法，优化模型。

逐步回归分三种，这里我直接百度介绍：

model_step <- step(model,direction ="both")# 使用逐步回归的方法筛选变量

print(summary(model_step))

优化后的模型为：

我们看到，R方进一步提升，达到0.8415。不过，有一个问题，这里去掉了餐厅数量，选择使用评分总和作为其中一个变量，但这里根据我们经验，常识和习惯，这样并不科学。

所以，我们人工替换回餐厅数量这个变量再一次拟合。

model_fin <- lm(formula = price ~ area + room + bathroom + Sum_allcommentNum +

Avg_allcommentNum + Avg_avgprice + resturant_counts + len, data = model_data)

拟合结果：

R方下降0.0001，几乎没有变化，完美！

我们导出回归模型，方便查看。

table = data.frame(summary(model_fin)[["coefficients"]])

table['variable']=row.names(table)

write.xlsx(x = table,file ='coefficients.xlsx',

sheetName ='sheet1',

row.names =FALSE,

overwrite=TRUE)

Estimate为回归系数，std.error为标准误差，t.value为t值，pr.t为P值，显然所有变量P值均小于0.05，非常显著。

最后，我们来使用这个模型，来给房源定价：

predict_result <- predict(model_fin,

data.frame(area =108,

room=3,

bathroom=2,

Sum_allcommentNum=56399,

Avg_allcommentNum=247.36,

Avg_avgprice=114.12,

resturant_counts=228,

len=6438),

interval ='confidence')

print(predict_result)

用法很简单，输入房源的信息，就能预测出结果。比如108平米，3房2卫，1KM半径缓冲区内有228家餐厅，平均价格114.2，平均评论数247.36，评论综合56399条，距离市中心6.438KM，最终结果如下：

（从左往右分别是：估价-最低估价-最高估价）

啧啧~按月薪1W计算，一年12W，需要工作

客户看了我的定价模型以后，感觉非常满意！悄悄地问我：在上海郊环以外，有没有10平米的合租房？

网友评论

大数据和人工智能

本文标题：大佬，您的选房系统已上线

本文链接：https://www.haomeiwen.com/subject/lnrzqqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

大佬，您的选房系统已上线

数据集的准备

建模准备

建模操作

相关文章

大佬，您的选房系统已上线

您的选房系统已上线——利用python和R如何进行房价预测

房有道自主研发的房地产渠道营销管理系统上线

好无聊哦

亲，您的BF已上线！

（您的起名废已上线）

您的郝医生已上线

十五您的好友已上线

孟母三迁？房团惠带您选个好邻居

【临沂兴华】实车到店，您的博越PRO已上线！！！

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据和人工智能