02房价统计

作者: Jachin111 | 来源:发表于2022-12-13 19:36 被阅读0次

02房价统计
禹城房价居高不下，竟有小区价格破万！
关心房地产的有两种人，其中一种是精神上的
房价下跌，这几个商机，一定要把握住！
70座城市房价变化！一二线回落三线还在涨！房价遏制有多大效果？
数字货币市值排名(2018/03)
房价未降房租又起住房市场被资本绑架了吗？
房价泡沫的下一步（写于2016.9.20）
19年7月16日
国家统计局显示房价还在上涨，连师太们也下山买房，这是什么信号？

数据EDA

# 导入库
import pandas as pd
import numpy as np

import plotly.express as px
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use("fivethirtyeight")

from scipy.stats import norm
from scipy import stats
from sklearn.preprocessing import StandardScaler

import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

# 导入数据
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

train.head()

image.png

# 数据信息
train.shape

image.png

train.isnull().sum().sort_values()

image.png

# 描述统计信息
train.describe()

image.png

销售价格SalePrice分析

# 统计信息
train["SalePrice"].describe()

image.png

sns.distplot(train['SalePrice'])
plt.show()

image.png

# 偏度和峰度
print("Skewness(偏度):%f"%train['SalePrice'].skew())
print("Kurtosis(峰度):%f"%train['SalePrice'].kurt())

# image.png

# SalePrice和数值型字段的关系
data = train[["SalePrice","GrLivArea"]]
data.head()

image.png

plt.figure(1,figsize=(12,6))
sns.scatterplot(x="GrLivArea",y="SalePrice",data=data)
plt.show()

image.png

data = train[["SalePrice","TotalBsmtSF"]]

plt.figure(1,figsize=(12,6))
sns.scatterplot(x="TotalBsmtSF",y="SalePrice",data=data)
plt.show()

image.png

# 价格和分类型字段的关系
train["OverallQual"].value_counts()

image.png

data = train[["SalePrice","OverallQual"]]

f,ax = plt.subplots(1,figsize=(12,6))
fig = sns.boxplot(x="OverallQual",y="SalePrice",data=data)

fig.axis(ymin=0,ymax=800000)
plt.show()

image.png

data = train[["SalePrice","YearBuilt"]]

f,ax = plt.subplots(1,figsize=(16,8))
fig = sns.boxplot(x="YearBuilt",y="SalePrice",data=data)

fig.axis(ymin=0,ymax=800000)
plt.show()

image.png

缺失值处理

# 缺失值占比
total = train.isnull().sum().sort_values(ascending=False)
total.head()

image.png

# 转成百分比
percent = (train.isnull().sum()/train.isnull().count()).sort_values(ascending=False)
percent.head()

image.png

# 数据合并，整体的缺失值情况
missing_data = pd.concat([total,percent],axis=1,keys=["Total","Percent"])
missing_data.head()

image.png

# 删除缺失值
missing_data[missing_data["Total"]>1].index

image.png

train = train.drop(missing_data[missing_data["Total"]>1].index,1)
train = train.drop(train.loc[train["Electrical"].isnull()].index)
train.isnull().sum().max()

image.png

离群点out liars

# 查找离群点
saleprice_scaled = StandardScaler().fit_transform(train["SalePrice"][:,np.newaxis])
saleprice_scaled[:5]

image.png

low_range = saleprice_scaled[saleprice_scaled[:,0].argsort()][:10]
high_range = saleprice_scaled[saleprice_scaled[:,0].argsort()][-10:]

print(low_range)
print('---------------')
print(high_range)

image.png

# 单变量分析1
data = train[["SalePrice","GrLivArea"]]
data.plot.scatter(x="GrLivArea",y="SalePrice",ylim=(0,800000))
plt.show()

image.png

# 删除离群点
train.sort_values(by='GrLivArea',ascending=False)[:2]

image.png

train = train.drop(train[train['Id']==1299].index)
train = train.drop(train[train['Id']==524].index)
train.head()

image.png

# 单变量分析2
data = train[["SalePrice","TotalBsmtSF"]]
data.plot.scatter(x="TotalBsmtSF",y="SalePrice",ylim=(0,800000))
plt.show()

image.png

深入理解SalePrice

# Normality归一化(SalePrice)
sns.distplot(train["SalePrice"],fit=norm)
fig = plt.figure()
res = stats.probplot(train["SalePrice"],plot=plt)

image.png

# 对数变换
train["SalePrice"] = np.log(train["SalePrice"])

sns.distplot(train["SalePrice"],fit=norm)
fig = plt.figure()
res = stats.probplot(train["SalePrice"],plot=plt)

image.png

# Normality归一化(GrLivArea)
sns.distplot(train["GrLivArea"],fit=norm)
fig = plt.figure()
res = stats.probplot(train["GrLivArea"],plot=plt)

image.png

# 执行对数操作
train["GrLivArea"] = np.log(train["GrLivArea"])

sns.distplot(train["GrLivArea"],fit=norm)
fig = plt.figure()
res = stats.probplot(train["GrLivArea"],plot=plt)

image.png

# Normality归一化(TotalBsmtSF)
sns.distplot(train["TotalBsmtSF"],fit=norm)
fig = plt.figure()
res = stats.probplot(train["TotalBsmtSF"],plot=plt)

image.png

train['HasBsmt'] = 0

# 当TotalBsstSF>0 则赋值1
train.loc[train['TotalBsmtSF']>0,'HasBsmt'] = 1

# 对数转换：等于1的部分
train.loc[train['HasBsmt']==1,'TotalBsmtSF'] = np.log(train['TotalBsmtSF'])

data = train[train['TotalBsmtSF']>0]['TotalBsmtSF']
sns.distplot(data,fit=norm)
fig = plt.figure()
res = stats.probplot(data,plot=plt)

image.png

同方差性

# 讨论'SalePrice'和'GrLivArea'之间的关系
plt.scatter(train['GrLivArea'],train['SalePrice'])
plt.show()

image.png

# 讨论'SalePrice'和'TotalBsmtSF'之间的关系
data = train[train['TotalBsmtSF']>0]

plt.scatter(data['TotalBsmtSF'],data['SalePrice'])
plt.show()

image.png

生成哑变量

train = pd.get_dummies(train)
train

image.png

网友评论

本文标题：02房价统计

本文链接：https://www.haomeiwen.com/subject/ewohqdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

02房价统计

数据EDA

销售价格SalePrice分析

相关性分析

缺失值处理

离群点out liars

深入理解SalePrice

同方差性

生成哑变量

相关文章

02房价统计

禹城房价居高不下，竟有小区价格破万！

关心房地产的有两种人，其中一种是精神上的

房价下跌，这几个商机，一定要把握住！

70座城市房价变化！一二线回落三线还在涨！房价遏制有多大效果？

数字货币市值排名(2018/03)

房价未降房租又起住房市场被资本绑架了吗？

房价泡沫的下一步（写于2016.9.20）

19年7月16日

国家统计局显示房价还在上涨，连师太们也下山买房，这是什么信号？

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读