美文网首页
加州房价预测项目

加州房价预测项目

作者: 数据与风控 | 来源:发表于2019-11-13 12:39 被阅读0次

加州房价预测项目是kaggle上比较热门的一个项目了,属于回归分析的范畴,这几天有空用来练练手(to be continued):

#!/usr/bin/python
#  -*-coding: utf8 -*-
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split


#载入数据函数
def load_housing_data():
    return pd.read_csv("D://housing.csv")

#载入数据,查看前五行
df = load_housing_data()
print(df.head(5))
image.png
#快速查看数据的描述,特别是总行数、每个属性的类型和非空值的数量
print(df.describe())
image.png
#通过柱状图了解各个特征的分布情况
df.hist(bins=30)
plt.show()
image.png
#数据探索与可视化
df.plot(kind="scatter",x="longitude",y="latitude",alpha=0.4)
plt.show()
print(df.head(5))
df.plot(kind="scatter",x="longitude",y="latitude",alpha=0.4,c="median_house_value",cmap=plt.get_cmap("jet"),colorbar=True)
plt.show()
image.png
#特征扩展,从已有特征中组合生成更多的可能有用的特征,如果熟悉房产业务则更容易想到有用的特征,这也就是数据分析为什么要建立在熟悉业务的基础上
df["room_per_household"] = df["total_rooms"] / df["households"]
df["bedroom_per_room"] = df["total_bedrooms"] / df["total_rooms"]
df["population_per_household"] = df["population"] / df["households"]
print(df.head(5))
image.png
#数据清洗和预处理
X = df.loc[:,['longitude','latitude','housing_median_age','total_rooms','total_bedrooms','population','households','median_income','room_per_household','bedroom_per_room','population_per_household']]
Y = df.loc[:,'median_house_value']
print(X.head(5))
#相关性分析(各特征与房价中位数的相关系数进行排序,使用pearson相关系数,并把相关矩阵画图)
corr_matrix = df.corr()
print(corr_matrix)
print(corr_matrix["median_house_value"].sort_values(ascending=False))
sns.heatmap(df.corr(),annot=True, cmap="RdBu")
plt.show()
image.png

房价中位数(待预测值)与各个特征的相关系数


image.png

数据预处理

#去掉空值
df = df.dropna(axis=0)
#归一化
df = (df-df.min())/(df.max()-df.min())

数据集切分

x_train,x_test,y_train,y_test = train_test_split(df.iloc[:, 1:],df.iloc[:,0],test_size=0.15,random_state=15)

to be continued

相关文章

  • 加州房价预测项目

    加州房价预测项目是kaggle上比较热门的一个项目了,属于回归分析的范畴,这几天有空用来练练手(to be con...

  • 波士顿房价预测

    机器学习实战小项目之波士顿房价预测 前言 波士顿房价预测项目是一个简单的回归模型,通过该项目的学习可以学会一些关于...

  • 机器学习工程师纳米学位 模型评价与验证 项目 1: 预测波士顿房价 欢迎来到机器学习的预测波士顿房价项目!在此文件...

  • 80. TensorFlow教程(四)房价预测

    本文介绍实战房价预测模型,内容如下: 房价预测模型介绍 使用TensorFlow实现房价预测模型 使用Tensor...

  • kaggle项目—— 房价分析预测

    上面只是刚接触简单的知识点,还有scipy和预测模型要好好深究学习。

  • 数据预处理(Pandas&Numpy部分)

    整理了一些利用pandas和numpy对文件进行预处理的常用方法,数据为加州房价预测数据,仅供参考(to be c...

  • 【深度学习】PaddlePaddle计算机视觉项目:波士顿房价预

    波士顿房价预测模型,是经典的线性回归模型。记得吴恩达深度学习课程的第一课就是讲波士顿房价预测模型,入门的项目。Pa...

  • kaggle 机器学习 -- 房屋价格预测

    房价预测 背景kaggle 房屋价格预测最近想去kaggle找几个项目做做,提升自己的实战能力,就把这个入门级的房...

  • 北京房价预测——Kaggle数据

    日暮途远,人间何世将军一去,大树飘零 概述 之前学习了加州房价预测模型,便摩拳擦掌,从kaggle上找到一份帝都房...

  • 房价预测

    背景:DC竞赛比赛项目,运用回归模型进行房价预测。数据:主要包括2014年5月至2015年5月美国King Cou...

网友评论

      本文标题:加州房价预测项目

      本文链接:https://www.haomeiwen.com/subject/vlyhictx.html