SFrame
sf = graphlab.SFrame('a.csv')
sf.head() ---- ##把表格显示在notebook中
sf.show() ---- ##统计显示在某一个链接中
graphlab.canvas.set_target('ipynb') ---- ##不在链接中显示内容,而是在notebook中
sf['Full Name']=sf['First Name']+' '+sf['Last name'] ---##增加新的一列
sf['Country'].apply(transform_country) ---把一个函数应用到这个表格中
回归
linear regression
RSS(Residual sum of squares)最小平方和
线性回归包括用二次函数的回归
训练集
测试集
训练损失
sales= graphlab.SFrame('home_data.gl/')
graphlab.canvas.set_target('ipynb')
sales.show(view="Scatter Plot" , x="sqrt_living",y="price")
import graphlab
sales = graphlab.SFrame('home_data.gl/')
graphlab.canvas.set_target('ipynb')
sales.show(view="Scatter Plot", x="sqft_living", y="price")
train_data,test_data = sales.random_split(.8,seed=0)
sqft_model = graphlab.linear_regression.create(train_data, target='price', features=['sqft_living'],validation_set=None)
import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(test_data['sqft_living'],test_data['price'],'.',
test_data['sqft_living'],sqft_model.predict(test_data),'-')
sqft_model.get('coefficients')
是这样的:
1、导进来数据
import graphlab
sales = graphlab.SFrame('home_data.gl/')
graphlab.canvas.set_target('ipynb')
2、分配训练数据和测试数据
train_data,test_data = sales.random_split(.8,seed=0)
3、建立回归模型
sqft_model = graphlab.linear_regression.create(train_data, target='price', features=['sqft_living'],validation_set=None)
4、显示结果
import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(test_data['sqft_living'],test_data['price'],'.',
test_data['sqft_living'],sqft_model.predict(test_data),'-')
sqft_model.get('coefficients')
5、测试数据
print my_features_model.evaluate(test_data)
分类
分类介绍
线性分类:影响分类的决定因素分配权值,然后根据权重分类
决策边界:分类中的边界线
分类结果评估
误差率:错误个数/总个数
混淆矩阵:分类的类别列一个矩阵
学习曲线
数据越多正常情况下越好
网友评论