《Python与机器学习实战》——第一章

作者: 皮皮大 | 来源:发表于2019-08-04 14:57 被阅读5次

    第一章主要是个导论,在里面介绍了个简单的利用机器学习预测房价的栗子:

    数据预处理

    • 导入相关的模块和包,主要是numpy、pandas和matplotlib.pyplot。
    • 获取到两列关键的数据:size和price
    • 将size标准化处理
    • 标准化处理数学公式:
      X = \frac{X - \bar X}{std(X)}
    • 做出size和price的散点图
    # 导入相关的库
    import numpy as np
    import pandas as pd
    import matplotlib.pyplot as plt
    
    # 定义两个列表用来存储输入数据和输出数据y
    x, y = [], []
    
    # 通过pandas分别获取两个列属性
    df = pd.read_csv("price.csv", encoding="gbk")
    x_size = df["size"]
    y_price = df["price"]
    
    # 利用zip函数
    for  _x, _y in zip(x_size, y_price):
        x.append(_x)
        y.append(_y)
    
    # for _x in x_size:
    #     x.append(_x)
    # for _y in y_price:
    #     y.append(_y)
    
    # 读取完后保存为Numpy的一维数组
    x, y = np.array(x), np.array(y)
    # 由于数据的值比较大,进行数据的标准化处理
    x = (x - x.mean()) / x.std()
    
    # 通过散点图绘制
    plt.figure()
    plt.scatter(x, y, c="r", s=50)
    plt.show()
    
    image.png

    选择和训练模型

    在对数据进行了预处理之后,需要选择相应的学习方法和训练模型,本栗子中通过线性回归多项式来进行拟合,主要工作是编写模型函数

    • 模型的数学表达式:

    f(x|p;n) = p_0x^n + p_1x^{n-1} + ... + p_n

    • p,n是 模型的参数;p是多项式的系数;n是多项式的次数
    • 损失函数采用常见的是平方损失(欧式距离或向量的二范数);损失函数为:
      L(p;n) = \frac{1}{2}\sum_{i=1}^m[f(x|p;n)-y]^2
    • 训练的过程就是正则化某个损失函数L的过程,使得损失函数L最小;有名的正规方程效果最好。
    # 构造训练函数
    
    # 区间作为作图的基础
    x0 = np.linspace(-2, 2, 500)
    
    # 参数n代表模型函数中的多项式次数
    # 返回的模型能够根据输入的x,输出相对应的y
    def get_model(n):
        return lambda input_x=x0: np.polyval(np.polyfit(x, y, n), input_x)
    
    • 其中polyfit函数返回的就是使得损失函数L最小的参数p,即多项式的系数p
    • 该函数polyfit就是模型F的训练函数
    • polyval(p,x):根据多项式的xp,返回多项式的值y

    评估与可视化结果

    模型建立好之后,需要通过尝试各种参数下判断模型的好坏,选择n=1,5,10

    • 主要工作是编写损失函数
    • 训练的目的:最小化损失函数
    • 损失函数L来衡量模型的好坏
    # 用损失函数衡量模型的好坏
    
    # 根据输入的参数和x\y返回对应的损失函数
    def get_cost(n, input_x, input_y):
        return 0.5 * ((get_model(n)(input_x) - input_y) ** 2).sum()   # 返回的就是损失函数L
    
    test_set  = [1, 5, 10]
    # 绘制散点图
    plt.scatter(x, y, c="g", s=20)  
    for d in test_set:
        plt.plot(x0, get_model(d)(), label="deggree = {}".format(d))
        # print(get_cost(d, x, y))
    
    # 限制x,y的范围
    plt.xlim(-2, 4)
    plt.ylim(1e5, 6e5)
    
    # 图例和显示 
    plt.legend()
    plt.show()
    
    image.png

    相关文章

      网友评论

        本文标题:《Python与机器学习实战》——第一章

        本文链接:https://www.haomeiwen.com/subject/hccydctx.html