美文网首页
机器学习第一天

机器学习第一天

作者: 小喵周周 | 来源:发表于2018-01-04 05:03 被阅读0次

    步骤:收集数据---准备输入数据---分析输入数据---训练算法---测试算法---使用算法

    ①K邻近算法
    存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是K-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类

    ②决策树算法
    (1)收集数据:可以使用任何方法。
    (2)准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。
    (3)分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期。
    (4)训练算法:构造树的数据结构。
    (5)测试算法:使用经验树计算错误率。
    (6)使用算法:此步骤可以适用于任何监督学习算法,而使用决策树可以更好地理解数据 的内在含义。

    一些pandus numpy函数语句:

    from skimage import data
    import matplotlib.pyplot as plt
    img=data.camera()
    plt.figure("hist")
    arr=img.flatten()
    n, bins, patches = plt.hist(arr, bins=256, normed=1,edgecolor='None',facecolor='red')  
    plt.show()
    

    hist的参数非常多,但常用的就这六个,只有第一个是必须的,后面四个可选:
    arr: 需要计算直方图的一维数组
    bins: 直方图的柱数,可选项,默认为10
    normed: 是否将得到的直方图向量归一化。默认为0
    facecolor: 直方图颜色
    edgecolor: 直方图边框颜色
    alpha: 透明度
    histtype: 直方图类型,‘bar’, ‘barstacked’, ‘step’, ‘stepfilled’

    返回值 :
    n: 直方图向量,是否归一化由参数normed设定
    bins: 返回各个bin的区间范围
    patches: 返回每个bin里面包含的数据,是一个list

    疑问: pd.read_csv()啥时候带../啥时候不带??

    相关文章

      网友评论

          本文标题:机器学习第一天

          本文链接:https://www.haomeiwen.com/subject/udoxnxtx.html