iris

作者: 六六的建斌 | 来源:发表于2017-07-18 15:38 被阅读0次

早几天不论是函数,还是爬虫,都只是一个铺垫,对于一个文科生来讲,阅读并理解代码是有一定的困难的,随着早几天的看视频,现在也差不多能看出是几个意思了,,但昨天去写爬虫,错误一大堆,知道就是那么回事,但代码就是出错,我也没啥办法,现在的自己只想看到投入产出,如果没有的话,就果断放弃。欲速则不达,希望自己好好记住。今天学习些一点机器学习方面的代码,以前做了点铺垫,所以并不难。

第一句一定要写,不然图片出不来,-10到10之间100个等长的sin值



最后一行还是用print吧,,他只是为了使结果输出显现的更美观点,主要是我试了,搞不出来,智能用print


注意选值得方式,data_pandas[data_pandas['age']>30]   也行


这是查看当前计算机各个python模块的版本,记住这种匹配的方式。.format(),以后就都是这种,不要用%s%d那些。


有内置数据,导入相关模块,通过函数调用,刚看过的函数模块,应该对这种方式不会感受到陌生


也可以用iris_dataset.data[:5],来切片


大概意思就是因为好多原因,要将数据集分为两部分,一部分测试,一部分做模型用,有一个train_test_split()函数就是干这事的,测试的占总的0.25(这是一个首屈一指 的法则)。并且就像简单函数一样,维度少的做结果,维度多的做判断条件。


knn.fit(x,y)    调用  检测


X_new为一个数组  np.array([[   ,  ,]])

只要记住最后一个的表达的书写方式,前面的就算了


最后的核心代码就是上面的这点,不多,所有的机器学习的步骤差不多就是这样,还有一点参数from sklearn.model_selection import train_test_split 
如果报错的话,就用

from sklearn.cross_validation import train_test_split  这个可以

cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)

test_size:样本占比,如果是整数的话就是样本的数量

random_state:是随机数的种子。

随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样。

随机数的产生取决于种子,随机数和种子之间的关系遵从以下两个规则:

种子不同,产生不同的随机数;种子相同,即使实例不同也产生相同的随机数


数据------模型训练------训练得分


在监督机器学习中一般分为分类和回归问题,上面的就是典型的分类预测


相关文章

网友评论

      本文标题:iris

      本文链接:https://www.haomeiwen.com/subject/nzjckxtx.html