早几天不论是函数,还是爬虫,都只是一个铺垫,对于一个文科生来讲,阅读并理解代码是有一定的困难的,随着早几天的看视频,现在也差不多能看出是几个意思了,,但昨天去写爬虫,错误一大堆,知道就是那么回事,但代码就是出错,我也没啥办法,现在的自己只想看到投入产出,如果没有的话,就果断放弃。欲速则不达,希望自己好好记住。今天学习些一点机器学习方面的代码,以前做了点铺垫,所以并不难。
![](https://img.haomeiwen.com/i4930264/6ca2ed62a7181fa1.png)
第一句一定要写,不然图片出不来,-10到10之间100个等长的sin值
![](https://img.haomeiwen.com/i4930264/69f1e3bbece4ca64.png)
最后一行还是用print吧,,他只是为了使结果输出显现的更美观点,主要是我试了,搞不出来,智能用print
![](https://img.haomeiwen.com/i4930264/6a4c37dfa6e06e1f.png)
注意选值得方式,data_pandas[data_pandas['age']>30] 也行
![](https://img.haomeiwen.com/i4930264/e9f90d78ef7814f3.png)
这是查看当前计算机各个python模块的版本,记住这种匹配的方式。.format(),以后就都是这种,不要用%s%d那些。
![](https://img.haomeiwen.com/i4930264/e714ea56b284d241.png)
有内置数据,导入相关模块,通过函数调用,刚看过的函数模块,应该对这种方式不会感受到陌生
![](https://img.haomeiwen.com/i4930264/895101a9b35c6a24.png)
也可以用iris_dataset.data[:5],来切片
![](https://img.haomeiwen.com/i4930264/8f2961d80e3be217.png)
大概意思就是因为好多原因,要将数据集分为两部分,一部分测试,一部分做模型用,有一个train_test_split()函数就是干这事的,测试的占总的0.25(这是一个首屈一指 的法则)。并且就像简单函数一样,维度少的做结果,维度多的做判断条件。
![](https://img.haomeiwen.com/i4930264/8b1db499b5442782.png)
![](https://img.haomeiwen.com/i4930264/58c5884efd2c07d9.png)
knn.fit(x,y) 调用 检测
![](https://img.haomeiwen.com/i4930264/e6bda40891cbb3a5.png)
X_new为一个数组 np.array([[ , ,]])
![](https://img.haomeiwen.com/i4930264/3a1e40f2790fa96f.png)
只要记住最后一个的表达的书写方式,前面的就算了
![](https://img.haomeiwen.com/i4930264/93c7b565ae269ebc.png)
最后的核心代码就是上面的这点,不多,所有的机器学习的步骤差不多就是这样,还有一点参数from sklearn.model_selection import train_test_split
如果报错的话,就用
from sklearn.cross_validation import train_test_split 这个可以
cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)
test_size:样本占比,如果是整数的话就是样本的数量
random_state:是随机数的种子。
随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样。
随机数的产生取决于种子,随机数和种子之间的关系遵从以下两个规则:
种子不同,产生不同的随机数;种子相同,即使实例不同也产生相同的随机数
数据------模型训练------训练得分
在监督机器学习中一般分为分类和回归问题,上面的就是典型的分类预测
网友评论