监督学习算法去数据集中积累经验时,关键在于数据是有标签的。用通俗的话来讲,我需要算法分别这个是人,那个是花,然后它就慢慢学会认识这些事物了。
但是生活中大部分数据是没有标签的,无标签数据比有标签数据要多的多。为什么呢?因为给数据人工加标签是十分繁重的工作。如果是几十上百万的数据量要添加标签,想想看是多大的工作量。
面对无标签数据,我们的机器学习方法就叫做,非监督学习。加标签的术语叫做聚类。
举个例子,如果你知道数据集来自于2种花的数据,就可以利用聚类算法给数据打上标签。

当然,你不知道种类的个数,也有办法聚类。
所以说,无监督学习的「力量」是很大的,它不仅可以用于数据的聚类,同时还能帮助我们给数据集添加标签。于是,很多机器学习的流程其实就变成了:

网友评论