机器学习是实现人工智能的手段,其主要研究内容是如何利用数据或经验进行学习,改善具体算法的性能。
- 多领域交叉,涉及概率论、统计学,算法复杂度理论等多门学科。
- 广泛应用于网络搜索、垃圾邮件过滤、推荐系统、广告投放、信用评价、欺诈检测、股票交易和医疗诊断等应用。
数据挖掘和预测竞赛平台:https://www.kaggle.com和阿里天池
分类
-
无监督学习:利用无标签的数据,学习数据的分布或数据与数据之间的关系,达到聚类和降维的目的。最常见的用途是将数据分为不同的聚类,使相似的样本位于同一组中。例如,无监督学习算法可以根据音乐的各种属性将歌曲分为不同的聚类。所以聚类可以作为其他机器学习算法(例如音乐推荐服务)的输入,在很难获取真标签的领域,聚类可能会非常有用。例如,在反滥用和反欺诈等领域,聚类有助于人们更好地了解相关数据。
主要算法:聚类、主成分分析(PCA)、K-means、 - 半监督学习:训练模型时采用的数据中,某些训练样本有标签,而其他样本则没有标签。半监督学习采用的一种技术是推断无标签样本的标签,然后使用推断出的标签进行训练,以创建新模型。如果获得有标签样本需要高昂的成本,而无标签样本则有很多,那么半监督学习将非常有用。
-
监督学习:利用一组带有标签的数据,学习从输入到输出的映射,然后将这种映射关系应用到未知数据上,达到分类和回归的目的。监督学习类似于学生通过研究一系列问题及其对应的答案来学习某个主题。在掌握了问题和答案之间的对应关系后,学生便可以回答关于同一主题的新问题(以前从未见过的问题)。
主要算法:线性回归、逻辑回归、决策树、朴素贝叶斯、k近邻(KNN)、支持向量机(SVM)、集成学习。 - 增强学习:允许代理根据其当前状态决定最佳的下一个动作,通过学习将最大化奖励的行为。增强算法通常通过反复试验来学习最佳行为,通常用于机器人。机器人可以通过在碰到障碍物后接收负面反馈来学习避免碰撞,以及在视频游戏中 - 反复试验显示特定动作可以激发玩家的奖励。代理人然后可以使用这些奖励来了解游戏的最佳状态并选择下一个动作。
- 深度学习:是机器学习中人工神经网络算法的延申,广泛应用在计算机视觉和自然语言处理中,是机器学习的深入。
scikit-learn库
sklearn库分为6大部分,分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理。
网友评论