机器学习模型需要拥有很好地泛化能力来适应训练集中没有出现过的新样本。在机器学习应用时,我们经常会遇到过度拟合(ov...[作者空间]
本人对这两个理解不是很深入,看了下面这些大佬的回答,还是模模糊糊,略懂一二。 一、知乎高赞回答 1、特征工程中的「...[作者空间]
平时很多分类问题都会面对样本不均衡的问题,很多算法在这种情况下分类效果都不够理想。类不平衡(class-imbal...[作者空间]
random_state 相当于随机数种子random.seed() 。random_state 与 random...[作者空间]
一、EM算法介绍 我们经常会从样本观察数据中,找出样本的模型参数。 最常用的方法就是极大化模型分布的对数似然函数。...[作者空间]
一、bagging的原理 从上图可以看出,bagging的个体弱学习器的训练集是通过随机采样得到的。通过T次的随机...[作者空间]
一、XgBoost算法简介 在数据建模中,经常采用Boosting方法通过将成百上千个分类准确率较低的树模型...[作者空间]
一、算法思想 GBDT是集成学习Boosting算法中的一种,它与Adaboost相比,Adaboost算法利用...[作者空间]
一、Adaboost算法原理 从图中可以看出,Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学...[作者空间]
一、集成思想 集成学习(ensemble learning)本身不是一个单独的机器学习算法,而是通过构建并结合多个...[作者空间]
一、算法描述 DBSCAN(Density-Based Spatial Clustering of Applic...[作者空间]
一、聚类思想 所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法,这个方法要保证同一类的...[作者空间]
PCA的实现一般有两种 :一种是用特征值分解去实现的,一种是用奇异值分解去实现的。特征值分解和奇异值分解的目的都是...[作者空间]
一、前言 在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。...[作者空间]
一、什么是支持向量机 支持向量机(supportvectormachine),故一般简称SVM,通俗来讲,它是一种...[作者空间]
一、神经网络介绍(Neural network) 神经网络是一种人类由于受到生物神经细胞结构启发而研究出的一...[作者空间]
一、线型回归模型(Linear Regression) 为了更好的实现分类,逻辑回归诞生了。 [逻辑回归是假设数据...[作者空间]
一、线型回归(Linear regression) 二、梯度下降(Gradient descent) 三、逻辑回归...[作者空间]
一、算法原理 k-nearest neighbor,k-NN是一种可以用于多分类和回归的方法。knn是一个很简单...[作者空间]
在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻...[作者空间]