初步认识GBDT 个人理解:GBDT(Gradient Boosting Decision Tree),梯度提升决...[作者空间]
前言 这两天琢磨了下spark-deep-learning和spark-sklearn两个项目,但是感觉都不尽人如...[作者空间]
17.11.28更新一下:最近把这个算法集成到了数据预处理的python工程代码中了,不想看原理想直接用的,有简易...[作者空间]
以下内容属于经验总结的建模模块,建模模块目前包括 lasso 和 XGBoost,文章内容属于 XGBoost。 ...[作者空间]
0x00 前言 这个系列将会对python的scikit-learn算法包中GBDT算法的源码实现做一个深入梳理和...[作者空间]
bagging与randomforest是集成学习中的两个比较出名的算法, 特点是都可以并行。本文根据UCI 的g...[作者空间]
0x00 前言 数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是...[作者空间]
前言 这几天caffe2发布了,支持移动端,我理解是类似单片机的物联网吧应该不是手机之类的,试想iphone7跑C...[作者空间]
一、选择排序(最简单的排序算法) 思想: 找到数组中最小的元素,将他与数组的第一个元素交换位置(如果第一个元素就是...[作者空间]
本文将使用Python来可视化股票数据,比如绘制K线图,并且探究各项指标的含义和关系,最后使用移动平均线方法初探投...[作者空间]
1 概述 前面的课程中讲到了图的基本遍历算法和简单的应用,本来想接着往后面继续讲,后来有童鞋说讲讲动态规划吧,看书...[作者空间]
Kmeans算法简介: Kmeans算法基本思想是初始随机给定K个簇中心,按照距离最近的原则把待分类的样本点分到各...[作者空间]
如果使用基于最大似然估计的模型,模型中存在隐变量,就要用EM算法做参数估计。个人认为,理解EM算法背后的idea,...[作者空间]
文章主要参考于大神城东(部分认为有问题的地方进行了修改) 1. 特征工程是什么? 数据和特征决定了机器学习的上限,...[作者空间]
1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。使用sklear...[作者空间]
上周介绍了聚类分析,聚类分析可以理解为,从一大堆眼、睛眉、耳朵、皮毛特征中,划分出一类作为猴子,划分出另一类为人,...[作者空间]
人们用很多东西来比喻准备面试的过程。有人说这像准备一场战争,也有人说像邀请某人出去约会,还有人说像在高尔夫大师赛上...[作者空间]
SVM通常用对偶问题来求解,这样的好处有两个:1、变量只有N个(N为训练集中的样本个数),原始问题中的变量数量与样...[作者空间]
1. 最小二乘法(Least squares) 最小二乘法是一种数学优化技术,它通过最小化误差的平方来寻找数据的最...[作者空间]
这道题很能考察应试者的理论与实践水平,同时,它也揭示了一个很重要的学习方法,那就是比较学习。这种方法在机器学习中尤...[作者空间]