机器学习=数据+特征+模型。
从这个公式我们可以发现,机器学习,他的基础是数据。然后通过对数据的分析,发现数据它有哪些特征,然后建立相应的模型,然后再运用这些模型为我们的业务进行服务。
特征分为宏观特征和微观特征。宏观特征,诸如像男女这样的属性特征。而微观特征是指某一个特征里面的特征。
传统建立模型的思路犹如开普勒三定律发现的过程。
开普勒三定律的发现:首先是对所有地球上观察的行星数据进行每天记录。然后假设行星围绕地球行驶的轨迹是椭圆型。通过将前期观察的数据拟合道这个模型上去。从而证实了行星围绕地球运行的轨迹是一个椭圆型。形成了开普勒定律。通过开普勒定律我们现在能够计算行星在某一时刻,它和地球的相对位置关系。
这个故事也是传统理论科学发展的常用模式,而数据科学式采用的第四范式。
特种工程他是针对某个模型,找出与要解决问题相关的关键属性。
特征工程的第一个阶段是人工阶段。和开普勒定律一样,是通过人去发现数据模型里面的关键属性,尝试将相应的参数(即特征)加入到数据模型当中去,用数据拟合新加入的参数,用另外的一部分数据去验证模型的准确性。
特征工程的。第二个阶段是自动特征工程。自动特征工程有分为三种。第一种是隐式特征工程(nn,fm)。第二种是半隐式特征工程(gbot)。第三种是显式特种工程(显式特征叉乖)。
如上,我们可以看出特征是从数据当中来,为模型服务,人工方式提取特征,工作量会很大,很复杂,这就需要自动特征工程来解决。
机器学习的两个模型:线上模型和线下模型。关系如下图。线下模型是数学模型的开发过程。线上模型是数据模型的应用过程。
数据模型,又有线性模型和非线性模型两种。非线性模型三剑客是:kernel ,svm;boosting-gbot;neural network .
通过如上的分析,我们可以看出特征工程是数据产品经理所应该完成的任务。数据产品经理,首先要明确业务问题,我们需要求解什么;然后,针对性的对数据进行分析,提取出数据当中最重要的特征,即数据属性。将这些数据属性组合成数据模型。数据模型可以采用线性模型也可以采用非线性模型。
网友评论