美文网首页大数据开发
大数据:“人工特征工程+线性模型”的尽头

大数据:“人工特征工程+线性模型”的尽头

作者: 葡萄喃喃呓语 | 来源:发表于2016-10-23 15:32 被阅读38次

    大数据:“人工特征工程+线性模型”的尽头 | 36大数据
    http://www.36dsj.com/archives/15621
    由此可以看出,特征工程建立在不断的深入理解问题和获取额外的数据源上。但问题是,通常根据数据人能抽象出来的特征总类很有限。例如,广告点击预测,这个被广告投放公司做得最透彻的问题,目前能抽象出来的特征完全可以写在一张幻灯片里。好理解的、方便拿来用的、干净的数据源也不会很多,对于广告无外乎是广告本身信息(标题、正文、样式),广告主信息(行业、地理位置、声望),和用户信息(性别、年龄、收入等个人信息,cookie、session等点击信息)。KDDCUP2013腾讯提供了广告点击预测的数据,就包含了其中很多。所以最终能得到的特征类数上限也就是数百。另外一个例子是,google使用的数据集里每个样本含有的特征数平均不超过100,可以推断他们的特征类数最多也只是数百。

    因此,新数据源和新特征的获得会越来越难。然而,模型的精度并不是随着特征的增长而线性提高。很多情况是指数。随着人工特征工程的深入,投入的人力和时间越来越长,得到的新特征对系统的提升却越来越少。最终,系统性能看上去似乎是停止增长了。Robin曾问过我老大一个问题:“机器学习还能持续为百度带来收益吗?”但时候我的第一反应是,这个商人!现在想一想,Robin其实挺高瞻远瞩。

    我的结论是,大数据时代,虽然人工特征工程和线性模型将会被更广泛的事情,但它只是大数据应用的起点。而且,我们应该要迈过这个起点了。
    作者:百度李沐M,感兴趣的朋友不妨关注他的微博。
    End.

    相关文章

      网友评论

        本文标题:大数据:“人工特征工程+线性模型”的尽头

        本文链接:https://www.haomeiwen.com/subject/xdlkuttx.html