做过大数据的肯定有同感

作者: 叫我老村长 | 来源:发表于2020-02-04 11:32 被阅读0次

    数据清理,或者叫清洗。真正做两个项目就会知道,实际应用的系统里面,各种数据错误,数据丢失,格式定义不匹配,系统不兼容什么的太多太常见了。基本上各种公开课也好,标榜实战的收费课也好,都没几个管用的,因为随便一个行业或者公司就是一摊与众不同的烂摊子,跳一个坑下次换个课题又是一堆不一样的坑。尼玛一大半时间都是想办法把数据整合起来弄成标准格式可以送进训练模型。格式转换就费老鼻子劲了,很多传统行业为了节省存储数据都是编码存储的。没错现在硬盘是白菜价了,Hadoop这种三倍冗余的也敢大行其道了,但是稍微有点年头的公司都是从主机开始数码化业务的,好多数据都是数字编码再配一个单独的数据词典来解释,甚至有的还是二进制编码的,然后为了向后兼容就一直沿用了下来。要抽取几个特征或者搞点特征工程,翻数据词典都翻到能背了。再一个就是模型评估和解释,绝大多数管理层技术水平是很低的,如果直接丢个黑箱解决办法多半是不会被接受的,一定要讲他明白了才肯用,这点在金融行业特别明显,部分原因也是监管要求大家都怕背锅所以自己搞不明白的也不敢随便就跺章子。

    相关文章

      网友评论

        本文标题:做过大数据的肯定有同感

        本文链接:https://www.haomeiwen.com/subject/xycrxhtx.html