做过大数据的肯定有同感

作者: 叫我老村长 | 来源:发表于2020-02-04 11:32 被阅读0次

数据清理,或者叫清洗。真正做两个项目就会知道,实际应用的系统里面,各种数据错误,数据丢失,格式定义不匹配,系统不兼容什么的太多太常见了。基本上各种公开课也好,标榜实战的收费课也好,都没几个管用的,因为随便一个行业或者公司就是一摊与众不同的烂摊子,跳一个坑下次换个课题又是一堆不一样的坑。尼玛一大半时间都是想办法把数据整合起来弄成标准格式可以送进训练模型。格式转换就费老鼻子劲了,很多传统行业为了节省存储数据都是编码存储的。没错现在硬盘是白菜价了,Hadoop这种三倍冗余的也敢大行其道了,但是稍微有点年头的公司都是从主机开始数码化业务的,好多数据都是数字编码再配一个单独的数据词典来解释,甚至有的还是二进制编码的,然后为了向后兼容就一直沿用了下来。要抽取几个特征或者搞点特征工程,翻数据词典都翻到能背了。再一个就是模型评估和解释,绝大多数管理层技术水平是很低的,如果直接丢个黑箱解决办法多半是不会被接受的,一定要讲他明白了才肯用,这点在金融行业特别明显,部分原因也是监管要求大家都怕背锅所以自己搞不明白的也不敢随便就跺章子。

相关文章

  • 做过大数据的肯定有同感

    数据清理,或者叫清洗。真正做两个项目就会知道,实际应用的系统里面,各种数据错误,数据丢失,格式定义不匹配,系统不兼...

  • 情人节(二)

    2019年的情人节如期而至,一大清早,往常肯赖床的我早早起床做好饭,连晨练都做结束了。肯定有人...

  • K8-10/15-《大数据时代》-蝈蝈

    大数据价值链的三大构成 1、基于数据本身的公司。 这些公司拥有大量数据或者至少可以收集到大量数据,却不一定有从数据...

  • 红海or蓝海?声名鹊起的“大数据”到底是如何辅助决策的?

    如今,小到街边商家,大到宏观国家政策,都在讲大数据。不过,真正搞清楚什么是大数据的人肯并不多。其实,大数据故名思议...

  • 只要付出一定有收获

    只要你肯付出一定有收获。 我们只要肯付出努力,一定能得到你想要的回报。 每天的努力,每天的付出,每天的坚持,会看到...

  • 如何保证消息的顺序性

    大数据团队以前做过一个 mysql binlog 同步的系统,压力非常大,日同步数据要上亿,数据从一个 mysql...

  • 每天多吃1000大卡,多久会胖?

    连续每天多吃1000大卡,会发生什么? 为了知道连续多吃会不会发胖,澳洲的亚迪肯大学做过一个实验。 他们找到了8个...

  • 盘点那些在大学做过的兼职,一定有你做过的

    在大学,总是有风风火火去做兼职的人,大学的兼职五花八门,你都做过什么兼职呢? 本人就是一个大学立志图强经济独立的孩...

  • 努力才会成功

    在生活中,每一位成功人士的背后,肯定有着他们非常努力上进的故事。所以,老师总是教导我们,只要我们肯学习,肯努力...

  • 同感同感

    生活里, 不如意的事常有, 看不惯的人常见,如果拥有一个好心态,就不会被这些困扰。好的心态,取决于心的容量。心宽大...

网友评论

    本文标题:做过大数据的肯定有同感

    本文链接:https://www.haomeiwen.com/subject/xycrxhtx.html