美文网首页数据分析指北我爱编程
数据分析指北 - 前言(01)

数据分析指北 - 前言(01)

作者: HaveF | 来源:发表于2018-05-29 00:01 被阅读31次

    微信公众号:数据分析指北

    计划写一个数据分析的系列文章(业余时间较少,不知道会不会太监了),一方面对自己有个总结,另外一方面是觉得从开源社区学到了很多,想对社区有一定的回馈。目标阅读对象是那些对数据分析感兴趣的,且喜欢动手的人,但对于这些人仍然有一些基础要求:

    • 逻辑推理能力合格
    • 概率统计合格
    • SQL入门
    • Python,Pandas入门
    • Java入门(可选)
    • R入门(可选)
      如果觉得不敢打包票自己达到了以上要求,但对自己的钻研精神比较自信的话,也可以边看边学,当看到不懂的概念多次出现的时候,不要不懂装懂糊弄自己,去钻研一下就可以了。

    • 楔子

    • 数据所有者与数据

    • 数据科学家与数据工程师

    楔子

    今天是2018年5月20日。站在这儿,往后看,往前看,这里都是一个很奇妙的时间点。大数据概念在国内市场上炒的如火如荼,无数智能公司在崛起,大都在数据平台,图像,语音,多轮对话,异常检测,推荐那几个大类。有的公司技术比较厉害,而有的公司市场做的比较厉害……; 你的或你司的产品在功能介绍中如果没有大数据,智能,AI,或是机器人类似字眼,大概都不好意思和其他人打招呼;而有一部分人觉得,似乎没有什么新的东西出现;老派学者Tom Mitchell(机器学习祖师爷,卡内基梅隆大学计算机科学学院机器学习系主任)呐喊,不要乱炒作啊,深度学习的确是一项突破,但它不会代替机器学习中其他的符号方法;谷歌(Google)两周前发布 TPU 3.0 芯片,因为芯片太热,使用了液体冷却技术;多国科学家对研究人工智能武器说不;某国防火墙技术出口伊朗;OpenAI刚刚提出目标一致性概念目的是让超越人类的AI不构成威胁……

    狄更斯《双城记》第一章中这一段被人一再提起,主要原因在于,在任何一个时代,描述任何一项事情,都能够翻译它们成对应的含义:

    这是最好的时代,这是最坏的时代,
    这是智慧的时代,这是愚蠢的时代;
    这是信仰的时期,这是怀疑的时期;
    这是光明的季节,这是黑暗的季节;
    这是希望之春,这是失望之冬;
    人们面前有着各样事物,人们面前一无所有;
    人们正在直登天堂;人们正在直下地狱。

    Photo by Valentin on Unsplash

    数据所有者与数据

    既然是数据分析指北,就先谈谈数据(The Bread and Butter),而在数据这个话题中,要先谈和数据有关的所有者(个人,企事业单位,机关,社会团队等)。

    对于数据所有者,从数据质量上大致上分为三类,走在前面的数据所有者,已经准备好了清洗干净的数据待分析;走在中间的数据所有者,维护自己的业务数据库之外,想做其他事情,但却不知从何下手;而走在后面的数据所有者,因为条件所限,在信息建设方面还有不少问题,数据可能部分存在于数据库中,部分存在于各种各样的文件中。

    Photo by Rick Mason on Unsplash

    但在实际情况中,第一类数据已经准备好了、清洗干净了的数据所有者并不存在。

    这是由数据分析本身固有的灵活性和复杂性所决定的。对于不同的业务要求(对应不同的数学模型),所谓清洗干净的数据大概也不是完全符合要求的,或多或少还要进行一些加工(特征工程),需要一定的整理(归一化等),才能最终送入数学模型。据统计,数据分析大概有百分之八九十的时间在整理数据

    ETL,是英文Extract-Transform-Load的缩写,就是用来描述将数据从来源端经过抽取(Extract)、交互转换(Transform)、加载(Load)至目的端的过程,可以理解为上述整理数据的一种流程。近些年,随着数据越来越复杂,越来越多样化,这个过程可能变为,抽取(Extract)、交互转换(Transform),再抽取(Extract)、再交互转换(Transform),再抽取(Extract)、再加载(Load)类似这样非常灵活的过程时,原始ETL概念中描述三个步骤也就显的有点太粗糙,所以现在人们一般都称数据流动的这个过程为data pipeline,按照前文概念,整理数据这个过程就是在构建一个data pipeline的过程。

    数据科学家与数据工程师

    也许是因为数据科学(data science)这个词,从事这门职业的自然而然就成为“数据科学家”了。但实际上根据上面所提到的,数据分析这项工作大概有百分之八九十是在做整理数据的工作,而只有一小部分时间是用来做数据分析的工作,所以我更倾向于把“数据科学家”、“数据分析师”统一称为“数据工程师”(当然在一些细分的职位里面,“数据科学家”主要负责构建模型,提升模型的性能等工作,“数据分析师”主要负责查询,处理报表等工作,“数据工程师”则更倾向于运营方面)。

    另外一个让我更倾向于统一称为数据工程师的原因是,对于具体的一项数据分析任务来说,只有了解了数据从哪来、还可能有什么数据可以利用、数据获取的容易程度、要加工成什么样、怎么送进模型、怎么模型调优,了解整个数据相关的技能(全栈),才可以做好数据方面的工作,而“工程师”这个词,也隐含了个人对要自己亲自动手(get your hands dirty,而不是只动嘴)这一工程师文化的崇尚与尊敬。

    Photo by Igor Ovsyannykov on Unsplash

    EOF

    建议或赞赏?

    相关文章

      网友评论

      • 数据会说话:楼主 入行数据分析多久了? 希望可以更多机会交流分享。
        HaveF:有些年头了。欢迎关注公众号:smile:

      本文标题:数据分析指北 - 前言(01)

      本文链接:https://www.haomeiwen.com/subject/ysanjftx.html