给大数据入行者的,建议和书单

作者: 橘色对白 | 来源:发表于2017-03-01 10:19 被阅读693次

    入行必读:与大数据相关的工作职位有哪些?

    国内某知名互联网公司,有关数据分析师岗位的,要求描述:

    1. 计算机、统计学、数学等相关专业本科及以上学历;

    2. 具有深厚的统计学、数据挖掘知识,熟悉数据仓库和数据挖掘的相关技术,能够熟练地使用SQL;

    3. 三年以上具有海量数据挖掘、分析相关项目实施的工作经验,参与过较完整的数据采集、整理、分析和建模工作;

    4. 对商业和业务逻辑敏感,熟悉传统行业数据挖掘背景、了解市场特点及用户需求,有互联网相关行业背景,有网站用户行为研究和文本挖掘经验尤佳;

    5. 具备良好的逻辑分析能力、组织沟通能力和团队精神;

    6. 富有创新精神,充满激情,乐于接受挑战

    其中,前三条属硬件要求。一般而言,对于有专业基础(计算机、统计学、数学等相关专业)的同学,入行需要3个月以上的学习与准备时间;而对于非专业背景的转行者来说,入行可能需要更久一点,建议6-12个月的预留时间是合理的。而要成为一个熟练的大数据从业者,2-3年以上的项目和行业经验则是在所难免。

    数据分析是一种工具,在金融、互联网、电子商务、公共服务、医疗健康等领域都有着广泛的应用。职位上,偏业务的,有数据分析师、数据产品经理、数据挖掘师等;偏技术的,有大数据工程师、架构师、算法工程师等。晋升通道,是业务主管/数据中心主任、CIO/CDO/CTO、VP、首席数据科学家。可见,数据分析对专业背景和知识素养都有相当的要求,再加之大数据在数学和计算机领域的交叉属性,从事大数据都有一定的门槛限制。

    要不要转行?

    要不要转行,实际上涉及到职业规划的问题。对此,曾有位哲人发表见解,”最重要的人际关系,是自己与自己的关系,知道自己要什么,不要什么“。这在转行问题上,也是一样。相对于10年以上的职业生涯,拿半年时间用来学习该项技能,还是挺划算的。

    读到这儿,可能有人会说了,转行会让之前几年的经验积累统统作废。而实际上,小编认为不必过于担心,因为无论转到哪一行,社会经验和人生理念是都会发挥作用的。而之前的人际关系也类似“山不转水转”的问题,很难界定说哪类人际关系有用,哪类无用——基于这个道理,应全部视作有用。

    人生的机会并不多,即使到了30岁,对大多数人来说,这也只是职业生涯的前半部分,完全不必缩头缩脑患得患失。要知道,不怕失去,才有可能收获更多。如果有了明确的发展规划,何不义无反顾地投入到新的开始呢?!

    如何转行?

    明确了要不要转行之后,就又回到如何转行的问题上来了。

    如果你尚未毕业,建议先打好基础,学好概率与数理统计、数值分析、多元分析、泛函分析、软件工程等,可以选修软件工程、数据库原理、一到两门编程语言; 同时掌握分析工具(如spss/R/matlab)原理;有时间的话,可以参加一些数据建模方面的大赛,对自己能力提升和职业生涯会很有帮助。

    如果,你已经是一个从业者。要想跨入数据分析师,也许很多情况下你只能从“工人”做起(这意味着在很大长一段时间内,你的工作内容都可能比较枯燥,做的也都是没有“技术”含量的内容),但当你慢慢成为“熟练工”时,随着行业知识和技能的积累,你也会走上“数据设计师”之路。开始从事“高大上”或更有技术含量的工作。

    一、至少花三个月掌握技术

    正所谓“磨刀不误砍柴工”,作为一个技术工种 ,至少花3-6个月的时间学习大数据分析相关基础知识,是不过分的。时间分配如下:

    1、花1个月时间,学习数据库、sql知识,推荐《 深入浅出 SQL(中文版)》;

    2、花1-2个月时间,学习基础的统计学知识,搜集统计学学习资料,列个统计学书单;

    3、花1个月时间,学习最基础的数据挖掘模型, 推荐《数据挖掘导论( PDF 中文完整版)》;

    4、花1个月时间,掌握一门基础的挖掘软件。

    基础夯实之后,还要保持持续的学习能力。坚持学习各类知识,不仅限于技能层面。

    二、选择感兴趣的行业

    如果,你还没毕业。

    可以在结合热门行业的基础上,分析自己的兴趣。选定一个行业后,可以通过互联网,熟悉所行业对应的商业模式。有机会,也可以参加一些同行的沙龙或分享,以了解该岗位的人都在做什么 。并对比自己当前的知识储备,有针对性地补充知识。

    如果,你已是从业者。

    选择本行业或相关行业,会让你的行业经验和业务知识,更好地发挥优势。

    三、开始寻找机会

    对于跨行业转入的同学,当你做好上述准备的时候。就可以着手找个机会了:

    1、内部转岗

    2、选择中、小型公司,先入门,再修行。

    几点建议

    1)勤动手,多实践:

    看书和看视频是学不会数据分析的。多参加一些项目,撸起袖子玩数据(make your hands dirty)。通过校内大赛增加实践机会,入行时候找一份能接触到数据的岗位(任何岗位都可以,市场、运营之类的职位很多)。

    工具先从一个容易上手的学起,excel/spss/sql都可以,顺手就行,后续可以再学高级工具如R或者python,用到专精同样有杀伤力。

    2)终身学习:

    前面已经讲过了,即便用一段时间掌握了大数据分析相关基础知识,也还是要在之后的从业生涯里,保持持续的学习力。

    因为,大数据是一个实践性很强的学科,从实际工作中获取的知识和能力是学校里无法获得的,企业最终看重的,也是一个人的实际工作能力。你可以在学习社区通过分享和交流,补充课外知识和get新技能。

    推荐的书籍

    1.《统计学习基础 数据挖掘、推理与预测》

    尽管应用的是统计学方法,但强调的是概念,而不是数学。《统计学习基础:数据挖掘、推理与预测》内容广泛,从有指导的学习(预测),到无指导的学习;从神经网络、支持向量机,到分类树、提升等主题,应有尽有,许多例子还附以彩图,是同类书籍中介绍最全面的。计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战,这导致了统计学领域新工具的发展,并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。

    2.《模式分类》第二版

    除了保留了第1版的关于统计模式识别和结构模式识别的主要内容以外,读者将会发现新增了许多近25年来的新理论和新方法,其中包括神经网络、机器学习、数据挖掘、进化计算、不变量理论、隐马尔可夫模型、统计学习理论和支持向量机等。

    3.《推荐系统实践》

    过大量代码和图表全面系统地阐述了和推荐系统有关的理论基础,介绍了评价推荐系统优劣的各种标准(比如覆盖率、满意度)和方法(比如AB测试),总结了当今互联网领域中各种和推荐有关的产品和服务。

    4.《深入搜索引擎–海量信息的压缩、索引和查询》

    理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。

    5.《概率论与数理统计》

    这本书不用过多介绍了吧,普遍大学里大一时期的教科书,只恨当年没听课啊,现在正在慢慢啃。

    6.《大数据:互联网大规模数据挖掘与分布式处理》

    主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。

    7.《Web数据挖掘》

    信息检索领域的书籍,该书深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础(包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制),然后系统地描述了Web挖掘的基础知识,着重介绍基于超文本的机器学习和数据挖掘方法,如聚类、协同过滤、监督学习、半监督学习,最后讲述了这些基本原理在Web挖掘中的应用。《Web数据挖掘》为读者提供了坚实的技术背景和最新的知识。

    8.《数据之巅》

    对大数据追根溯源,提出当前信息技术的发展,已经让中国获得了后发优势,中国要在大数据时代的全球竞争中胜出,必须把大数据从科技符号提升成为文化符号,在全社会倡导数据文化。

    9.《深入浅出统计学》

    本书涵盖的知识点包括:信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等,完整涵盖AP考试范围。

    10.《矩阵分析》

    本书从数学分析的角度论述矩阵分析的经典方法和现代方法,取材新,有一定的深度,并给出在多元微积分、复分析、微分方程、量优化、逼近理论中的许多重要应用。主要内容包括:特征值、特征向量和相似性,酉等价和正规矩阵,标准形,Hermite矩阵和对称矩阵,向量范数和矩阵范数,特征值和估计和扰动,正定矩阵,非负矩阵。

    11.《统计学习方法》

    本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。

    12.《机器学习导论》

    对机器学习的定义和应用实例进行了介绍,涵盖了监督学习。贝叶斯决策理论。参数方法、多元方法、维度归约、聚类、非参数方法、决策树。线性判别式、多层感知器,局部模型、隐马尔可夫模型。分类算法评估和比较,组合多学习器以及增强学习等。

    《机器学习及其应用》:全书共分14章,内容涉及因果推断、流形学习与降维、迁移学习、类别不平衡学习、演化聚类、多标记学习、排序学习、半监督学习等技术和协同过滤、社区推荐、机器翻译等应用,以及互联网应用对机

    相关文章

      网友评论

      • MsterKerrigan:企业里面大多数不是用的Oracle么?
        橘色对白:小编目前所在的公司,其实一些主流的东西都在用,视具体的产品线会有所区分。
      • 71739aed572c:书单能不能详细点?作者版本什么的
      • 向往普雅:毕业不久,专业不对口。有兴趣,想转大数据,有什么规划建议。想利用工作之余学习,文章里的书要是都学完那估计得一年多😢
        橘色对白:有篇相同主题的文章,可以配合一读《普通程序猿,如何转型大数据相关方向?》可以配合一读,在过往推送目录里。其实,最为关键的,还是向着目标的执行能力,因为读一篇文章很容易,掌握一本C++专业书籍可能更加耗费精力。语言,Python较为简便,可以作为一个突破口,然后计算机相关基本功(如计算机组成原理、数据结构、等等)也是要掌握的。
      • 894d2a481f42:今年33岁,怎么还没开始就感觉已经被淘汰了
        橘色对白:人无远虑,必有近忧~ 但逝者如斯,来者犹可追~ 共勉!

      本文标题:给大数据入行者的,建议和书单

      本文链接:https://www.haomeiwen.com/subject/mbrqgttx.html