一个文科数据挖掘者的成长道路

作者: 古洞洞 | 来源:发表于2017-04-06 17:18 被阅读328次

    最热爱和擅长的领域:数据挖掘。

    一、接触数据科学

    我接触数据科学是在上了研究生以后,我的导师研究方向为互联网数据挖掘、注意力流动和计算传播学,从王老师的口中我第一次听到了“Data Science”这个现如今最“Sexy”词、第一次知道了蟒蛇“Python”原来还是一门编程语言、第一次了解到原来国际上社会科学研究早已不再只是掉书袋啃理论了,原来“计算”不再局限于数学、物理自然科学领域了,社会科学已经在向“计算社会科学”蓬勃发展,传播学也在通过研究人类行为轨迹数据向“计算传播学”演进,这一切强烈冲击了我刚建构好的以“5w”传播理论为基础的知识结构、学科认知,让我真切的体会到了互联网技术对当今学科架构、学术研究产生的巨大冲击。

    原来数据,不再只是我以为的商场流水、财务税收、人口统计调查数据,你的微博、微信社交记录是数据,它能研究舆论演化、社交关系网、信息扩散、注意力的流动;你的通话记录、联系人记录也是数据,他能研究人的移动轨迹、社交关系、证明小世界网络;就连论文引用网络都可以被用来验证复杂网络中的基本概念“幂律”……这一切的一切对于我来说简直太酷了!学术研究原来还可以这么去做,数据中原来隐藏着如此巨大的能量,能够发现数据中隐藏信息的那些人顿时成了我最膜拜的偶像!

    从此我立志跟随老板踏上编程的不归路!

    二、Python进阶之路

    要想舍身嫁入数据科学的门不得不有的基本条件就是要有基本的编程能力,这是数据“矿工”们挖掘数据的必不可少的“铲子”,我的这把“铲子”选择了Python。Python作为2010年度编程语言、当今最受欢迎的编程语言之一,在我看来是最适合于数据挖掘、数据分析的敲门工具.

    首先,它简单易上手。基本上在你清楚了它的基本数据类型后,如列表(list)、元组(tuple)、字典(dict)、集合(set)、布尔类型后,你就算入门可以进行简单编程工作了。

    其次,它有众多第三方包(Package)。Python是一门开源语言,因此它背后有一个强大的社区做支持,这个社区中的码农们为Python贡献着各种功效的模块,基本上你日常需要的需求都可以通过各种各样的包来解决,你所需要做的知识import这个包,然后使用它来达到目标。这也是我选择Python而不是R的最主要原因,R虽然也是开源有第三方包,但是远没有Python应用广社区繁荣,而且R的各种功能均可以通过Python中的第三方R包来实现。

    当然,由于自己的文科背景,即使是Python学习起来其过程也很是艰辛。但是在被打击、碰壁了无数次后我终于找到了我认为最适合初学者入门数据领域的方法——实战,只有通过不断处理数据,在解决问题中学习才是最快速的捷径。这时就要感谢并且强烈推荐Kaggle、Stackoverflow两个网站了。Kaggle是一个数据科学竞赛网站,里面提供了许多竞赛选题和数据,并且可以看到其他选手的处理方案,而Stackoverflow更是神一样的IT问答社区,你在里面几乎可以找到任何你所期待的答案。我的Python水平也就是在这样的不断数据处理过程中一步一步成长起来的。

    三、技术成长

    1.统计

    统计知识也是数据分析中必不可少的能力,有时一个简单的线性回归、多远回归就可以将数据变量关系讲清;

    2.算法

    数据挖掘、分析中,我认为算法是我在探索数据特征、变量之间关系的强有力的帮手。如我在进行文本挖掘时,最常用的就是TF-IDF算法来计算文本中各词的重要性权重,还有对文本分类用到的聚类、构建主题模型等,都让文本的特征更加清晰的展现了出来。此外,Hits、PageRank等搜索引擎常用的算法也被问用在了计算公众人物影响力计算上,但是,不得不承认,算法目前仍是我的一个短板,我的算法知识积累仍然有限。

    3.编程

    除了Python我还学习了R语言作为辅助,另外,还学习了Linux,现在在熟悉Linux环境,日后方便通过脚本在Linux服务器上直接进行数据处理。

    四、参与项目

    我研究生期间一直是实验室的学生研究员,虽然日常也在处理各种Twitter、微博、电信数据,但是那些都是以做研究发论文为目的,16年我开始参与与第三方的项目合作,期间参加了与腾讯公益合作,分析了影响众筹的各种因素,并发表论文;随后又参与了与百度阅读的合作,分析了移动端用户阅读习惯和偏好以及注意力流动规律,并撰写了数据分析报告。每一次的项目经验都让我对数据挖掘、分析有新的认识,每一次的实践也都在不断提升着我的“数据感”,这一点是我认为在项目经验中最有价值的收获。

    五、未来规划

    目前我认为我只能算是入门数据科学领域,虽然具备了独立处理数据的能力,但是知识结构还很单薄,因此,接下来我希望熟悉下用Python操作数据库(MySQL),深入机器学习、深度学习方法,努力完善自己作为数据工程师的知识架构。

    相关文章

      网友评论

      本文标题:一个文科数据挖掘者的成长道路

      本文链接:https://www.haomeiwen.com/subject/kqpqattx.html