闲的无聊,总结一下自己的人生轨迹。也算是给即将离开的我,一个简单的交代,从大连出来快半年了,时间说长不长,说短不短。状态也从来时的好奇,变成了我靠,其实也就这屌样。不过事实上证明,长期出门在外,确实有差别,而且差别感觉比较大……
差别主要体现在如下几个方面,首先气候,4个月的时间,处于热的状态,但是现在已经开始转凉,感觉上还是蛮舒服的。但是相对于大连的夏天气来讲,感觉上还是比较遭罪的。其次,对于城市的氛围来讲,用几个字来形容,用纸醉金迷四个字来形容感觉上比较贴切,准不准确,我只说我的感觉。不管怎样,为生活去打拼的人,都是值得尊敬的,且不论在哪里,在哪座城市。比如,华为方面的刘工,总是保持着一种极高的热情,我有些服了┗┃・ ■ ・┃┛。毕竟人家身处华为,我自己几斤几两还是能找得准位置的。
说说,华为的外包,可能自己所在的项目组比较烂,但总体感觉,外包就是去卖人嘛,待久了项目不行,人废掉了,我跟陈桑学习了4个月的大数据分析,接触点新的东西。对于毕业一年的我来讲也没有什么坏处。像机器学习,这种以前听过,但确实不知道做什么的我来说,未必是件坏事。大数据这东西,说白了,就是个统计学的工具,炒的火热,终究是要冷下来的。具体的代码逻辑,都体现在特征的提取上了。
说说平台,数据分析平台,hadoop,spark,哈哈,高大上吗?事实上,就是搭环境比较麻烦点,尝试过(ΘˍΘ=),没搭起来。确实不想去搭,知道原理就可以了。
大数据架构,要解决3个问题,数据存储,资源调度,计算。数据存储,hadoop跟spark平台,用hdfs,还有metastore就是分布式数据库。资源调度,有相应的平台框架,叫Yarn,但不止这一个,计算,hadoop是mapReaduce,spark是对RDD,的具体操作。像这两种平台,基于分布式,所谓分布式,就是一群屌丝,去比高富帅。分布式 ,有一个master节点,这是主节点,剩下的就是store,从节点,master节点负责资源的分配。树形结构来形容最为贴切。spark平台,反正华为的刘工一直在鼓励使用,事实上确实有优势,spark SQL,spark stream, spark Mlib,spark Graphx。这几个模块,SQL用来提取特征,stream流式计算,Mlib 机器学习,Graph图论,关键关系,后两个是算法,具体实现在源码里,轮不到你写。用的时候,导包,调对象方法,哈哈(ಡωಡ)hiahiahia 。两种平台,都是统计学做数据分析用的。对了,大数据是描述到预测的过程,描述有多种方式,预测,用统计学的回归方程,就是y=kx+z,这是线性回归,还有非线性跟分段函数,保证你以前学过。像这种数据分析,用R语言跟Python要好些,感觉上。。。其实,比较屌的是这些工具怎么写的,而不是怎么去用,虽然用起来也一堆坑。。。
比较复杂的是业务逻辑,搞不清,懵的一逼(>﹏<),想将来有机会搞一搞实际的大数据项目,从前端到后台,没事自己也可以瞎写一下,比如预测一下自己未来某一天的心情状态,娱乐嘛。。。哈哈(ಡωಡ)hiahiahia
网友评论