mark一下我的大数据5周的课终于快上完了,还差最后的一部分Handon,要不是昨天的进度耽误,还真是能够3天完成啊。本来是找的KNIME的实践课的,但是发现KNIME的操作实在太少,大部分都是关于理论的学习,不过也好,也算是大的串讲,明天要开始着手处理我的大数据,心里好慌,还有数据要清洗。
总的而言讲大数据,会降到如何准备数据,清理数据,分析数据,模型验证什么的。这次关于模型的再深化还是对我有益的,第二次听这些内容,勾起了第一遍的回忆,当然因为讲的老师不同,也让我收获了一些新的东西。比如关系分析,Association Analysis,之前的课程中就没哟讲到,就无法理解如何来算的大数据经典案例,啤酒和尿布如何被拉出关系来的。还是觉得很神奇,不过细细分析,还真是挺科学的。
知识的梳理也包括,之前对分类和汇聚的认识的不足,总是搞混,现在终于深刻的意识到了不同。分类的话就是你知道标签是什么,知道几个篮子是什么,就是把菜归类的不同的篮子里去。而汇聚的话,其实你跟不不知道你的篮子什么样子,只能通过数据来分析出来。分类比较经典的算法有KNN,朴素贝叶斯和决策树。而汇聚的话主要Kmeans算法。
不过这个课讲回归的东西实在太少了,只有一个线性回归,而且是一元的线性回归,多元的都没有提到,更没有提到逻辑回归。所以还是要多交叉的听听不同的大数据的课,这样会比较好的理解大数据和机器学习的部分。
网友评论