理念篇
首先给大家讲讲什么是数据。
有的朋友可能认为有了计算机才有数据,其实不然。简单而言,数据就是可以被我们进行定量分析的记录。大家可以看看左边这幅图,是四百多年前第谷·布拉赫记录下的行星与恒星在太阳系内运动的轨迹。当时开普勒做了十多年相同的工作,但弟谷始终舍不得将这最宝贵的数据给他,直到身患重病,才如同传衣钵般将数据传给了开普勒。基于这些数据,开普勒发现了今天的开普勒三大定律,从而衍生出了牛顿万有引力等一系列理论。虽然这个故事里并没有计算机,但核心,依然是数据。
这世界上最多的东西都是信息,窗外桃花开了,是信息;路上遇见一个漂亮姑娘,也是信息。当然,就像你不可能记录下遇见的所有漂亮姑娘一样,生活中绝大部分信息都流失了,只有很小一部分被记录下来,成为了数据。而数据经过我们的挖掘,就成为了知识。
举个例子,在淘宝上购物,会留下购买数据,通过研究这些数据,能知道不同群体的人喜欢购买什么样的东西。这些就是知识,但是并不代表价值。如果进一步的利用这些知识,设计一套精准的推荐系统,或者做一个面向精确群体的广告,这就产生了价值。这是一个金字塔的结构,从最底层的信息,到数据、知识,再到最顶层的价值。
对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解
想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家
并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。
那么什么是大数据呢?
2009年,在大数据这一概念并不是太火的时候,IBM就提出了大数据的四个特征:Volume(大量)+Velocity(高速)+Variety(多样)+Value(低价值密度)。大量产生的数据,需要进行高速的处理。同时,数据还多样化,除了结构化的数据外,还有诸如文本、语音、社交网络这样的非结构化数据。数据越来越多,总体价值越来越大,但单位数据的价值其实在下降,价值密度在缩小。
大数据不仅仅是种技术挑战和解决方案,还是一种能力和结果。它是当今社会独有的新型能力,以一种前所未有的方式,通过数据分析,取得有巨大价值的产品服务乃至商业生活范式。
我们现在已经站在大数据时代的门口,推动我们走到这一步的,有三大力量。
第一,数据总量的爆炸性增长。全世界数据总量已经达到了20ZB。在这样一个时代里,我们很多时候是迷失的。亚马逊销售的图书,连看一遍销售名单都很难,更别说精心的进行选择了。它带了第一个挑战:信息过载。普通人可获取的数据的爆炸性增长,与分辨甄别数据能力之间的矛盾。为了解决这个矛盾,出现了许多新型的商业模式,比如精准广告或推荐引擎。
第二,数据形态发生了巨大变化。之前接触的数据,基本都是可以通过Excel进行处理的结构性数据,但非结构化的数据飞速增长。到2018年,90%的新数据都是非结构化的,这些非结构化数据里蕴藏着巨大的价值。以手机为例,仅仅通过手机GPS记录,就能得出大量数据。比如大部分运动轨迹在大学宿舍和教学楼间,那可以推测你的身份是学生,银行如果知道了这些数据,在你去申请贷款或信用卡时,就可能给你较少的授信,因为学生的支付能力比较差。如果经常出没在高端商场酒店,就可能给你较高的授信。还可以推断你的职业,如果经常出现在某一机构部门,那很有可能就是这个机构的工作人员。
这样,小到个人隐私,大到国家机密,通过轨迹数据都能被掌握。诸如百度地图、高德地图、微博微信、王者荣耀这样的装机量巨大的app,在安装时都会向你要求定位权限,都能够掌握你的轨迹数据。这便是第二个比较大的变化,同时带来了一个挑战:如何在安全隐私可控的前提下挖掘非结构化数据的价值。
第三,数据的组织形式发生了巨大变化。以前的数据都是一个个的孤岛,淘宝知道我买过什么,微信知道我的社交关系是怎样的,但之间数据是不共享的。现在通过一些商业的行为,将数据库间打通,产生全新的价值。这便是我们面临的第三个挑战:如何进行跨领域数据结合,将1+1发挥出远大于2的价值。
如果有一天,我们真正进入了大数据时代,那至少有三大特征。
第一,数据的外部化。数据将流动起来,不止在产生它本身的地方发挥价值,还能在更多地方也产生作用。
第二,人工智能。我们要用人工智能机器的关键技术,比如数据挖掘和机器学习,得出简单分析不能得到的深刻洞见,再用来指导决策。
第三,价值。产生的大量数据,首先需要成本来存储分析,现在可能花100元成本才能产生不到30元的价值,当百元成本产生的价值达到两百甚至更多时,这时候才能说进入了一个大数据时代。
接下来给大家讲讲什么是人工智能。
以下是四个在人工智能发展史上有代表性的人物,除了第一个都得过图灵奖,而第一个正是图灵本人。图灵本人是名同性恋者,因为违反当时英国的反同性恋法律,1952年被判“严重猥亵罪”,职业生涯尽毁,1954年咬了口含氰化物的苹果自杀身亡。图灵的粉丝乔布斯为了纪念他,把自己的公司起名为苹果,并且以被咬了一口的苹果作为公司logo。如果你们是“果粉”的话,便是图灵的间接粉丝了。
图灵在1950年写了本书,详细解释了他如何理解人工智能。他认为,如果计算机和另外几个真人匿名与你交流,你无法将他们区分出来,那么就可以认为这计算机通过了图灵测试。在1956年的达特茅斯会议上,第一次提出了人工智能的概念,衡量实体在特定环境下反应和判断的能力。当然这个说法反对者也很多,比如香农就认为智能应该能够处理抽象的符号,马文·明斯基则认为人工智能应该让机器做本需要人的智能才能够做到的事情。
实践篇
那么,大数据和人工智能如何应用到社会的变革上呢?
在教育上主要分四个方面。
1、从定性化教育经验积累,到定量化教育引导和教育管理。通过收集学生相关的学习数据,让教育定量化,不再是通过经验拍脑袋。
2、从工业化课堂教育到个性化定制教育的转变。传统教育模式因为教师精力有限,只能大范围的普适化授课,通过大数据与人工智能技术的帮助,未来能够一对一的精准针对每一个学生制定教育计划。
3、从后置性应急管理到前置性预警引导。
4、从离线静态分析到自适应动态分析。
具体来讲讲如何从后置性应急管理到前置性预警引导。
以心理问题的预防管理为例,从2018年开始,00后的学生进入大学,我们在实际教学管理调查中发现,五千个00后新生里,居然有将近一百个学生有严重自杀倾向,比例达到了惊人的百分之二。不能等到真实的校园自杀事件发生后才去堵窟窿,这也堵不上了。而是要提前发现有心理问题的学生,给予正确的帮助和引导,找到学业成绩、综合素质、心理这三者间的关联。
基于此,我们在大学里做了件事,通过学生的社交状态来分析学生的心理状态。每个学生都有一卡通,里面记录了学生在学校里的生活状态,比如食堂刷卡、进出图书馆之类。关系比较亲密的同学之间,前后脚刷卡的可能性很大。我们做过个数据调查,两个陌生同学,一个月内前后脚刷卡的概率只有三百分之一,两次及以上概率十二万分之一,三次及以上三千万分之一。2017年,通过调查一卡通数据,找到了校园里八百多名“最孤独的人”,他们在一年半内没有一个亲密好友。而这八百多人里,有一百七十多人,在一年内做过心理方面的咨询或治疗。我们可以通过这种类型的分析,尽可能的发现学生中的潜在心理问题患者,并予以相应的帮助。
除了心理状态,我们还能用来预测学生的学业状态。学生行为规律性是否与成绩有关。
2015年,BBC有个纪录片,一个强调纪律的中国高中老师到英国去上课,教育方式却并不被欧洲人买单,西方式教育讲究探索,而中国式教育比较看重纪律。除了因为教育资源缺乏的无奈之外,我们这种教育方式,真的没有可取之处吗?
我们分析了学校里一些简单的数据。比如党员和非党员成绩差异,发现党员成绩要比非党员要好,原因何在呢?我们找到了成都除节假日外最冷的20天,我们发现在这些日子里,党员平均吃15次早餐,非党员只有8次。这说明党员比非党员对自我的要求更加严谨,这可能对成绩也造成了影响。
基于这个想法,我们做了一套系统,专门预测学生本学期的成绩,它主要包括三种数据。
第一种是学生的历史成绩,以前考得好,本学期多半也不会差。
第二种,我们称之为diligence,就是学生的努力程度。这个数据包含了学生进出图书馆的次数和呆的时间,借了多少书,这些书以什么题材为主,乃至你在教学楼里打过多少次水。这些数据可以很容易的通过教务系统或者一卡通收集到,通过数据,能够很清楚的发现一个学生花了多少时间在学习上。
我今天重点讲的是第三组数据,我称之为orderness,即一个学生生活规律性与学习成绩之间的关系。
我们通过一卡通数据,统计了学生在澡堂插卡拔卡的时间,这个数据本身很有趣,还可以看出学生经济状况。比如洗澡时,有的学生冲水时才插卡,抹沐浴露的时间拔卡,有的学生就一直放着水。电子科技大学的学生洗一次澡从不拔卡的比例略高于三分之一,而西南财大的学生从不拔卡的比例达到了百分之六十。很明显西南财大的学生比电子科大学生普遍经济条件要好。
各位可以看PPT中A、C这两张图,这是学生洗澡频率的数据。通过收集学生洗澡时刷一卡通的数据,得出水龙头出第一滴热水的时间,在一天24小时内的分布。我们根据这个分布计算出真实熵,来推断学生的生活是否是有规律的。
有了这些东西后,我们可以看A图。在分布的左边,熵比较小,生活有规律;分布的右边,熵比较大,生活没规律。我们在图的左边前5%中,选择任意一个生活有规律的人,C图中深蓝色就是他洗澡的时间分布,他主要在晚上9点洗澡。而在A图右边选一个生活没有规律的同学,洗澡时间反映在C图就是浅蓝色的部分。他一天24小时大部分时间都可能出现在澡堂里,他就是典型生活没有规律的人。通过这样一个简单的指标,我们就能区分一个学生的生活规律性。
类似的,我们来看B和D,其实就是学生在食堂用餐的时间分布。深红色代表的学生集中在8、12、17点左右在食堂刷卡用餐,这与学校日常学习时间高度相关。而浅红色代表的学生随时都可能在食堂刷卡进餐,很明显,他的生活没有规律。
大家可以在右边的图中看到,生活的规律性,和四年的GPA成绩是高度相关的。我们把历史考试成绩、努力程度、生活规律性这三组数据放在一起,便能很精确的预测学生本学期考试专业排名。我们利用这个做了个匿名系统,学生的行为触及到算法预警时,由后台自动发给学生的辅导员,发现了许多沉迷网吧甚至陷入传销组织的案例。
接下来,我们讲讲怎么用大数据做经济方面的分析。
首先是线上数据预测经济发展,一个城市信息化程度与经济发展间的关系。我们做了全国所有地级市GDP与互联网活跃成都关系图,横坐标是互联网发展水平,纵坐标是GDP总量。
当然,大部分城市互联网发展水平和GDP总量都是正相关的,但我们发现了一个有趣的现象,有几个城市,在同样的互联网发展水平下,GDP总量相对来说很高,为什么会出现这样的情况?A图里黑色的点代表这几个城市,分别是鄂尔多斯、崇左、来宾、中卫,这些城市都是高度资源依赖型的。这样的经济形式其实是很脆弱的,比如鄂尔多斯在2013年的时候,受到国际煤炭市场的影响,经济迅速衰落,产生了很严重的坏账。基于此,我们提出,如果一个城市在同等的经济体量下,经济形式单一且极易受国际大市场影响,那么进行经济发展规划时就需要加以注意了。这就是利用大数据预测经济发展一个典型的例子。
最后给大家举个例子,社会共治。
19大的时候,中央提出要建立智慧型社会,推动广泛意义下的社会共治。我们做了件很有趣的事。首先通过高德百度等渠道,拿到了上百万张成都的街景照片,从中选出了几千张,征集志愿者,每次随机出现两张街景图片,让志愿者从一个维度进行比较,维度分为卫生、绿化、基建、安全感等几个层面。我们现在以安全为例,一次两张随机图片进行对比,当达到一定数量时,我们就能在安全维度上进行排序,再映射到0~1空间中,就能给不同街景安全性进行打分。这时候就变成了一个非常典型的深度学习的问题,计算机可以通过卷积神经网络的某种变体,来学习为这些街景图片进行打分。
当机器学会如何打分后,便能够为全成都市的街景图片在各个维度上打分。我们能够知道城市的哪个部分基建程度较好,哪个部分需要进行治理,治理成果如何。这种分析不是人工的主观判断,而是机器学习做出的客观结论。
以上就是大数据与人工智能影响教育与社会的几个典型例子,这是一种全新的社会治理方式,它有三个核心要素:第一、全自动化;第二、规模化;第三、客观化。
最后,给大家提个两个建议。
在座诸位都是教育战线的一线工作者,我们都知道,教育战线和科研战线之间还是有着很大鸿沟。一个以大数据为原材料,人工智能为引擎的新科技时代的到来不可阻挡,它将影响你所能见到的每一个行业。比如四川一个知名酒厂,通过人工智能控制技术,能将生产效率提高两个百分点,这是个很了不起的数据,但如果将这个技术全面铺开的话,全厂几千人大部分会下岗。所以我给大家第一个建议:充分拥抱这个新时代,不要成为旧时代的关门人。
第二个建议,和冷冰冰的工业不同,教育是人与人间的交互,除了传播知识,还有人格的养成,这是很难被计算机所代替的。作为教育工作者,要思考如何在技术革命下充分发挥人文元素,保持一种冷静的兴奋。
送给大家我很喜欢的一部电影《机械师》里的台词:胜利,总是青睐有准备的头脑。希望各位通过不断的学习,尽最大的可能,做充分的准备,成为这个即将到来新时代的胜利者。谢谢大家。
对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解
想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家
并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。
网友评论