中午休息时间,花了10多分钟,把困扰同事很多天的数据处理完成了,助人为乐,心情无比的舒畅。
同事要处理的是某几个区县的专题调查数据集,数据量有10多个G,她想要通过数据转换,把属性表转换为excel表格后,开展一系列运算,筛选出存在问题的数据。
先后使用了多种专业GIS软件,空间数据转换软件,无一例外,经过漫长的等待之后都是卡崩溃,面临着无法解决的崩溃问题,又要到提交数据的节点了,一下慌了神。
惊慌失措之后,她找到了我,麻烦我把数据转换成excel格式,经过我专业的处理,她如愿拿到了excel格式的数据,高兴的回去处理去了。
不曾想,10多分钟后,她又返回了,说excel数据表打开很慢,而且会弹出警告框,根本没法运算,问我怎么处理。
看了下数据量,excel表格大小超过了2Gb,第一个念头是行数超限了,查询了表行数,230多万行,确实是超过了excel单表的限制。
想要通过excel表格的方式运算获得想要的结果显然是可不能了,详细问了需求之后,采用sqlite db数据库的方式,利用Python写个简单的脚本处理程序,5分钟后让她拿到了满意的结果。
这番神操作,直接将同事震惊了,困扰很多天的难题,到我这里10多分钟解决了。
为什么她会困扰很多天?
猜想下来,无非是她一直在想着通过excel进行数据运算这条路开展工作,甚至在第一次向我求助的时候,还是想让我帮助她把数据转换成excel。
通过excel做数据运算限制了她的思维,没有去再有更多的一种解决问题的思路。
而我能够根据以往Python分析处理的经验,采用pandas库解决大数量的运算,230多万行数据量,在Python角度看来,完全是小儿科,处理数千万行、上亿的数据也是很轻松。
为什么我会有多的一种解决问题想法,而她只能把自己局限在excel里面,其实她也是有Python数据处理专业背景的,虽然稍微弱点。
一方面是她Python数据处理分析的经历稍微少了点,更深层次的原因,和她长期从事的工作性质有关,一直做数据建库工作,从来都是严格执行技术标准,大到数据表的名称,小到某个字段的长度,完全与技术标准一致,逐渐养成了线性思维,缺少发散或者逆向思维。
乔布斯当年就是多了一种想法,把手机的键盘干掉,开启了手机界的一场革命,直接把曾经的王者诺基亚推翻了,苹果手机及其追随者,风靡世界,还记得当年乔布斯,发布会上演示用两个手指缩放照片的场景,带给世界的震撼,不亚于当年哥伦布发现了新大陆。
马斯克更是一个超级狂想王者,而且他的很多狂想,都已经变成了现实,特斯拉电动车、猎鹰火箭、星链计划.......,这些都已经或者将会深深地影响人类文明的发展。
为什么信息时代,很多革命性的创意都来自美国,包括最近火出圈的ChatGPT,其中最大原因应该是教育模式,据了解,美国的教育是小组讨论式的,对于提交的作业也没有那么多条条框框,拿我本专业来讲,美国是没有地形图图式这种技术标准的,可以凭借想象把地图画成想要的样子。
多一种想法,不是说疯狂的妄想,不能把没有任何基础和可行性的想象,当作是多一种想法的创意。
世界上多数人,能够在遇到事物时,都能够多一种想法,其中能够10%的人将多的想法付诸于行动,相信,面临日益严峻的资源环境问题,未来人类的命运将掌握在自己手中,即使某一天太阳突变成了超红巨星。
网友评论