前情提要:
2018年的某一天,一个时不时联系一下的妹子突然微信上发消息说她要准备考研,打算考师范类的院校,想要问我一些意见。
我心想,嗯哼?我也不太清楚师范类的学校呀,就准备打打太极,随便扯两句应付了了事。然而,我一句话还没说完,妹子说,别说话,我整理一下资料,一会发给你。
emmmm,突然觉得此事并不简单,等了一会,发现妹子好像似乎并不是很介意我等,没有再理我了,于是我下意识的开了一把LOL。
……(40多分钟过后)
突然微信上多了好多信息。一看,妹子发来了一个数据表,大概是长这样:
感情是手写的,怪不得这么长时间才发过来……看着这密密麻麻的字迹,我突然有一种脑袋被驴踢了之后才会有的冲动。没错,我花了很长时间把这个东西又誊写了一遍还顺便帮妹子改了一两个错别字(手动微笑)。
然后我又习惯性的看了一下手机,发现妹子说,这个事情也不急,你好好想想。
嗯,既然如此的话,那就……
……(又是40分钟过后)
时间不早了,差不多可以休息了,唉?刚刚好像有人找我干啥诶,不管了,明天再说吧。
五天后……
又是风和日丽的一天,今天的砖头格外的烫手,妹子发来消息说,那个东西考虑的怎么样了?
嗯哼?什么东西考虑的怎么样了?我翻开和妹子的聊天记录,突然好像想起了什么……
鉴于很不好意思随便应付(请忽略我之前想打太极的想法:))又很不好意思暴露自己其实这几天什么都没做,我给妹子说,你别急哈,我现在在准备一个非常庞大而精细的数学模型,到时候一定会给你一个满意的答复的。(星星眼)
然后就是一些嗯嗯啊啊之类的客套话(嗯嗯啊啊是什么鬼……),看起来妹子不但没有对我的消极怠工表示介意,而且还被我忽悠的一愣一愣的。(星星眼X2)
于是我开始准备好好的、认真的,考虑一下这个问题。以往大家都是直接推荐某一个学校的,虽然也都是有理有据的,但是对于不同学校之间推荐程度,只能说这个比那个好,却说不出个好多少。我看了一下妹子给的资料,写的学校数量还是蛮多的,对于这种搞排名的事情我其实是特别烦的。于是……
如此这般过了几天(没错我又消极怠工了)。终于有一天我良心发现,在没有妹子的提醒下开始干正事。
但鉴于那天我手头没有带笔记本,也没能看到妹子发给我的资料,我只能做些脑力运动,便大概想了一下这个问题:究竟是什么影响到了考生去选择考研的学校呢?
前方正文预警:
依据我个人的经验,我最后想到了两点:第一点就是这个学校的含金量,考研无非就是为了进入这个学校,而进入这个学校无非就是为了拿个毕业证,那么这个毕业证的含金量必然是影响考生决策一个重要的因素。
如果只考虑这一点,那所有的考生唯一需要思考的大概是这样一个问题了↓。
所以,之所以有各种各样的选择,还跟一个因素有关系,这个因素就是难度。
所以,在简化情况下,我们有理由相信,性价比和难度的综合作用最终决定了考生的决策。
那么,问题就变成了,如何对不同学校的性价比(x)和难度(y)进行量化并最终生成推荐指数(δ)。
嗯,也就是成功的,把一个问题转化成了三个问题……
为了不像无头苍蝇似的乱转,我去了一趟实验室拿了一波自己的笔记本(上面有之前抄妹子数据的手稿),然后开始了认真的(严肃的)研究。
看了几遍之后,我得出如下的结论:
1. 妹子针对各个院校找的资料是随心随欲的;(这一点从后面的数据表格中可以看出)
2. 妹子挑选了一些她认为的比较重要的指标比如某些高校某几年的录取人数这些,这种行为透漏出了更多的信息。
我们先从第二点开始谈,通过观察,可以跟性价比拉上钩的指标只有一个,那就是院校排名。除此之外,剩下的指标,多多少少都和难度有关或者反映了难度,那么,一个最基本的结论在我的脑海中形成了。
从而解决了上述的第三个问题,即如何考量性价比和难度对最后推荐结果的贡献。客观的讲,妹子考虑更多和难度有关的指标,表明潜意识里她想要做的是一个保守的选择。也就是说,难度对最后推荐结果的贡献要更大一些,我开始有了最基本的想法,即将性价比和难度都定义成100分,而性价比和难度最后的加权和决定推荐分,其中,难度的权值显然要更大一些,而且这个权值要跟妹子提供的指标的种类挂钩。(后面给出了具体的公式)
这么一来,第三个问题就解决了。接下来就剩下两个问题了。(头发-1)
性价比似乎更容易解决,因为院校排名决定性价比似乎是一种很有说服力的说法,由于妹子给的师范院校的排名是在全部种类的院校中摘取出来的。这就意味着两个排名相差很大的学校在师范专业上实力相差并不一定很大,于是对其排名做了离散化处理,并采用了最简单的办法:由高到低分数依次递减。
这样一来,三个问题就剩下最后一个问题了,即难度如何考量。(头发-2)
说实话,难度其实是一个比较复杂的概念,受到的影响因素也比较多,为了显得比较科学一点,我考虑了考研的整个周期中考生和院校之间的博弈过程。
考虑难度的五个维度:
从考生方面讲:报考人数多的院校意味着竞争更加的激烈。(c)
从考试方面讲:上线人数/报考总人数反映了考试难度。(e)
从院校方面讲:录取总人数/报考总人数反映了入学难度。(o)
从形式方面讲:复试花样多、复试占比越重反映了排外程度。(r)(之所以这么说是假设报考的考生都是来自于水平不行的院校)
从分数方面讲:被录考生的平均分反映了考生报考该院校所要花费的努力程度。(h)
然后假设这五个方面对难度的影响程度相同,即:
c、e…、h这些维度都取0~100之间的值。
那么y自然而然的就是0~100之间的值。
然后对数据根据上面的分析做一下分类,整理成一张更加有针对性的表格:
(2018年数据) (2017年数据) (2016年数据) (2015年数据)看着这么多的数据空白,我真是欲哭无泪,妹子你查资料查着查着睡着了吧……
于是,接下来的任务就是:表格中有很多缺省值,需要想办法补齐。
通过观察,我发现2018年的数据是最全的,其他年的数据就有点那个了。如果假设难度随时间不会有太大的变化,那么就得想办法通过其他年份的数据估计出2018年的数据,然后用较为完整的2018年的数据计算难度。
在报考人数方面,福建有三年的数据,唯独没有2018年,其数据随年份变化分别为31、55、89,江西有四年的数据,分别为0、6、24、31,显然报考人数是逐年增加的,考虑到我国的政策,假设报考人数逐年递增这种趋势还是比较合理的。
通过观察认为增长率是逐年下降的,假设福建的报考人数有一个线性的增长率,即估计出福建2018年的增长率为32.76%。
根据这个估计的增长率算出福建2018年报考人数的数值为132人。(凭空造数成功)
其实如果大家仔细看表格的话,可以这么处理的也就只有福建这一个了,其他的几乎都没有相关的数据。
比如浙江就没有,那怎么办呢。我灵机一动,如果假设人口越多,当年毕业的大学生就越多,呢可以认为这二者是简单的线性关系。
于是我上中华人民共和国统计网查到了2015年人口普查的部分数据。得到相关省的人口数据分别为3085(福建)、5078(浙江)、2262(天津)、3985(安徽)、3052(江西)、8507(江苏)、2493(重庆)、2716(吉林)。单位都略去了。
看了一下已知的两组数据,天津的数据有点怪,江西可能是新设的专业,数据也不可信,看起来都不怎么样,只好用福建估算其他省份的。
然后大致算了几组数据看看这个假设合理不合理。
结果……
算出来的数据大的惊人,看起来十分的不可信,为了防止后期误差太大,参考了一个已知的可以用来做对照的数据,把所有算出来的结果都砍了一半,这下看起来顺眼了一些,至少在数量级上是符合了。
嗯,也就是说,所估计的报考人数误差可能会非常大,后期在加权的时候,这方面的权值可以适当调小一些。
总算是把报考人数估计出来了,应该至少能够反映一个趋势。
上线人数/报考人数这一项几乎没有任何数据,没法估计,所以删掉了。
录取人数这边只需要估计福建的,先假设代表入学难度的这一项不太随着时间的变化而变化太大,计算了2018-2016年福建的录取率,看不出一个线性的趋势,求了几年的平均值,估计了一个50.13%的录取率,然后根据这个计算出了录取人数66人,觉得可能偏多,向下取了一个整,取到60人。
复试花样这边三种花样的比较多,猜剩下两个院校也是三种花样的概率比较大,所以就都取了三种花样。
复试占比因为数据太少,删掉了。
最后是平均分。我看了一下平均分似乎并不和这个排名有明显的相关性,最后想了想,这些院校排名也拉的不是特别大,应该都属于同一个批次。就简单又粗暴的取了两个极值,然后在这个区间内随机出了好几个平均分。(不知道知道真相的妹子会不会打我)
为了体现这个排名和均分的一个正相关关系(排名越高,要的均分越高,不接受反驳),给随机出来的结果做了一个排序,然后依次给空缺的地方添加上了。用在填空的随机数分别是373.35、370.6、371.27、370.82。
然后这个表该删的删掉,该补的就补齐了。(头发-999)
三大问题都已经基本解决,下面就是非常开心的,离散化数据进行计算的环节了,因为之前很多数据都是猜的,直接用的话误差可能会比较大。于是把这些数据按照大小关系,往0-100之间映射。
最后获得这么一个可以直接计算的表:
其中,y代表难度,x代表含金量,最后一列就是计算出来的推荐指数。利用各省前四列的数据计算出难度,然后把难度和含金量综合考量计算出推荐指数。把最后算出来的推荐指数从大到小依次排列,分别为:吉林、重庆、江西、江苏、安徽、浙江、福建、天津。头两名推荐的就是吉林和重庆。中间倒是没啥意思,最不推荐的就是天津。
获得结果之后,赶紧整理了一下就跟妹子说了(装逼),妹子说:真像个统计学家。
嗯,值了!
然后理所当然的去了召唤师峡谷,男人面对荣誉的诱惑总是会抵挡不住。
然后在事后某年某月的某一天,无聊之余写下了整个过程。
后记:
在这里感谢一下自己的自动铅笔、计算器和草稿本,你们默默的付出让我的这些计算能够付诸实践。
在做这个分析的时候,还是想到了很多其他的东西,一开始做的时候,万事从简,不想太复杂,反倒很快就得到了结果。现在回头想想,很多花里胡哨的东西,都没啥太大的意义。
即便是没学过高数的朋友,也能够轻松复现出这篇文章中所有的过程,如果是学了高数的朋友,只为博您一笑。毕竟,大神们总是有这样的一种理念:
嗯,总而言之,数学真的有点用。
也许可以上比较高端的数学工具去重新考虑这件事情如何分析,但是那就是后话啦。感兴趣的朋友们可以跟我交流,如果有任何意见和建议也欢迎交流,希望大牛打脸轻一些。我的微信:NSSlience,邮箱:1710945152@qq.com。
网友评论