美文网首页
Hi留学APP背后的算法和逻辑 - Histudent

Hi留学APP背后的算法和逻辑 - Histudent

作者: Histudent | 来源:发表于2018-11-21 15:51 被阅读0次

      不少想了解Hi留学APP的同学会问,智能匹配系统是什么?

  出国留学,需要考虑什么问题,哪个问题⼜是最关键呢?当然是去哪个学校,读哪个专业。Hi留学背后的智能匹配系统,是基于⾏业⼤数据和⼤量院校的录取信息,通过聚类算法运算,为学⽣匹配出适合的专业和学校。

  目前行业中其他三⽅留学机构所谓的选校⽅案,是将录取难度相近的大学分到同一类,由此归为几大类,这种粗糙的归类导致的匹配相近,却不精确。而Hi留学的选校⽅案却能精确到专业。英国学校不同专业⽅案有不同的要求,⽐如利兹⼤学的“国际⼤⼀:商科⽅向”要求⾼中毕业平均分60分以上,⽽“本科预科:商务和管理⽅向”要求⾼中毕业平均分85分以上。

      我们将中国⼤学、中学的情况,包括各个学校的排名(是否985/211,网⼤排名多少),还有各个专业的分类情况等信息录入到我们的数据库当中,根据学生的⽅案类型、所在⼤学在不同国外院校的分数要求,接受该本科专业背景的国外专业,再加上相关成绩,这些信息去找出接受她的专业和学校。再检查找出的专业是否要求⼯作经验,我们过滤掉需要⼯作经验的专业,完成⽅案推荐。

      而Hi留学最核心的数据——成绩,是依据Hi留学数位深耕行业多年的顶尖留学专家以及过往十数万留学成功案例总结出来的。能将智能匹配做到这个程度,正是因为Hi留学坚持花费一年时间去做好底层数据。

智能匹配系统的原理

  当下,算法是新闻系统、搜索引擎、浏览器、社交⼯具等软件的标配,⽽且成功案例众多,⽐如微信的红包算法、今⽇头条的推荐算法和百度的绿箩算法。⽽留学⾏业还没有成熟的选校算法。Hi留学的智能匹配系统,从2018年2⽉开始开发,已经过2次⼤规模的调整和修改,而第三次即将开始。我们希望通过公开算法原理,逐渐消除⾏业内依靠信息不对称盈利的怪相。

  智能匹配算法,实际是⼀个拟合学⽣情况和专业录取要求相符度的函数。这个函数需要三个维度的输⼊参数:学⽣情况,学校专业的录取要求以及基于⾏业⼤数据对学⽣的打标信息。

1、行业大数据

  留学⾏业⼤数据,主要指国外学校信息、专业课程信息和专业录取要求等。这部分数据,数据量⼤,数据结构也相对庞杂。如何保证各个字段在整个匹配过程中最快被找出来,避免查询不影响⽅案结果,以保证运算过程不发⽣内存溢出和时间复杂度过⾼。

  如下来⾃数据库客户端⼯具Navicat⽣成的“ER Diagram图”所⽰,展⽰的为各类申请要求在数据库中的分布情况,每⼀个⽅块代表数据库中的⼀张表,⽅块的⼤⼩体现表的字段个数和数据条数。图中的⼩⽅块,主要存储特殊录取要求,这类数据在数据库需要的表多、每个表的字段少,表中的数据也少。⽽图中看起来⽐较⼤的⽅块,主要存储关键、有共性的录取要求,这类数据在数据中需要的表相对较少,但每个表的字段多,数据也⽐较多。当然,申请要求的关键与否并不是决定的,从“ER Diagram图”中⽅块的⼤⼩不等也能体现出来。

2、用户分析,聚类运算

  智能匹配算法可以⽤如下公式表⽰,r表⽰结果集合,F表⽰匹配算法函数体,U表⽰⽤户信息集合,S表⽰⾏业⼤数据集合,E表⽰基于⾏业⼤数据对学⽣的打标参数集合。

  r=F(Ui,Sc,Et)

  学⽣情况是⼀组参数,英国的如前⽂中“英国学校专业申请成功率影响因素表”所⽰,其他国家参数可能多⼀些,⽐如澳洲的申请本科⽅案,参数会多出来⾼考的信息,⽐如⾼考年份、⾼考省份、⽂理科和分数——⾼考成绩决定学⽣能否成功申请的澳洲的⾼考直录⽅案。对这部分参数,⾸先解决的是对学⽣情况的挖掘,⽐如他提交的学校是否985/211学校,是哪个省,网⼤排名多少,其他榜单如交⼤、校友会或武书连排名。

  学校专业的要求这部分参数,相对其他⾏业的推荐系统可能略显特殊。以英国为例,各个学校、不同学历阶段、各种⽅案的要求差异较⼤,本科阶段⼤部分学校关注的是申请时在中国获得的学历阶段和学⽣平均分(可以在申请过程中补充提交的参数,我们这⾥不做讨论,⽐如Alevel、IB和雅思成绩等),特殊情况也⽐较多。录取要求呈簇状分散分布,如下图,横轴表⽰国外专业数量⼤⼩,纵轴表⽰录取要求字段类型⼀致性⼤⼩。

      数字性质的要求如⾼中毕业直升本科的gpa要求,只⽐较数字⼤⼩就⾏。⽽硕⼠直申⽅案,关注的是背景要求,实际上是⼤量字符串的⽐较,国外学校对专业的归类可能不⼀致,中国学校对专业的归类⼜不⼀样。字符类的如澳洲的⾼考成绩要求,智能匹配系统既要关注⾼考所在省份和⽂理科,还要关注⾼考年份和⾼考分数。说到这⾥,可以看出智能匹配系统对于国外专业录取要求参数⾸先要解决的是要求类型多,特殊情况多,映射关系的维护难度⼤。

  第三组参数是基于⾏业数据的形成经验值集合,⽐如学⽣申请阶段和申请⽅案的关联关系如下图:

      智能匹配系统,从接受⽤户提交的信息开始,然后挖掘更多⽤户相关情况,具体挖掘的内容,包括但不限于⽤户的就读或毕业的学校信息。由于三组输⼊参数都相对复杂,系统⾸先要做的事情是确定应该加⼊运算的参数,然后进⾏分类,然后进⾏聚类运算。⽐如,我们会把gpa和学历阶段要求放在⼀起进⾏远算,把⽤户的院校信息挖掘和背景要求放在⼀起运算。

  完成智能匹配后,以影响本次匹配结果的所有条件参数为标识,对匹配结果保存。相同条件的⽤户,⽆需等待漫⻓的匹配时间,就能快速拿到这个匹配⽅案。

  3、可行性评估

  可⾏性评估的目标是,保证⽅案的可⾏性。如何保证呢,通过每⼀次匹配过程中⼈为审查或者程序⾃动审计都不可⾏——因为⽤户体验的时效性问题、复杂度的指数级提升都⽆法容忍。

  目前,智能匹配系统基于每⼀次匹配保存的结果,从以下维度对匹配结果的可⾏性进⾏⾃动淘汰机制:

  1)从时间维度淘汰,由于院校信息存在不定期更新的情况,每⼀次匹配结果记录在⼀定周期后全部⾃动淘汰;

  2)从最终申请成功率⾓度淘汰,是否存在申请失败的专业,如果存在就删除全部匹配结果集。

  Hi留学,希望通过不断完善和普及智能匹配系统,推动留学选校过程透明化,让留学不再迷路,破茧成蝶。

相关文章

网友评论

      本文标题:Hi留学APP背后的算法和逻辑 - Histudent

      本文链接:https://www.haomeiwen.com/subject/ysecqqtx.html