反作弊工作属于数据分析的一个分支,即用数据分析(包括数据挖掘/机器学习/深度学习等)解决业务发展中遇到的作弊(spam)问题,具体哪些问题属于spam,需要根据实际业务的需求来定。常见的有批量机器账号刷单,虚假注册套现,批量虚假账号粉丝,关注,点赞,色情/涉政/版权类别的视频、图片,音频,文本等内容。反作弊数据分析的工作就是要采用数据分析方法,结合业务的实际场景挖掘出这些作弊的用户或者内容,维护产品的健康发展,降低公司的损失。
当然,数据分析能做的事情太多太多了,除了反作弊,还可以在用户画像,信息流推荐,商品推荐,页面排序,订单分发等等场景进行使用。但是万变不离其宗,只要是数据分析的工作,都有一整套科学完整的数学理论和方法指导。
这些方法是非常非常重要的,我遇到一些刚入门的同学(其实我最初工作的时候也是一样),非常努力的在实践中总结经验,经过反复试错得到了一套自以为还不错的分析方法(这一点我是赞同的)。其实个方法并不是最优的,而且解决这个问题已经有比较完整的科学理论指导。 所以我想说的是,数据分析是一门科学,相关从业者要有敬畏之心,最好能进行一些系统性的学习。其实大部分自己总结出来的经验,已经在书本里写好了你只需要学会就行了。举个例子来说,你想学乘法,没有必要自己探索着去编一个乘法口诀,只需要把9*9乘法表背会就可以啦。
这里没有针对新同学的意思(大家都是从新人过来的),只是强调科学的严谨性和基础的重要性
当然有很多从业者是不是学相关专业的(比如我),这就需要抽更多的时间去进行学习,如果把相关的统计学,线性代数,机器学习等知识尽早补充,会对今后的工作有非常大的帮助。当然在学习这条道路上,我也还有很长的路要走,学习是一件终身的事情,与各位共勉。
推荐学习材料:
书籍类
SQL必知必会(初学者sql入门经典) | 谁说菜鸟不会数据分析(入门) | 深入浅出统计学 | 深入浅出数据分析 | 数据挖掘导论 | 机器学习(西瓜书)| SPSS统计分析与行业应用案例详解(对于不会编程又需要进行数据分析的同学,spss是一个不错的选择) | 利用Python进行数据分析(经典) | 统计学习方法(个人感觉有点难度)
以上只是我看过的,觉得非常好的的一些书籍,其他的欢迎大家补充。
视频类我首推吴恩达的机器学习课程,无论是高级还是入门的同学都可以听,讲的非常基础,非常友好(大神总是能通过简单明了的方式让人掌握很抽象的知识,我等只能膜拜);Python学习的话,推荐小甲鱼的系列课程,做的非常不错
另外推荐一篇论文:
Facebook的反作弊团队写的论文:facebook-immune-system
下载链接http://www.owasp.org.cn/OWASP_Events/download/FacebookImmuneSystem.pdf/view
另外我想说:最好的学习方法是在工作中遇到问题,根据实际问题不断去学习找到解决方法,各种大神在CSDN,博客园,简书都有很多技术博客,只要你想学,没有学不到的。
网友评论