昨天的随手记,补发一下.
今天是星期天,腾讯广告算法大赛的比赛的人数还是挺多的,竞争也比较激烈,昨天通过那个规则计算出来的一个分值,79.2933分,当时看了按照这个分值可以排在25名左右的,今天下午三点又到了更新榜单的时间,大葱哥看了看重新更新的榜单,发现自己的分数79.2933分的排名是在48位。
可以看出从昨天到今天的排行榜中大家的平均分值都提高了不少,79.2933马上就排到50名之外了,看了看有50个人的分数都在70分以上,最高的那个86.423分,自己差距还是很大的,还得继续努力。
今天看看如果有时间的话,继续尝试下。大概思路还是在规则看看还有没有潜力,增加下规则,然后基于广告曝光的历史数据,再做一些深入研究,看看能不能在规则上再挖掘一定的潜力。然后提高一下这个分数。
昨天的文章发完之后呢,有很多的网友在QQ里、简书上,给我留言,然后想要一下我的一个submission.csv!其实这个规则的没有太大的一个技术含量啊!就是根据测试集数据和单调性标准,写出一个曝光值。最简单的把出价的那一列数据直接修改为曝光,提交也能得到一个还可以的分数。还有网友建议对那个出价除以1个分母作为曝光,分布大概是10吧,我记得有网友说也能到50-60吧。
这种都是利用了评分标准的第二条,价格的单项相关性,也就是同一个广告价格高的曝光量要大,这个规则要利用好。大葱哥79分的submiss.csv也是按照这个思路来做的,只不过做了一些取值范围的控制。
晚上,大葱哥对照测试集加了一些规则,比如投放时间范围大的应该曝光量高一些、投放人群限制多的曝光量应该少一些、投放人群是all的曝光量应该高等等,按照这些规则拍脑袋定一个系数,调整曝光量,提交测试,发现不理想,调整了三次分数分别如下,都没有昨天的理想。
image.png
放弃规则,准备从数据入手,开始学习pandas,文件比较大读起来电脑吃不消,于是乎打算对曝光数据文件进行拆分,经过统计发现曝光数据一共有102386695条,1亿条记录,我的乖乖,果然是大数据(对个人电脑来说),同时学习了怎么将时间戳转换成年月日时分秒,但这里有一个问题,官方没有说明这个时间戳是按照哪个时区计算的,默认按北京市区吧。
exposureLogdf['请求时间'].apply(lambda x:time.strftime("%Y%m%d%H%M%S",time.localtime(x)))
文件拆分后大概有100个,单个文件67M,这个数据大葱哥的本本还能吃得消。
image.png
暂时写到这里。
网友评论