腾讯广告算法大赛随手记2

作者: 山东大葱哥 | 来源:发表于2019-04-22 08:48 被阅读42次

腾讯广告算法大赛随手记-目录
腾讯广告算法大赛随手记2
腾讯广告算法大赛随手记10
腾讯广告算法大赛随手记3
腾讯广告算法大赛随手记9
腾讯广告算法大赛随手记1含福利
腾讯广告算法大赛随手记4-全局思路
腾讯广告算法大赛随手记8——技巧汇总（持续更新）
腾讯广告算法大赛随手记5-突破84分
腾讯广告算法大赛随手记6——自测单调性得分

昨天的随手记,补发一下.
今天是星期天，腾讯广告算法大赛的比赛的人数还是挺多的，竞争也比较激烈，昨天通过那个规则计算出来的一个分值，79.2933分，当时看了按照这个分值可以排在25名左右的，今天下午三点又到了更新榜单的时间，大葱哥看了看重新更新的榜单，发现自己的分数79.2933分的排名是在48位。
可以看出从昨天到今天的排行榜中大家的平均分值都提高了不少，79.2933马上就排到50名之外了，看了看有50个人的分数都在70分以上，最高的那个86.423分，自己差距还是很大的，还得继续努力。

今天看看如果有时间的话，继续尝试下。大概思路还是在规则看看还有没有潜力，增加下规则，然后基于广告曝光的历史数据，再做一些深入研究，看看能不能在规则上再挖掘一定的潜力。然后提高一下这个分数。

昨天的文章发完之后呢，有很多的网友在QQ里、简书上，给我留言，然后想要一下我的一个submission.csv！其实这个规则的没有太大的一个技术含量啊！就是根据测试集数据和单调性标准，写出一个曝光值。最简单的把出价的那一列数据直接修改为曝光，提交也能得到一个还可以的分数。还有网友建议对那个出价除以1个分母作为曝光，分布大概是10吧，我记得有网友说也能到50-60吧。
这种都是利用了评分标准的第二条，价格的单项相关性，也就是同一个广告价格高的曝光量要大，这个规则要利用好。大葱哥79分的submiss.csv也是按照这个思路来做的,只不过做了一些取值范围的控制。

晚上，大葱哥对照测试集加了一些规则，比如投放时间范围大的应该曝光量高一些、投放人群限制多的曝光量应该少一些、投放人群是all的曝光量应该高等等，按照这些规则拍脑袋定一个系数，调整曝光量，提交测试，发现不理想，调整了三次分数分别如下，都没有昨天的理想。

image.png

放弃规则，准备从数据入手，开始学习pandas，文件比较大读起来电脑吃不消，于是乎打算对曝光数据文件进行拆分，经过统计发现曝光数据一共有102386695条，1亿条记录，我的乖乖，果然是大数据（对个人电脑来说），同时学习了怎么将时间戳转换成年月日时分秒，但这里有一个问题，官方没有说明这个时间戳是按照哪个时区计算的，默认按北京市区吧。

exposureLogdf['请求时间'].apply(lambda x:time.strftime("%Y%m%d%H%M%S",time.localtime(x)))

文件拆分后大概有100个，单个文件67M，这个数据大葱哥的本本还能吃得消。

image.png

暂时写到这里。

网友评论

本文标题：腾讯广告算法大赛随手记2

本文链接：https://www.haomeiwen.com/subject/rnsegqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

腾讯广告算法大赛随手记2

相关文章

腾讯广告算法大赛随手记-目录