// 4-1
参加了Kaggle的一个二分类比赛,目的是有段日子没建模了,得回顾一下代码。而二分类问题至少是自己比较熟悉的逻辑回归模型好解决的。
数据还蛮干净的,用最简单的LR代码跑了一下,提交结果,0.588。差差的AUC啊。但是试验以下也无妨。
对于200个匿名特征变量,又全是float类型,这还是我头一次遇到这么可怕的数据。
赶紧开始看discussion中的一些自己比较喜欢的文章,才发现大家如此上心,一个EDA也能做到那么细致。人家把200个特征变量一个一个掰过来扯过去地分析,omg!太认真了!
也有大牛分享出了不错的代码,但是。。。还是先不要照抄的好吧。。
还是应该自己先试试看吧~~~
// 4-2
调整了LR模型,这次的提交结果提升不少:0.727
再要提升怎么办?
想着做特征分析筛选,还是先冒失点去尝试多种模型。。。
最后选择后者,建了个最简单的NB模型,又有提升,到 0.762。。
那么,再继续吧。尝试更多的模型,先粗粗地跑起来。。然后再做个ENSEMBLE? 试试看结果??没准很好呢??
然而,心里也明白,自己没有仔细研究过每一个自变量,压根没找出那个magic feature.....估计还是得下苦功吧。。。
昨晚睡得太晚--12点,早晨又起的太早--6点,,导致今天体力精力弱爆了。。强撑住!今晚得早睡了,白天精力才高。
// 4-3 ~ 4-4
全天都是抓取数据,处理当中。程序开发得很顺利,4月3日连吃11个番茄。4月4日更是一天忙碌,吃了16个番茄。
// 4-8
列任务清单的结果就是,发现自己当下最想做的任务,排序之后,发现还是应该将代码的效率提升,于是决定学习51cto上买的课程。
因为它顺便应该可以解决我连接DB的需求。
又一个不吃午饭的日子。为了精力好,抓紧时间干活,把午餐时间推迟到了下午3点多。
网友评论