今天总算给了数据科学导论课程的大作业一个交代。
项目一来便是要爬虫,爬虫,爬什么好呢,我对什么网站比较熟悉呢,什么网站有足够的数据进行分析呢?思前想后,我把心思打到了简书上面。
我想获得什么呢,每位作者的资产,字数,获得喜爱,粉丝人数等数据,然后再做一下分析,得出一些显而易见的规律(唉……)。
先从一个作者的页面定位数据,并且确认一下简书是否允许我获取它的数据。
很好,成功了,我确实得到了自己想要的数据。
但是所有的作者信息不能在一个页面中反映出来,必须要由发现页面对每个作者名进行点击进入到下一页面,才能获取到当前作者信息,于是我选择了用selenium模拟浏览器进行爬取。
模拟浏览器先进入到简书的发现页面,然后获取到所有作者名字的位置,然后按照顺序一次进行点击,每次点击进入作者页面,获取网页信息后后退,在点击下一作者名即可,可惜selenium每次的页面都被认为是一个新的页面,后退得到的页面也被认为是新的,根本不认识之前第一次获得的作者位置(唉……)。
于是我费劲心机去处理selenium的问题,也一次又一次尝试,结果尝试没成功,简书这边又给我出问题了,居然要我登录才能进入到发现页面了(唉……)。
登录也很简单,需要在登录页面填入账号和密码即可,于是我搜了一下算法,将登录的问题解决了,这下发现页能进去了,我又要去解决selenium的问题了(唉……)。
又是多次尝试,selenium的问题还是没解决,然后,简书又给我出问题了,这次还需要登录,并给了我一张依次点击下列文字的验证码,唉……我真给简书的网站维护人员跪了,,这是要亡我一个小白啊。
那几天距离数导大作业的ddl其实只剩下一周的时间,这期间还有高数和政经的考试,我好不容易找到一个网站,并且从爬取到存储数据的代码都写得差不多了,结果我却登不进去网站,没有数据,后续许多工作都没办法做了,但是目前我还需要复习高数和政经,真是三头急,考完高数和政经,给数导大作业的时间就只剩下三天了。
高数和政经考完的那天晚上,我在思索一个问题:到底是在简书上吊死还是另寻他法,如果是另寻他法,那就相当于在三天之内重新做一个项目,可是只有三天,我有点小怕;可如果是死磕简书,我又怕只是白白浪费时间。
我没有过多考量,心想着明早开手机热点再做一下最后的挣扎,如果实在不行,就重新开始。
我重新开始了。
事实上我花了两天半的时间,将这个大作业完成了,今天一下午的时间用来休息和等待BP回归(说到BP,各位BLINK们赶快去买专辑呀,闺女们真的需要支持,qq音乐两块九毛一真心不贵),言归正传,我真的要感谢那个一直包容我的二手车网站,另外,我没干什么伤天害理的事情啊,这真的只是为了完成大作业……还有就是,,要始终相信办法总比困难多。
嗯嗯,其实我写这篇文章的目的……没错,就是吐槽简书……我只是单纯一个小白啊,为什么要这么防着我?!当然我也能理解简书的维护人员们,我只是…菜惨。。
网友评论