一、前言:
针对高考、四六级、考研英语,爬取历年英语真题数据,进行数据分析,得到最权威的《真题单词词频表》。致力帮助没有放弃或想学好英语的人,让最疼头的背单词有趣、科学。对于听力和口语单词词频表,后面有时间也会分析整理分享给最有需要的童鞋。
用这招分数猛增!!!二、《真题中单词出现频率高到低,科学背单词法》专题计划:
[1].考研英语历年真题数据爬取1_1、考研英语历年真题数据分析1_2
[2].英语四六级历年真题数据爬取2_1、英语四六级历年真题数据爬取2_2
[3].高考英语历年真题数据爬取3_1、高考英语历年真题数据分析3_2
三、今天主题:英语四六级历年真题数据爬取2_1
(1)数据爬取前闲聊
1.1 目标网址:http://www.xsfanwen.com/
1. 主网站页面1.2 CET4真题:http://www.xsfanwen.com/Class/sijixiazai/sijixiazai01.html
http://www.xsfanwen.com/Class/sijixiazai/sijixiazai02.html
2. cet4下载列表页面1.3 CET6真题:http://www.xsfanwen.com/Class/liujixiazai/liujixiazai01.html
http://www.xsfanwen.com/Class/liujixiazai/liujixiazai02.html
3. cet6下载列表页面(2)查看网站代码分析
2.1 cet4真题下载链接页面
分析结果:下载链接全包含在id="clickeye_content"的DIV标签里面
2.2 cet6真题下载链接页面
分析结果:下载链接全包含在id="clickeye_content"的DIV标签里面
2. cet6真题下载链接分析页面2.3 cet4真题内容展示页面
分析结果:真题内容全包含在id="Ad"的DIV标签里面
3. cet4真题内容分析页面2.4 cet6真题内容展示页面
分析结果:真题内容全包含在id="Ad"的DIV标签里面
4. cet6真题内容分析页面(3)分析清楚了,上代码(顺带说下思路:获取网页-->解析得真题下载链接-->获取真题内容网页-->解析得内容-->保存为文件-->大功告成!)
所有代码四、结果展示
1.内容展示 2.四级目录 3.六级目录五、闲聊
[1].代码截止2019-03-07调试无误。
[2].下一篇将今天爬取的所有真题数据,做数据分析-->得出词频排序表。
找对方法努力,才是越努力越幸运!让知识或技术实现其最大的价值,欢迎收藏自用、转载分享,转载请注明原文出处,谢谢!
网友评论