一、前言:
针对高考、四六级、考研英语,爬取历年英语真题数据,进行数据分析,得到最权威的《真题单词词频表》。致力帮助没有放弃或想学好英语的人,让最疼头的背单词有趣、科学。对于听力和口语单词词频表,后面有时间也会分析整理分享给最有需要的童鞋。

二、《真题中单词出现频率高到低,科学背单词法》专题计划:
[1].考研英语历年真题数据爬取1_1、考研英语历年真题数据分析1_2
[2].英语四六级历年真题数据爬取2_1、英语四六级历年真题数据爬取2_2
[3].高考英语历年真题数据爬取3_1、高考英语历年真题数据分析3_2
三、今天主题:英语四六级历年真题数据爬取2_1
(1)数据爬取前闲聊
1.1 目标网址:http://www.xsfanwen.com/

1.2 CET4真题:http://www.xsfanwen.com/Class/sijixiazai/sijixiazai01.html
http://www.xsfanwen.com/Class/sijixiazai/sijixiazai02.html

1.3 CET6真题:http://www.xsfanwen.com/Class/liujixiazai/liujixiazai01.html
http://www.xsfanwen.com/Class/liujixiazai/liujixiazai02.html

(2)查看网站代码分析
2.1 cet4真题下载链接页面
分析结果:下载链接全包含在id="clickeye_content"的DIV标签里面

2.2 cet6真题下载链接页面
分析结果:下载链接全包含在id="clickeye_content"的DIV标签里面

2.3 cet4真题内容展示页面
分析结果:真题内容全包含在id="Ad"的DIV标签里面

2.4 cet6真题内容展示页面
分析结果:真题内容全包含在id="Ad"的DIV标签里面

(3)分析清楚了,上代码(顺带说下思路:获取网页-->解析得真题下载链接-->获取真题内容网页-->解析得内容-->保存为文件-->大功告成!)

四、结果展示



五、闲聊
[1].代码截止2019-03-07调试无误。
[2].下一篇将今天爬取的所有真题数据,做数据分析-->得出词频排序表。

让知识或技术实现其最大的价值,欢迎收藏自用、转载分享,转载请注明原文出处,谢谢!
网友评论