1.数据分析的流程
- 数据获取:爬取网站上的数据实现可操作性的编辑。
- 数据处理:数据的预处理,将获取的数据进行格式调整方便后续使用。
常用的Office组件为 Power Query、Power Pivot。 - 数据呈现:数据的可视化,动态的展示数据结果。
- 数据发布:实现数据的动态展示以及终端设备的动态交互。
注意:本章节主要讲解数据获取部分
数据爬取的目标:
将网页中展示的数据爬取到可以编辑的文本工具中从而实现批量操作。在具体的爬取过程中,经常使用的根据有Excel和Python。
数据爬取的目标 工具2.Excel数据爬取实操
该板块由三个模块组成:
- 目标网页:想要爬取数据的网址信息
- 响应时间:每次访问网站的点击频率,通常1s点击一次网页.
爬虫的1s内向网站发送N条请求,导致网站的防御机制识别到这不是人干的事儿,立刻启动反爬虫机制,阻断了网页内容的呈现。
解决办法:限制爬虫次数后,将实际的爬虫过程伪装成人为点击就好了,这就是响应时间使用的精髓。 - 响应标识:目前包括Python爬虫在内的UserAgent标识。UserAgent标识相当于每个浏览器的身份证信息,我们通过Excel的UserAgent标识选择指定的浏览器进行网页内容的爬取,最终有效的爬取到网页内容。
在爬虫过程中,最为常用的浏览器为谷歌浏览器和火狐浏览器。
爬虫浏览器实操步骤:
1.获取浏览器标识
以谷歌浏览器为例:
打开浏览器输入目标网站后,右键点击检查(快捷键Ctrl+Shift+I(注:不是L,是I)),在检查页面中点击Network后重新加载页面,在检查Network页面中单击第一个网页信息:index.html。在右边出现的窗口Headers中,将页面拉至底部可查找到浏览器标识UserAgent,复制UserAgent信息即可。
2.设置响应时间(位置用户浏览)
新建Excel并打开,点击自网站,在弹出的窗口中选择高级选项,将我们需要爬取的目标网址信息粘贴到Url位置处,同时在响应时间栏中设置1分钟的响应时间,
3.设置浏览器标识
在HTTP请求标头参数中下拉选择UserAgent,粘贴浏览器的UserAgent信息。
4.将数据载入到Power Query中进行预处理,建立网页链接后,选择数据Table0,选择编辑进入Power Query中进行数据预处理。处理完数据后,依照惯例,制作可视化地图。
网友评论