【小白学爬虫连载(4)】-如何使用chrome分析目标网站

作者: 哈希大数据 | 来源:发表于2018-05-20 09:15 被阅读21次

欢迎大家关注公众号【哈希大数据】
引言
日常我们在浏览器中看到的网页都是很漂亮很规整的如图1,但我们爬取到的网页源代码却是一个很繁杂的文件如图2,想要精准找到我们需要提前的信息,首先需要借助浏览器,对目标网站进行分析。接下来我将分析365淘房网为例,对该过程进行详细的介绍。

image

图1 网页展示

image

图2 网页对应源代码

利用chrome浏览器分析365淘房网租房页面的流程如下:

1、打开浏览器,进入目标网站

目标站点为:http://nj.rent.house365.com/district/dl_j3-kw%E5%A4%A9%E9%9A%86%E5%AF%BA%E5%9C%B0%E9%93%81%E7%AB%99.html

image

2、“检查”目标站点

在网页中右键点击检查,或者F12快捷键(可能是Fn+F12),进入如下图的查看元素页面,你开始打开后解析部分可能位于页面右侧,下图红框标注的地方可以修改,其中Elements显示的便是网页的源代码,另一个很重要的部分是Network,在以后的分享中会详细介绍。

image

3、利用chrome查找需要提取信息的位置
接下来首先点击下图中红色方框选中的按钮,然后当你的鼠标停留在网页中的某个内容上时,Elements中会定位到该内容在源代码中的位置,如下图所示,我们知道需要提取的内容其位置及结构后便能用正则表达式或其他解析库提取信息啦。不过在开始提取信息前我们还要做一个检查。

image

4、检查的详细步骤
检查时要做的是如图所示分为8步,第一点击Network,第二勾选Preserve log,第三点击Doc,第四点击清理按钮,第五刷新页面,第六点击网址链接,第七选中Response。第八步需要检查在Response中,能否搜索到你想要的的信息,用Ctrl+F快捷键搜索。如果能搜索到便可以开始编写我们的爬虫啦。如果搜索不到,可能你需要爬取的信息是JS动态加载的,爬取它需要采用模拟浏览器的方式,这样的情况咱们后面再讨论。

image image

5、小结
本文章主要介绍了如何利用chrome浏览器帮助我们解析目标站点,主要利用chrome的检查功能,分析网页结构,定位网页内容。检查网页为静态还是为JS动态生成的。检查步骤可分为8步,第一点击Network,第二勾选Preserve log,第三点击Doc,第四点击清理按钮,第五刷新页面,第六点击网址链接,第七选中Response。第八步在Response中,搜索你想要爬取的的信息,用Ctrl+F快捷键搜索,如果能搜索到便可以开始编写我们的爬虫。

快速解析网页也是每个爬虫小能手的必备技能,希望大家多多练习,有什么问题欢迎在留言区留言。下次分享我们将进行我们的第一个实战训练——爬取365租房网的租房信息。

相关文章

  • 【小白学爬虫连载(4)】-如何使用chrome分析目标网站

    欢迎大家关注公众号【哈希大数据】引言日常我们在浏览器中看到的网页都是很漂亮很规整的如图1,但我们爬取到的网页源代码...

  • 09.node简易爬虫

    爬虫步骤: 获取目标网站 http.get 分析网站内容 cheerio,可以使用jQuery选择器 获取有效...

  • Python爬虫任务分析

    爬虫分析 1.拿到目标网站 2.分析url,判断网站的动静态 3.静态网站和静态网站 如果是静态网站可以在分析好u...

  • python爬取上海高级人民法院网开庭公告数据

    分析网站 其实爬虫最重要的是前面的分析网站,只有对要爬取的数据页面分析清楚,才能更方便后面爬取数据 目标站和目标数...

  • 爬虫基础知识总结

    什么是爬虫 爬虫:网络爬虫机器人,从互联网自动抓取数据的程序 爬虫的基本流程 分析网站,得到目标url 根据url...

  • 12、实战:原生爬虫

    目标:爬取熊猫TV某个分类下面主播的人气排行 分析网站结构 使用Chrome浏览器 F12查看HTML信息,Ctr...

  • python操控chrome抓网页

    通过chrome浏览器直接打开目标网站,然后直接抓取里面的前端代码,可以让我们不必分析、破解目标网站的接口加密规则...

  • 爬虫基础知识点

    什么是爬虫 就是一段自动获取互联网信息的程序。 爬虫基本的运作流程 首先确定目标网站,分析目标url 根据url发...

  • 1.初识scrapy框架

    scrapy框架的使用 1.创建爬虫项目 2.在爬虫文件中如何提取文本内容 3.实例 ,爬取美剧网站的电影 4.具体代码

  • urllib下的模块

    爬虫代码基本步骤 第一步: 分析网站,寻找目标URL 第二步: 分析目标URL参数(get,post) get和p...

网友评论

    本文标题:【小白学爬虫连载(4)】-如何使用chrome分析目标网站

    本文链接:https://www.haomeiwen.com/subject/bpwadftx.html