美文网首页
【实战试听课】第三节:爬取真实网页

【实战试听课】第三节:爬取真实网页

作者: 麻瓜编程 | 来源:发表于2016-03-04 15:35 被阅读212次

今天我们来爬取真实的网页。如果你有过海外游的经历,一定会知道这个网站,叫做:Tripadvisor。

具体的运作过程是这样的:

在你打开一个网页的时候,你的电脑就向服务器发起了一个 Request 请求,服务器为了回应你,给你返回一个 Response 请求。

那么,为了用程序模拟人类向服务器发起请求,就要用程序发起 Request,在 HTTP 1.1 协议中,有8种方法,其中最常用的是 get 方法。

我们请求了之后,服务器会返回给我们一个状态码,如果成功了就是200,如果失败了则是404等等。

在网页中定位元素位置,最关键的点是:找唯一特征。

在课程案例里面详细讲解了爬取连续多页的方法,以及模拟登录的方法。

Tripadvisor 的图片有着反爬取策略,为了解决这个问题,介绍一个小技巧。具体是什么,可以看视频。


3、如何爬取网页【Python零基础爬虫实战】

在亲身实践之后才能真正学会。所以,每节课都有一道配套的实战练习题,这节课的练习作业是:爬取小猪短租的房源信息。



上面的内容来自网易云课堂畅销课程 Python实战课程:四周实现爬虫系统

加入课程后,可以看到完整四周课程,获赠零基础预习教程魔力手册,并得到班级老师的辅导与答疑。

欢迎加入预备班 QQ 群和大家讨论 Python 课程问题,参加每周的老学员分享,QQ 群号是:454652648,加群回复:实战计划

相关文章

网友评论

      本文标题:【实战试听课】第三节:爬取真实网页

      本文链接:https://www.haomeiwen.com/subject/bbuokttx.html