美文网首页
零基础学python(1)——爬取房天下网站信息

零基础学python(1)——爬取房天下网站信息

作者: 李毓锟 | 来源:发表于2017-02-12 21:07 被阅读0次

    一、认识网页

           网页分为三个部分:HTML(结构)、CSS(样式)、JavaScript(功能)。

    二、爬取网站信息入门

    1、Soup = BeautifulSoup (html, 'lxml'),使用beautifulsoup来解析网页。

    2、使用copy CSS selector来复制网页元素的位置。

    三、爬取房天下网站信息 

    1、导入requests和beautifulsoup

    2、定义函数spider_ftx,把所需要爬取的信息都定义出来

    3、调用函数spider_ftx

    4、翻页爬取二手房信息

         由于每页最多只能显示40条信息,观察每一页网址的变化规律,写一个循环调用的语句,把全部100页的信息全都爬取下来。

    四、小结:

         目前只能爬取到网站的100页信息,网站为了反爬,设置了可浏览的页面量100。要想爬取网站的所有信息,可以通过分类去获取,但是如何用python实现呢,请看下集。

    相关文章

      网友评论

          本文标题:零基础学python(1)——爬取房天下网站信息

          本文链接:https://www.haomeiwen.com/subject/hbqsittx.html