,...">
美文网首页
Python第三课 爬虫之网页的构成与解析

Python第三课 爬虫之网页的构成与解析

作者: 晟文刀 | 来源:发表于2016-07-16 14:49 被阅读40次

    网页的构成

    • HTML:<>,类似于房间中的“结构”,如客厅与卧室的区别;
    • CSS:< div class="">,类似于房间中的“样式”,如房间的装修,墙壁什么颜色,地板是什么颜色的;
    • JavaScript:<script >,类似于房间中的“功能”,如房间中的电视、电灯。
      我们爬虫主要是爬HTML+CSS。

    <div > < /div >

    div代表网页区域的意思,代表在该区域能装什么东西;
    例:
    < div class="a">
    < p>wow!< /p>
    < /div >
    引申:P 写入文字;li 写入列表;img插入图;h1-h6代表不同字号的字体;a href =""写入网页链接

    实际上用div来区分,主要分三个部分:header、content和footer。
    在header又分LOGO和导航;
    在content又分图片、title和description;


    Paste_Image.png

    解析网页中的元素

    解析库有(html.parser / lxml HTML / lxml XML / html5lib)

    爬取网站的主要分两步:

    第一步是服务器与本地的交换机制

    • 平常我们浏览页面都是先请求服务器(Request),然后服务器再回应(Response)。
    • 向服务器请求的Request行为实际上包含了不同的方法,而我们爬取网页只需要get和post的方法。代码举例:get/page_one.html http/1.1 host:www.sample.com
    • 服务器向我们回应的Response行为,如果反馈结果是status_code:200说明反馈成功,如果是404或者403就失败了。

    第二步是解析真实网页的方法

    (案例网址:http://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html

    • 导入我们需要的库
    • 粘贴我们需要爬取的网址
    • 使用Request向服务器请求获取网页内容
    • 使用BeautifulSoup解析网页
    • 描述要爬取的元素位置
    • 整理并筛选所选信息
    • 反爬虫处理(伪造Cookie信息,构造想服务器提交的参数:headers)
    • 构造函数
    • 爬取连续多页的信息
    • 模拟手机页面获取反爬取信息

    相关文章

      网友评论

          本文标题:Python第三课 爬虫之网页的构成与解析

          本文链接:https://www.haomeiwen.com/subject/kwasjttx.html