美文网首页Python三期爬虫作业Python
【Python爬虫】-【第四周】01-作业

【Python爬虫】-【第四周】01-作业

作者: 奔跑的Kay | 来源:发表于2017-08-01 14:33 被阅读50次

    1.作业内容:
    ①未安装requests包的安装包,谷歌浏览器安装
    ②爬虫知识学习什么是url,header请求头,网页源代码,简单了解html标签
    ③requests包的使用get方法 返回网页源代码
    ④打印输出简书首页的源代码


    2.作业解答
    2.1安装requests包
    2.1.1cmd终端安装
    pip install requests
    2.1.2pycharm安装
    Pycharm>Settings>Project:Pycharmwork>Project Interpreter
    见面右边是已安装模块列表及版本号,点击右上角“+”号搜索安装可用的库。
    2.1.3检查requests库是否安装
    打开Python可交互式编译器,输入import requests回车,不报错即表示requests库已安装。
    2.2 爬虫知识学习(了解url、header请求头、网页源代码、html标签)
    2.2.1此处ur即通常意义上的网址
    2.2.2header请求头
    以下是《Python网络数据采集》中的一段话:

    我们通过下面的例子让你对浏览器获取信息的过程有一个基本的认识。Alice 有一台网络服务器。

    1. Bob 有一个台式机正准备连接 Alice 的服务器。当一台机器想与另一台机器对话时,下面的某个行为将会发生。Bob 的电脑发送一串 1 和 0 比特值,表示电路上的高低电压。这些比特构成了一种信息,包括请求头和消息体。请求头包含当前 Bob 的本地路由器 MAC 地址和 Alice 的 IP地址。消息体包含 Bob 对 Alice 服务器应用的请求。
    2. Bob 的本地路由器收到所有 1 和 0 比特值,把它们理解成一个数据包(packet),从 Bob
      自己的 MAC 地址“寄到”Alice 的 IP 地址。他的路由器把数据包“盖上”自己的 IP 地址作为“发件”地址,然后通过互联网发出去。
    3. Bob 的数据包游历了一些中介服务器,沿着正确的物理 / 电路路径前进,到了 Alice 的服务器。
    4. Alice 的服务器在她的 IP 地址收到了数据包。
    5. Alice 的服务器读取数据包请求头里的目标端口(通常是网络应用的 80 端口,可以理解成数据包的“房间号”,IP 地址就是“街道地址”),然后把它传递到对应的应用——网络服务器应用上。
    6. 网络服务器应用从服务器处理器收到一串数据,数据是这样的:
      ♦ 这是一个 GET 请求
      ♦ 请求文件 index.html
    7. 网络服务器应用找到对应的 HTML 文件,把它打包成一个新的数据包发送给 Bob,然后通过它的本地路由器发出去,用同样的过程回传到 Bob 的机器上。

    这段话大致介绍了请求头在浏览器发送、收取消息中的一些作用。了解到此应该也基本够用了。
    2.2.3网页源代码
    我们通常所见的网页信息是浏览器将网页源代码翻译成我们比较能接受的展现形式。HTML 是用来描述网页的一种语言,我们看到的网页的源代码是由HTML 文本格式层、CSS 样式层、JavaScript 执行层和图像渲染层构成,这些信息都包含在网页源代码中,由浏览器"翻译"我们所见的样式。
    ps:查看网页源代码:谷歌浏览器,任意网页页面,鼠标右键菜单中有查看源代码选项。
    2.2.4html标签
    W3School有HTML的一些入门介绍。
    http://www.w3school.com.cn/html/html_jianjie.asp

    • HTML 标记标签通常被称为 HTML 标签 (HTML tag)。
    • HTML 标签是由尖括号包围的关键词,比如 <html>
    • HTML 标签通常是成对出现的,比如 <b> 和 </b>
    • 标签对中的第一个标签是开始标签,第二个标签是结束标签
    • 开始和结束标签也被称为开放标签和闭合标

    3.requests包的使用get方法 返回网页源代码
    3.1requests包快速入门上手指南
    http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
    3.2 打印输出简书首页源代码

    import requests # 导入requests模块
    
    r = requests.get("http://www.jianshu.com/") # get()函数获取简书首页源代码,并将对象存储于变量r
    
    print(r) # 输出结果为<Response [200]>,响应状态码
    print(r.status_code) # 响应状态码
    
    print(r.text) # 打印输出简书首页的源代码
    

    相关文章

      网友评论

        本文标题:【Python爬虫】-【第四周】01-作业

        本文链接:https://www.haomeiwen.com/subject/ufjjlxtx.html