美文网首页
爬虫学习(1)—初学爬虫注意的几个点

爬虫学习(1)—初学爬虫注意的几个点

作者: 罗汉堂主 | 来源:发表于2019-10-14 18:47 被阅读0次

1. 字符与字符串转化

bytes <------> str 方法

a = '爬虫'                        
b = a.encode()              # str转bytes
c = b.decode('utf-8')     # bytes转str
c = b.decode('utf8')      # bytes转str

2. HTTP和HTTPS

HTTP:超文本传输协议, 默认端口: 80
HTTPS:HTTP + SSL(安全套接字层), 默认端口: 443

HTTP的请求过程
HTTP请求行、请求头、请求体详解

HTTP常见的请求头
1.Host(主机和端口号)
2.Connection(链接类型)
3.Upgrade-Insecure-Requests(升级为HTTPS请求)
4.User-Agent(浏览器身份标识)
5.Accept(传输文件的类型)
6.Referer(页面跳转处)
7.Accept-Encoding(文件编码格式)
8.Cookie
9.x-requested-with:XMLHttpRequest(是Ajax异步请求)

3. url的形式

sheme://host[:port#]/path/.../[?query-string][#anchor]
sheme: 协议(例如:http, https, ftp)
host:服务器的域名或者ip地址
port:服务器的端口
query-string:参数,发送给http服务器的数据
anchor: 锚(跳转到网页的指定锚点位置)
http://item.jd.com/11936238.html#product-detail

4.爬虫的定义

  • 网络蜘蛛(spider):模拟客户端发送请求,接收请求响应,按照一定的规则,自动地抓取互联网的信息*
  • 只要是浏览器能做的事情,原则上,爬虫都能做到

5. 爬虫的分类

  • 通用爬虫:通常是指搜索引擎的爬虫
    百度:面向整个互联网的所有网站


    搜索引擎流程
  • 聚焦爬虫:针对特定网站的爬虫
    网易云音乐:针对给定的具体的几个网站


    聚焦爬虫流程

6.Robots协议

  • Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。
    例如:淘宝Robots协议

相关文章

  • 爬虫学习(1)—初学爬虫注意的几个点

    1. 字符与字符串转化 bytes <------> str 方法 2. HTTP和HTTPS HTTP:超文本...

  • scrapy-redis学习记录(一)

    最近在搞爬虫,总听说scrapy多么多么强大,个人认为初学者先自己去理解爬虫的几个重要的点,手动去写爬虫,等到熟悉...

  • Python 网络爬虫(一)

    网络爬虫的基本介绍 学习爬虫,我想主要从以下几个方面来切入 -爬虫的原理? -爬虫的作用? -爬虫的实现? -爬虫...

  • phantomJs入门

    想学爬虫,最初学习的是Python,学了urllib,BeautifulSoup,但学了段时间后想爬几个网站试试,...

  • python scrapy爬虫框架初体验 【扒免费网站的小说】

    【适用】 适用于爬虫初学者 【准备】 1、anaconda装好python和爬虫环境 2、略懂python 【目标...

  • 7.爬虫概述

    爬虫概述 知识点: 了解 爬虫的概念 了解 爬虫的作用 了解 爬虫的分类 掌握 爬虫的流程 1. 爬虫的概念 模拟...

  • 爬虫入门

    为什么要学习爬虫? Python做爬虫优势 关于Python网络爬虫,我们需要学习的有: 什么是爬虫? 网络爬虫(...

  • python爬虫学习-day7-实战

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

  • Python 基础爬虫目录

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

  • python爬虫学习-day5-selenium

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

网友评论

      本文标题:爬虫学习(1)—初学爬虫注意的几个点

      本文链接:https://www.haomeiwen.com/subject/qziqmctx.html