爬虫学习(1)—初学爬虫注意的几个点

作者: 罗汉堂主 | 来源:发表于2019-10-14 18:47 被阅读0次

爬虫学习(1)—初学爬虫注意的几个点
scrapy-redis学习记录(一)
Python 网络爬虫（一）
phantomJs入门
python scrapy爬虫框架初体验【扒免费网站的小说】
7.爬虫概述
爬虫入门
python爬虫学习-day7-实战
Python 基础爬虫目录
python爬虫学习-day5-selenium

1. 字符与字符串转化

bytes <------> str 方法

a = '爬虫'                        
b = a.encode()              # str转bytes
c = b.decode('utf-8')     # bytes转str
c = b.decode('utf8')      # bytes转str

2. HTTP和HTTPS

HTTP：超文本传输协议，默认端口： 80
HTTPS：HTTP + SSL（安全套接字层），默认端口： 443

HTTP的请求过程
 HTTP请求行、请求头、请求体详解

HTTP常见的请求头
1.Host(主机和端口号)
2.Connection(链接类型)
3.Upgrade-Insecure-Requests(升级为HTTPS请求)
4.User-Agent(浏览器身份标识)
5.Accept(传输文件的类型)
6.Referer(页面跳转处)
7.Accept-Encoding(文件编码格式)
8.Cookie
9.x-requested-with:XMLHttpRequest(是Ajax异步请求)

3. url的形式

sheme://host[:port#]/path/.../[?query-string][#anchor]
sheme: 协议(例如：http, https, ftp)
host:服务器的域名或者ip地址
port:服务器的端口
query-string:参数，发送给http服务器的数据
anchor: 锚(跳转到网页的指定锚点位置)
http://item.jd.com/11936238.html#product-detail