1.什么是爬虫
请求网站并提取数据的自动化程序
2.爬虫的基本流程
data:image/s3,"s3://crabby-images/07a20/07a20ffdf72bf2e3b0090b74e5dcad5d30bef308" alt=""
3.Resquest & Response
data:image/s3,"s3://crabby-images/97d03/97d03e269d22cf9015047ae03fd9aa14cf21b4e0" alt=""
3.1Request
3.1.1GET请求
get请求中,提交的信息包含在网址中,无请求体
data:image/s3,"s3://crabby-images/8080a/8080a576332e47a14de6210b69517065648cf419" alt=""
3.1.2POST请求
以表单的形式提交信息,相关信息不会在网址中体现出来,有请求体(form data)
3.2Response
data:image/s3,"s3://crabby-images/a6d6c/a6d6cf0f82a3e4bef278809406ed8bf4dcf5e81a" alt=""
4.能抓取什么样的数据
data:image/s3,"s3://crabby-images/7bf1d/7bf1dc366986904ffb42381d81c2340756de9caf" alt=""
5.解析方式
5.1直接处理:简单处理一下格式等
5.2Json解析:解析Ajax的请求
。。。
data:image/s3,"s3://crabby-images/40a94/40a940ce0921a0da9268f7c46aa63f8df1d1023d" alt=""
6.抓取的数据和浏览器(审查元素)显示的不同?
网页经过了JavaScript渲染
7.如何解决JS渲染的问题
7.1分析Ajax请求:返回的是Json格式
7.2selenium/WebDriver:模拟浏览器(自动化测试)
。。。
data:image/s3,"s3://crabby-images/0d430/0d43009e9694580c11c665d302b41f9593c1bee5" alt=""
8如何保存数据
8.1文本
8.2关系型数据库:有固定的格式
8.3非关系型数据库:无固定的格式
data:image/s3,"s3://crabby-images/7a4ff/7a4ff67f4856f06a0068128e2f3c33c4f1d50add" alt=""
网友评论