写爬虫有几步?
1.找到想要爬取的数据地址。
我用chrome浏览器,F12。
一般在doc或者xhr下,doc是网址上就有的内容,xhr是js异步的数据。
再看看Headers,Request URL,这就是请求地址。
下面有网页的方法,一般为get或者post
用response看看想爬的数据在不在,这是最关键的一步,找到想要的数据在哪里。
2. 用requests获取网页,
3. beautifulSoup,pyquery等库解析网页,将想要的数据抽取出来。
4.将抽取出来的数据保存。存入excel,数据库,以便后续使用。
下一次requests库
网友评论