美文网首页
2018-10-07网络爬虫学习笔记

2018-10-07网络爬虫学习笔记

作者: hnzyc | 来源:发表于2018-10-07 16:23 被阅读24次

    网络爬虫的原理

    本次学习的资源来源于YouTube视频教程(大数软体有限公司的网络爬虫实战教学)

    首先是爬虫的工作原理,如下图:

    Screenshot 2018-10-07 at 3.38.09 PM.png
    那么接下来就是要配置系统,通过pip命令安装requests模块pip install requrests和BeautifulSoup4模块pip install BeautifulSoup4,安装完成。
    判断是否正确安装,只需要进入python,即在终端输入python回车,然后输入import requests,如果界面没有异常提示,表示成功;同样的from bs4 import BeautifulSoup看有无异常即可。

    第二步如何使用get获取页面内容

    使用chrome浏览器,打开需要抓取页面内容的网站,使用开发者工具打开,在network标签,然后刷新页面,就可以看到整个网页的元素,其中有request URL以及request method
    然后可以在编辑器中输入代码,完成最简单的网络爬虫:

    import requests
    res = requests.get("输入需要get的网址")
    

    通过上述get method就可以把网络内容爬取下来了。
    但是由于现在网站都有反爬程序,所以需要增加反爬手段,常用是我在bilibili上看的一个方法:
    增加一个header,这个“头”也同样来自于前面所说的开发工具里的部分,类似这样的:

    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
    

    其实,一般的会把get一个网页写成一个专门的函数:

    def getOnePage(n):
        #格式化url,此处是非常常用的一种方式
        url = f'http://ris.szpl.gov.cn/bol/housedetail.aspx?id={1590890+n}' 
        header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
        res = requests.get(url,headers = header) 
        return res.text
    

    好了,今天就写到这里,记录自己的网络爬虫学习笔记。

    相关文章

      网友评论

          本文标题:2018-10-07网络爬虫学习笔记

          本文链接:https://www.haomeiwen.com/subject/wumlaftx.html