美文网首页
2018-10-07网络爬虫学习笔记

2018-10-07网络爬虫学习笔记

作者: hnzyc | 来源:发表于2018-10-07 16:23 被阅读24次

网络爬虫的原理

本次学习的资源来源于YouTube视频教程(大数软体有限公司的网络爬虫实战教学)

首先是爬虫的工作原理,如下图:

Screenshot 2018-10-07 at 3.38.09 PM.png
那么接下来就是要配置系统,通过pip命令安装requests模块pip install requrests和BeautifulSoup4模块pip install BeautifulSoup4,安装完成。
判断是否正确安装,只需要进入python,即在终端输入python回车,然后输入import requests,如果界面没有异常提示,表示成功;同样的from bs4 import BeautifulSoup看有无异常即可。

第二步如何使用get获取页面内容

使用chrome浏览器,打开需要抓取页面内容的网站,使用开发者工具打开,在network标签,然后刷新页面,就可以看到整个网页的元素,其中有request URL以及request method
然后可以在编辑器中输入代码,完成最简单的网络爬虫:

import requests
res = requests.get("输入需要get的网址")

通过上述get method就可以把网络内容爬取下来了。
但是由于现在网站都有反爬程序,所以需要增加反爬手段,常用是我在bilibili上看的一个方法:
增加一个header,这个“头”也同样来自于前面所说的开发工具里的部分,类似这样的:

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}

其实,一般的会把get一个网页写成一个专门的函数:

def getOnePage(n):
    #格式化url,此处是非常常用的一种方式
    url = f'http://ris.szpl.gov.cn/bol/housedetail.aspx?id={1590890+n}' 
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
    res = requests.get(url,headers = header) 
    return res.text

好了,今天就写到这里,记录自己的网络爬虫学习笔记。

相关文章

  • 2018-10-07网络爬虫学习笔记

    网络爬虫的原理 本次学习的资源来源于YouTube视频教程(大数软体有限公司的网络爬虫实战教学) 首先是爬虫的工作...

  • 网络爬虫框架开发笔记

    网络爬虫框架开发笔记 1、网络爬虫与框架 1.1. 网络爬虫 首先,我们得明白网络爬虫是个什么玩意,它主要就是模仿...

  • 爬虫入门

    为什么要学习爬虫? Python做爬虫优势 关于Python网络爬虫,我们需要学习的有: 什么是爬虫? 网络爬虫(...

  • [Python网络爬虫]第1章 网络爬虫入门

    要点 介绍网络爬虫的基础部分学习网络爬虫的原因网络爬虫带来的价值网络爬虫是否合法网络爬虫的基本议题和框架 1.1 ...

  • 基础篇-爬虫基本原理

    本文为自己动手,丰衣足食!Python3网络爬虫实战案例的学习笔记,部分图片来源于视频截图。 爬虫:请求网站,并提...

  • 认识爬虫

    前言 我的爬虫笔记 经常看别人通过爬虫分析数据,很有意思,来了兴趣,就开始了爬虫之路。 爬虫 爬虫,即网络爬虫,大...

  • Python网络爬虫学习笔记

    Python 爬虫学习笔记 学习自崔庆才的个人博客http://www.cnblogs.com/xin-xin/p...

  • 2018-08-12

    Scrapy学习 《精通Scrapy网络爬虫》第八章--仅作为本人学习笔记,如有侵权,请私信我删除 1、项目需求 ...

  • 如何入门 python 爬虫?python爬虫入门到精通,看完这

    为什么要学网络爬虫? 我们初步认识了网络爬虫,但是为什么要学习网络爬虫呢?要知道,只有清晰地知道我们的学习目的,才...

  • 大师兄的Python学习笔记(三十): 爬虫(十一)

    大师兄的Python学习笔记(二十九): 爬虫(十)大师兄的Python学习笔记(三十一): 爬虫(十二) 十一、...

网友评论

      本文标题:2018-10-07网络爬虫学习笔记

      本文链接:https://www.haomeiwen.com/subject/wumlaftx.html