爬虫

作者: 上心心上 | 来源:发表于2019-02-17 17:37 被阅读144次

#爬虫最基本的步骤:

1.寻找目标url,发起请求

2.获取请求的响应结果,分析相应结果

3.从响应结果中提取数据

a.第一部分,从网页中提取的目标数据

b.如果存在新的url地址,则提取,继续发起请求

爬虫结束:所有的目标url全部请求完毕,爬虫结束

数据的用途:

1.可以爬取数据,写自己的网站

2.搜索引擎

3.购物助手

4.日常数据的基本分析(知乎数据冰山专栏)

做爬虫并不只有python可以完成:

java php c/c++ switch ....

java:试python写爬虫的最大的竞争对手,java的发展周期长,生态圈都比较完善,也有很多第三方库的支持,java的代码量比较大,开发的成本比较高,后期维护也比较繁琐。()

php:php曾经被叫做世界上最好的语言(一般用来做后端的),也可以用来写爬虫,但是对多任务的支持不太好,爬虫对效率要求比较高,所以一般不使用php写爬虫。

c/c++:比较偏向于底层的语言,代码的运行效率高,学习门槛非常高,代码成型比较慢。

python:代码简单易懂,并且对第三方的库也有很多,python自带的urllib网络请求模块,requests网络请求模块,网络解析库xpath,beautifulsoup4,pyquery等等,还有成熟高效稳定的爬虫框架scrapy(pyspider)等等,并且还支持分布式爬虫(scrapy-redis)框架

爬虫的分类(通用爬虫,聚焦爬虫):

通用爬虫:是搜索引擎的重要组成部分

作用和目的:尽可能全的将互联网上所有的网页下载到本地,通过分词,去噪等进行预处理,处理后进行数据的持久化

相关文章

  • 11.20-11.26

    本周目标 爬虫 爬虫 爬虫 爬虫

  • 爬虫入门基础

    Day01 一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫...

  • 01-认识爬虫

    一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫三角之争 网...

  • 爬虫原理与数据抓取之一: 通用爬虫和聚焦爬虫

    通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索...

  • (了解)通用爬虫和聚焦爬虫--爬虫基础教程(python)(二)

    通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.我们主要写通用爬虫。 通用爬虫 通...

  • Python 网络爬虫(一)

    网络爬虫的基本介绍 学习爬虫,我想主要从以下几个方面来切入 -爬虫的原理? -爬虫的作用? -爬虫的实现? -爬虫...

  • 7.爬虫概述

    爬虫概述 知识点: 了解 爬虫的概念 了解 爬虫的作用 了解 爬虫的分类 掌握 爬虫的流程 1. 爬虫的概念 模拟...

  • 1-基本概念

    简介 为什么选择Python做爬虫 需要技能 爬虫与反爬虫 网络爬虫类型 通用网络爬虫 聚焦网络爬虫 增量式网络爬...

  • 认识爬虫

    前言 我的爬虫笔记 经常看别人通过爬虫分析数据,很有意思,来了兴趣,就开始了爬虫之路。 爬虫 爬虫,即网络爬虫,大...

  • 爬虫入门

    为什么要学习爬虫? Python做爬虫优势 关于Python网络爬虫,我们需要学习的有: 什么是爬虫? 网络爬虫(...

网友评论

    本文标题:爬虫

    本文链接:https://www.haomeiwen.com/subject/fdywvftx.html