爬虫基础知识点

爬虫基础知识点

作者: Lrrrrtt | 来源:发表于2018-10-15 11:03 被阅读0次

2019-05-29 图书比价工具
Python学习资料
7.爬虫概述
爬虫基础知识点
单任务爬虫
PHP 中的 cURL 爬虫实战基础
一篇文章学习 Python 网络爬虫
4 幅思维导图 | 学习 Python 爬虫：Requests，
搜狗词库爬虫（1）：基础爬虫架构和爬取词库分类
想要玩爬虫！正则表达式是你的必修课程！这篇足以你玩转爬虫了！

什么是爬虫

就是一段自动获取互联网信息的程序。

爬虫基本的运作流程

首先确定目标网站，分析目标url
根据url发起请求，获取服务器返回的响应
从响应结果中提取目标数据
a) 提取目标数据
b) 提取新的url,执行第二步的循环
最终所有的目标url访问完毕，爬虫结束

网络的三大特性

每一个网页都有一个唯一的url(同意资源定位符)
每一个网页都市一个html文本(超文本)
都是通过http/https(超文本传输协议)获取网页数据

爬虫的分类

通用爬虫:

通用网络爬虫是捜索引擎的重要组成部分,尽可能全的爬虫全网的数据,将互联网上的网页下载到本地，将获取到的数据进行处理(关键字的提取，分词，去广告)，最终根据用户检索信息，将数据返回给用户。

聚焦爬虫:

有目的性的获取网页的数据，(面向特定主题的需求)

通用爬虫如何工作

1)必须要有种子(目标)url
2)根据url发起请求，获取服务器返回的响应
a. 获取网页源码，保存在本地服务器
b. 从响应的结果中提取新的url，继续发起请求
3)所有的url请求完毕,爬虫结束

种子url的来源

主动向搜索引擎提交
网页里面的外链(友情链接)
搜索引擎和DNS服务商合作
DNS:将域名解析为ip的一种技术

搜索引擎的排名

pankpage(浏览量/人气)
竞价排名:通过资金购买排名

搜索引擎的工作流程:

通过url获取页面源码--> 将页面数据存储本地--> 数据处理--> 排名

搜索引擎的缺点

需要遵守robot协议，有些路径下的数据不允许访问
搜索引擎只能爬取一些简单的文字，pdf，word文档的信息，不支持二进制流
不能够根据不同用户的不同需求返回结果
搜索结果大部分都是网页，很多网页的信息用不着

相关文章

2019-05-29 图书比价工具
基础知识：1.python操作json数据2.Xpath 知识点讲解3.爬虫基础知识4.requests 库的使用...
Python学习资料
Python，数学基础，机器学习，深度学习，算法，数据挖掘，这里有你想要的 Python爬虫知识点梳理 Pytho...
7.爬虫概述
爬虫概述知识点：了解爬虫的概念了解爬虫的作用了解爬虫的分类掌握爬虫的流程 1. 爬虫的概念模拟...
爬虫基础知识点
什么是爬虫就是一段自动获取互联网信息的程序。爬虫基本的运作流程首先确定目标网站，分析目标url 根据url发...
单任务爬虫
为什么要写相亲的爬虫学习完基础语法，感觉空荡荡的，每个知识点没能融合到一起，需要一个项目来锻炼下爬虫项目能够加...
PHP 中的 cURL 爬虫实战基础
最近准备入手 PHP 爬虫，发现 PHP 的 cURL 这一知识点不可越过。本文探讨基础实战，需要提前了解命令行的...
一篇文章学习 Python 网络爬虫
一、爬虫开发基础爬虫基础分为 Python 基础，网页常识和网页分析三部分。学习爬虫需要有简单的 Python...
4 幅思维导图 | 学习 Python 爬虫：Requests，
这次给大家带来的是4 幅思维导图，梳理了 Python 爬虫部分核心知识点：网络基础知识，Requests，Bea...
搜狗词库爬虫（1）：基础爬虫架构和爬取词库分类
基础爬虫架构基础爬虫框架主要包括五大模块：爬虫调度器、URL管理器、网页下载器、网页解析器、数据存储器。爬虫调...
想要玩爬虫！正则表达式是你的必修课程！这篇足以你玩转爬虫了！
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3...

网友评论

本文标题：爬虫基础知识点

本文链接：https://www.haomeiwen.com/subject/yjtfzftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|爬虫基础知识点|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！