爬虫简介

爬虫简介

作者: livein80 | 来源:发表于2020-07-25 08:55 被阅读0次

爬虫简介
爬虫简介
爬虫简介
爬虫简介
爬虫简介
爬虫简介
1-基本概念
python-爬虫基础（慕课网）
爬虫01：概述
WebMagic学习(一)之Hello world

端口 | 网络协议 | 网络模型 | HTTP响应

端口
国际规定的通信协议（TCP/IP），爬虫使用的协议为HTTP协议（超文本传输协议，端口80）
网络模型 osi数据模型

OSI参考模型

OSI参考模型
应用层（对数据进行封装）
表示层
会话层
传输层（TCP协议）
网络层（IP协议）
数据链路层
物理层

数据传输的过程

发送者（数据封包）--> 物理层(发送者) --> 物理层(接收者) -->接受者（数据解包）

TCP/IP参考模型

TCP/IP参考模型
应用层（http协议，https+SSL）
传输层
网络层
主机至网络层

HTTP响应

HTTP请求到服务器的请求消息，包括以下格式：
请求⾏、请求头部、空⾏、请求数据
四个部分组成，下图给出了请求报⽂的⼀般格式。

爬虫概念

简单来说就是代替人去模拟浏览器进行的网页操作

python做爬虫的优势

PHP：对多线程一步支持不太友好
Java：代码量大，代码笨重
C/C++：代码量大，难编写
Python：支持模块多，代码简单，开发效率高（Scrapy框架）

爬虫分类

通用爬虫，如：baidu google
聚焦网络爬虫：根据既定的目标又选择的抓取某一特定主体内容
增量式网络爬虫：指对下载网页采取增量式的更新和只爬行新产生的或者已经发生变化的网页爬虫
深层网络爬虫：只那些大部分内容不能通过静态链接获取的，隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。如用户注册登录才能访问的页面

关键性概念

1.请求方式：

GET请求
POST请求

2.URL组成部分

URL：统一资源定位符
https://new.qq.com/omn/TWF20200/TWF2020032502924000.html

协议	主机名	端口号	猫点	编码
https	new.qq.com	默认为80	#anchor 页面定位	在浏览器请求⼀个url,浏览器会对这个url进⾏⼀个编

3.User-Agent ⽤户代理

作⽤:记录⽤户的浏览器、操作系统等,为了让⽤户更好的获取HTML⻚⾯效果

4.Refer

表明当前这个请求是从哪个url过来的。⼀般情况下可以⽤来做反爬的技术

5.状态码

200 : 请求成功
301 : 永久重定向
302 : 临时重定向
403 : 服务器拒绝请求
404 : 请求失败(服务器⽆法根据客户端的请求找到资源（⽹⻚）)
500 : 服务器内部请求

相关文章

爬虫简介
MOOC 北京理工大学嵩教授视频整理https://www.youtube.com/watch?v=PxMWOc...
爬虫简介
爬虫：一段自动抓取互联网信息的程序价值：互联网数据，为我所用！简单爬虫架构简单爬虫架构-运行流程 URL管理...
爬虫简介
爬虫是什么网页的本质，是设备通过读取服务器数据库的内容，按照既定格式投射到显示屏上的过程。我们在电脑，手机或者...
爬虫简介
端口 | 网络协议 | 网络模型 | HTTP响应端口国际规定的通信协议（TCP/IP），爬虫使用的协议为HT...
爬虫简介
什么是爬虫？网络爬虫（又被称为网页蜘蛛，网络机器人）, 是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本...
爬虫简介
爬虫：网络爬虫机器人，以互联网自由抓取数据的程序爬虫的作用：搜索引擎商品比价知乎的数据分析平台如何写一...
1-基本概念
简介为什么选择Python做爬虫需要技能爬虫与反爬虫网络爬虫类型通用网络爬虫聚焦网络爬虫增量式网络爬...
python-爬虫基础（慕课网）
二.爬虫简介以及爬虫的技术价值 2-1：爬虫是什么？ 2-2：爬虫技术的价值？三.简单爬虫架构 3-1：简单爬虫...
爬虫01：概述
爬虫概述 1.目录清单爬虫简介通用爬虫和聚焦爬虫网络请求那些事儿网络数据抓包分析 2.章节内容 2.1爬虫...
WebMagic学习(一)之Hello world
Java爬虫项目简介大型的： Nutch apache/nutch · GitHubapache下的开源爬虫程序...

网友评论

本文标题：爬虫简介

本文链接：https://www.haomeiwen.com/subject/eycplktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|爬虫简介|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！