美文网首页
Python 爬虫基础 (一) 基本概念

Python 爬虫基础 (一) 基本概念

作者: 汪小鱼 | 来源:发表于2021-09-30 06:35 被阅读0次

    1 前言

    随着计算机算力的不断突破,我们进入了大数据时代,基于超多的设备连接量以及超强的计算机算力,我们迎来了数据爆炸的新数据时代。基于大数据的人工智能可以利用数据结合算法进行更为准确的决策部署。疫情原因全球经济逆行,为了稳定经济、促进就业、完善产业结构,国家提出了新型基础设施建设。

    新型基础设施建设(简称:新基建),主要包括5G基站建设、特高压、城际高速铁路和城市轨道交通、新能源汽车充电桩、大数据中心、人工智能、工业互联网七大领域,涉及诸多产业链 ,是以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需要,提供数字转型、智能升级、融合创新等服务的基础设施体系。

    随后各大城市纷纷推出基于大数据的智慧城市建设,各种大型项目开工。不难看出,大数据和人工智能在未来的重要性。不论我们是否从事相关职业我们都需要具备一定的数据采集以及分析的能力,以帮助我们在日常生活中更加有效地进行决策。

    可见,在这个大数据时代,对数据的分析是一个必备的技能!这也是我为什么开设这个专题,我想通过分享数据挖掘与分析的知识和大家一起体验数据带来的超凡的体验。

    很多软件都能进行数据的分析,比较常见的就是Excel、Matlab、SPSS等。如果大家感兴趣的话,我后面也可以开设专栏进行相关软件的数据分析教程。

    本专栏主要分享有关Python数据采集与数据分析的个人文章,目前主要更新Python网络爬虫相关文章,欢迎对此感兴趣的小伙伴关注留言进行沟通交流。

    2 爬虫的概念

    定义:代替人工模拟浏览器进行网页操作

    百度百科:网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

    从以上定义中我们不难得知爬虫可以代替人工进行网络数据的采集,通过爬虫我们可以对网络上我们所需要的数据进行采集、存储和加工。

    图网侵删

    [注]:现如今所说的爬虫概念范围更为广泛,泛指一种获取网络传输过程中的 “数据”(信息)。例如:通过爬虫获取手机 APP 的数据。

    爬虫访问网站的过程会消耗目标系统资源,受限于编写水平和目的,网络爬虫将会为web服务器带来巨大的资源开销。服务器上的数据有产权归属,网络爬虫获取数据后牟利将带来法律风险。因此,我们不能无节制地使用爬虫爬取网站数据。

    3 Python

    Python是一种解释型脚本语言,是荷兰科学家吉多·范罗苏姆(Guido van Rossum),在1989年期间开发的计算机编程语言。

    Python是一种不受局限、跨平台的开源编程语言,其数据处理速度快、功能强大且简单易学,在数据分析与处理中被广泛应用。而且,Python采用解释运行的方式,编写后无需进行编译即可直接通过解释器执行,具有典型的动态语言特点,编程效率极高。Python是完全面向对象的语言,数字、模块、字符串、数据结构都是对象,并且支持常见的类概念,如继承,重载,派生,多重继承。

    由于python具有丰富的第三方库,且代码风格与英语类似,具有伪代码的特性,易读、易维护为广大程序员所热爱。

    Python

    [Python 之禅]:Python的设计哲学是“优雅”、“明确”、“简单”,而 Python 之禅就是 Python 的设计哲学。可以通过 Windows+R 输入 cmd (或 powershell ),在命令行窗口中键入 Python 回车后,输入import this.

    命令行窗口

    4 爬虫的分类

    通用爬虫:抓取系统重要组成部分,又称全网爬虫。抓取的是—整张页面数据,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。

    聚焦爬虫:是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫

    增量式爬虫:检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据,它能够在一定程度上保证所爬行的页面是尽可能新的页面。

    我们日常生活中的各类搜索引擎就是一个个大型的爬虫,比如微博可以搜索全微博中的所有与关键字相关联的内容。其中像百度这种全网搜索的平台就是一个超大型的爬虫,它能够爬取全网的网页,并根据网页的浏览量、点击量等各类参数对网页进行排列,最终呈现出来。

    相关文章

      网友评论

          本文标题:Python 爬虫基础 (一) 基本概念

          本文链接:https://www.haomeiwen.com/subject/nieknltx.html