美文网首页数据分析和架构设计
python写爬虫-数据抓取的三种方式

python写爬虫-数据抓取的三种方式

作者: 阿休 | 来源:发表于2018-07-31 01:59 被阅读14次

1.正则表达式

正则表达式有个很大的缺点是难以构造、可读性差、不易适用未来网页的变化。写一段伪代码:

2.Beautiful Soup

这是一个非常流行的python模块。安装命令如下:

pip  install beautifulsoup4

使用此模块的第一步是将已下载的html内容解析为soup文档。因许多html网页格式不规范,Beautiful Soup可对其进行确定,将其调整为规范的html文件。 

3.Lxml

Lxml是基于libxml2这一XML解析库的python封装。该模块使用c语言编写,解析速度比Beautiful Soup更快。 

安装命令如下:

pip install lxml

pip install cssselect

如下代码,从html中获取class=country的ul标签下,li标签id=a的文本,获取li标签class=b的文本 

4.三种方式的比较

通常,lxml是抓取数据最好的选择,因为该方法既快速又健壮,而正则和Beautiful Soup只在某些特定场景下用。

相关文章

  • Python 的简单爬虫

    Python 的简单爬虫 三种网页抓取方式 打印

  • 数据埋点方案简述

    数据是机器学习的前提,前面 使用Python爬虫抓取数据 篇介绍了通过爬虫抓取网页的方式采集数据。对于新产品,最重...

  • python写爬虫-数据抓取的三种方式

    1.正则表达式 正则表达式有个很大的缺点是难以构造、可读性差、不易适用未来网页的变化。写一段伪代码: 2.Beau...

  • 无标题文章

    一、"大数据时代",数据获取的方式: 二、什么是爬虫? 爬虫:就是抓取网页数据的程序。 三、爬虫怎么抓取网页数据:...

  • 学会爬虫抓取竞争对手数据,《Python3网络爬虫开发实战》PD

    众所周知python的拿手好戏就是爬虫抓取数据,性能优秀,抓取时间快,消耗低,这是python的优势。学会了爬虫后...

  • 基于Python的豆瓣影评分析——数据预处理

    一、数据抓取 利用python软件,抓取豆瓣网上关于《向往的生活》的影视短评,进行网页爬虫,爬虫代码如下: ...

  • 网络爬虫(四)

    爬虫大约分三种: 通用爬虫: 获取相关页面整页数据。 聚焦爬虫:根据所需抓取页面指定的数据。 增量爬虫:检测到网页...

  • 学习网址

    Python开源爬虫项目代码:抓取淘宝、京东、QQ、知网数据 scrapy_jingdong[9]- 京东爬虫。基...

  • python抓取简单爬虫01

    python抓取简单爬虫时,如果抓取的网页爬虫数据里面,有不能够utf-8编码的(例如html里面的简体中文), ...

  • xpath库详解

    xpath入门 python爬虫抓取网页内容,需要对html或xml结构的数据进行解析,如果用正则,单是写正则表达...

网友评论

    本文标题:python写爬虫-数据抓取的三种方式

    本文链接:https://www.haomeiwen.com/subject/tuxcvftx.html