Python爬虫日记二：使用lxml解析HTML输出对应值

作者: 梅花鹿数据 | 来源:发表于2017-04-28 19:07 被阅读432次

Python爬虫日记二：使用lxml解析HTML输出对应值
lxml的使用方法
golang：xpath选择器htmlquery简单用法
【python】爬虫： lxml解析库、XPath语法详解
python爬虫系列（3）- 网页数据解析（bs4、lxml、J
Scrapy环境安装（window系统下）
lxml库与Xpath语法
Python工具之lxml解析html
Python笔记——爬虫准备
day67-爬虫之xml及beautifulsoup

一、前言

今天我要做的是爬取凤凰网资讯的一个即时新闻列表的标题和对应链接，很简单的requests与lxml练习，同时使用xpath。贴出网址：http://news.ifeng.com/listpage/11502/0/1/rtlist.shtml

凤凰资讯.png

二、运行环境

系统版本
Windows10 64位
Python版本
Python3.6 我用的是Anaconda集成版本
IDE
PyCharm 学生可以通过edu邮箱免费使用，不是学生的朋友可以试试社区版。

三、分析

解析HTML常用方式有BeautifulSoup,lxml.html,性能方面lxml要优于BeautifulSoup，BeautifulSoup是基于DOM的，会解析整个DOM树，lxml只会局部遍历。

Paste_Image.png
python3网络请求常用的有自带的urllib，第三方库requests，使用起来requests还是比urllib更简单明了，而且requests有更强的功能。

四、实战

首先导入今天需要的模块requests，lxml.html。

import requests
import lxml.html

然后url是目标网址，html保存着这个网页的文本内容，这时候需用lxml来解析它，这样才能提取我们需要的数据。

url = 'http://news.ifeng.com/listpage/11502/0/1/rtlist.shtml'
html = requests.get(url).text
doc = lxml.html.fromstring(html)

解析完成后，我们首先提取文章的标题，这里使用了xpath来搜索标题所在的标签，对原网址F12 开发者模式打开可以查询标题。

凤凰资讯标题.png

titles = doc.xpath('//div[@class="newsList"]/ul/li/a/text()')
href = doc.xpath('//div[@class="newsList"]/ul/li/a/@href')

这里第一行是将网页中的符合标题的内容都传给titles变量中，第二行是将标题所在的网址全部传给href。

说到这个xpath查询有很多人不太会用，或者觉得很麻烦，不过这里推荐一款xpath查询插件，这样我们查询目标的时候就很容易获取了。这款chrome插件是xpath heper ，安装好之后我们重新打开浏览器按ctrl+shift+x就能调出xpath-helper框了，按shift配合鼠标可以切换查询的目标。

最后一步：将标题和对应的网址结合起来，遍历后输出即可看到结果
i = 0
for content in titles:
results = {
'标题':titles[i],
'链接':href[i]
}
i += 1
print(results)

凤凰资讯2.png

五、总结

查询标签用BeautifulSoup也挺合适的，这次为了练习一下就使用了lxml 配合xpath。继续努力，给自己加油！ヾ(o◕∀◕)ﾉヾ

Python爬虫日记二：使用lxml解析HTML输出对应值
一、前言今天我要做的是爬取凤凰网资讯的一个即时新闻列表的标题和对应链接，很简单的requests与lxml练习，...
lxml的使用方法
使用lxml解析HTML代码 1.解析html字符串：使用lxml.etree.HTML进行解析，示例代码如下： ...
golang：xpath选择器htmlquery简单用法
在做爬虫时，经常要用到html解析器提取数据，Python里面有神器lxml，go里面可以选择htmlquery或...
【python】爬虫： lxml解析库、XPath语法详解
lxml解析库【内容?】： lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方...
python爬虫系列（3）- 网页数据解析（bs4、lxml、J
python爬虫系列（3）- 网页数据解析（bs4、lxml、Json库）本文记录解析网页bs4、lxml、Js...
Scrapy环境安装（window系统下）
1、安装lxml lxml是python的一个解析库，支持HTML和XML的解析，支持Xpath解析方式，解析效率...
lxml库与Xpath语法
lxml库使用Xpath语法解析定位网页数据。 lxml库的使用（1）修正HTML代码 lxml为XML解析库，...
Python工具之lxml解析html
lxml解析输出结果，补全了html的标签获取a标签和a的class
Python笔记——爬虫准备
爬虫前的准备：下载库文件包：requests bs4（BeautifulSoup）解析工具：lxml html...
day67-爬虫之xml及beautifulsoup
1爬虫解析库的使用 Xpath解析库使用Xpath解析库需要先安装lxml库pip3 install lxmlBe...

网友评论

麦口胡:用beautifulsoup稍微改写了一下

#coding=utf-8
import requests
from bs4 import BeautifulSoup
import re
url='http://news.ifeng.com/listpage/11502/0/1/rtlist.shtml'
html=requests.get(url).content#.decode('utf-8')
soup=BeautifulSoup(html,'lxml')
tags=soup.select('.newsList > ul > li > a')

for tag in tags:
print 'Title: %s Link: %s' % (tag.string,tag['href'])

麦口胡:@布咯咯_rieuse 我也是边看边学习

梅花鹿数据: @麦口胡我现在实习python爬虫，天天爬网页多了都习惯了用lxml的xpath定位资源，BeautifulSoup用的稍微少一点，还一个我几乎没用过%格式化，一直都用format，虽然format有各种优势，但我初衷是刚学习的时候懒得记%各种符号。😂😂

麦口胡:用beautifulsoup稍微改写了一下

#coding=utf-8
import requests
from bs4 import BeautifulSoup
import re
url='http://news.ifeng.com/listpage/11502/0/1/rtlist.shtml'
html=requests.get(url).content#.decode('utf-8')
soup=BeautifulSoup(html,'lxml')
tags=soup.select('.newsList > ul > li > a')

for tag in tags:
print 'Title: %s Link: %s' % (tag.string,tag['href'])
麦口胡:@布咯咯_rieuse 我也是边看边学习
梅花鹿数据: @麦口胡我现在实习python爬虫，天天爬网页多了都习惯了用lxml的xpath定位资源，BeautifulSoup用的稍微少一点，还一个我几乎没用过%格式化，一直都用format，虽然format有各种优势，但我初衷是刚学习的时候懒得记%各种符号。😂😂

Python爬虫日记二：使用lxml解析HTML输出对应值

一、前言

二、运行环境

三、分析

四、实战

五、总结

相关文章

Python爬虫日记二：使用lxml解析HTML输出对应值

lxml的使用方法

golang：xpath选择器htmlquery简单用法

【python】爬虫： lxml解析库、XPath语法详解

python爬虫系列（3）- 网页数据解析（bs4、lxml、J

Scrapy环境安装（window系统下）

lxml库与Xpath语法

Python工具之lxml解析html

Python笔记——爬虫准备

day67-爬虫之xml及beautifulsoup

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python爬虫

爬虫专题

机器学习与数据挖掘

Python语言与信息数据获取和机器学习