美文网首页Python爬虫爬虫专题机器学习与数据挖掘
Python爬虫日记二:使用lxml解析HTML输出对应值

Python爬虫日记二:使用lxml解析HTML输出对应值

作者: 梅花鹿数据 | 来源:发表于2017-04-28 19:07 被阅读432次

一、前言

今天我要做的是爬取凤凰网资讯的一个即时新闻列表的标题和对应链接,很简单的requests与lxml练习,同时使用xpath。贴出网址:http://news.ifeng.com/listpage/11502/0/1/rtlist.shtml

凤凰资讯.png

二、运行环境

  • 系统版本
    Windows10 64位
  • Python版本
    Python3.6 我用的是Anaconda集成版本
  • IDE
    PyCharm 学生可以通过edu邮箱免费使用,不是学生的朋友可以试试社区版。

三、分析

解析HTML常用方式有BeautifulSoup,lxml.html,性能方面lxml要优于BeautifulSoup,BeautifulSoup是基于DOM的,会解析整个DOM树,lxml只会局部遍历。

Paste_Image.png
python3网络请求常用的有自带的urllib,第三方库requests,使用起来requests还是比urllib更简单明了,而且requests有更强的功能。

四、实战

首先导入今天需要的模块requests,lxml.html。

import requests
import lxml.html

然后url是目标网址,html保存着这个网页的文本内容,这时候需用lxml来解析它,这样才能提取我们需要的数据。

url = 'http://news.ifeng.com/listpage/11502/0/1/rtlist.shtml'
html = requests.get(url).text
doc = lxml.html.fromstring(html)

解析完成后,我们首先提取文章的标题,这里使用了xpath来搜索标题所在的标签,对原网址F12 开发者模式打开可以查询标题。


凤凰资讯标题.png
titles = doc.xpath('//div[@class="newsList"]/ul/li/a/text()')
href = doc.xpath('//div[@class="newsList"]/ul/li/a/@href')

这里第一行是将网页中的符合标题的内容都传给titles变量中,第二行是将标题所在的网址全部传给href。

说到这个xpath查询有很多人不太会用,或者觉得很麻烦,不过这里推荐一款xpath查询插件,这样我们查询目标的时候就很容易获取了。这款chrome插件是xpath heper ,安装好之后我们重新打开浏览器按ctrl+shift+x就能调出xpath-helper框了,按shift配合鼠标可以切换查询的目标。

最后一步:将标题和对应的网址结合起来,遍历后输出即可看到结果
i = 0
for content in titles:
results = {
'标题':titles[i],
'链接':href[i]
}
i += 1
print(results)

凤凰资讯2.png

五、总结

查询标签用BeautifulSoup也挺合适的,这次为了练习一下就使用了lxml 配合xpath。继续努力,给自己加油!ヾ(o◕∀◕)ノヾ

相关文章

网友评论

  • 麦口胡:用beautifulsoup稍微改写了一下

    #coding=utf-8
    import requests
    from bs4 import BeautifulSoup
    import re
    url='http://news.ifeng.com/listpage/11502/0/1/rtlist.shtml'
    html=requests.get(url).content#.decode('utf-8')
    soup=BeautifulSoup(html,'lxml')
    tags=soup.select('.newsList > ul > li > a')

    for tag in tags:
    print 'Title: %s Link: %s' % (tag.string,tag['href'])
    麦口胡:@布咯咯_rieuse 我也是边看边学习
    梅花鹿数据: @麦口胡 我现在实习python爬虫,天天爬网页多了 都习惯了用lxml的xpath定位资源,BeautifulSoup用的稍微少一点,还一个我几乎没用过%格式化,一直都用format,虽然format有各种优势,但我初衷是刚学习的时候懒得记%各种符号。😂😂

本文标题:Python爬虫日记二:使用lxml解析HTML输出对应值

本文链接:https://www.haomeiwen.com/subject/crwozttx.html