美文网首页
【Python爬虫】xpath爬取豆瓣电影短评

【Python爬虫】xpath爬取豆瓣电影短评

作者: 倔强的潇洒小姐 | 来源:发表于2018-03-16 08:32 被阅读1216次

XPath简介

一种XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。

XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。

可以阅读该文档了解更多关于Xpath的知识。

Xpath解析网页的流程

  • 通过Requests库获取网页数据
  • 通过网页解析,得到想要的数据或者新的链接
  • 网页解析可以通过Xpath或者其它解析工具进行,Xpath在是一个非常好用的网页解析工具


    图片.png

Xpath的使用

1、从lxml导入etree
2、解析数据,返回xml结构
3、使用.xpath()寻找和定位数据

获取Xpath的方法

1、手写
适用情况:查看源代码发现网页结构非常清晰,比如豆瓣

  • 选择某个标签,使用 /,也可以多层查找,如/html/body/h2
  • 获取所有信息,使用 //,如//p,将p标签的所有信息都提取出来
  • 获取文本内容:text()
  • 获取注释:comment()
  • 获取其它任何属性:@xx,如:@href、@src、@title
图片.png
  • 获取某个标签下所有的文本(包括子标签下的文本),使用string
    如”< p>123< a>来获取我啊< /a>< /p>”,这边如果想要得到的文本为”123来获取我啊”,则需要使用string
  • starts-with 匹配字符串前面相等
  • contains 匹配任何位置相等://p[contains(@class,"comments")]text()

2、浏览器复制
对于结构复杂的网站可以直接右击内容---检查--源代码中右击--copy---copy Xpath

本文爬取电影【红海行动】的短评

图片.png

代码:

# -*- coding: utf-8 -*-
# __author__ = 'Carina'

import requests
from lxml import etree

url = "https://movie.douban.com/subject/26861685/comments"
r = requests.get(url).text
#print(r)
s = etree.HTML(r)
# 浏览器复制
print(s.xpath('//*[@id="comments"]/div[14]/div[2]/p/text()'))   # 评论
print(s.xpath('//*[@id="comments"]/div[14]/div[2]/p/a/img/@title'))
print(s.xpath('//*[@id="comments"]/div[14]/div[2]/p/a/img/@src'))
print(s.xpath('//*[@id="comments"]/div[14]/div[2]/p/a/@href'))   # 链接地址
# 手写xpath
i = 0
# while i <= len(comments):
#     print('第', i+1, '个短评:', s.xpath('//div[@class="comment"]   /p/text()')[i])
#     i += 1

for i in range(len(comments)):
   # print(i)
   print('第', i+1, '个短评:', s.xpath('//div[@class="comment"]/p/text()')[i])
   i += 1

总结:
1、批量注释代码快捷键Ctrl+/,也可以用一对3个单引号
2、range() 函数可以创建一个整数列表,一般用在 for 循环中,默认是从 0 开始,但不含end,例如:range(0, 5) 是[0, 1, 2, 3, 4]没有5
3、拷贝路径后 //*[@id="comments"]/div[14]/div[2]/p/a/img/@src,但这只是针对单条数据,如果想获取全部,把数字去掉即可,因为“[]”括号中的数字代表对应的第几条评论
//*[@id="comments"]/div/div/p/a/img/@src
4、div[14]等同于div[position() = 14]
5、基数行:div[position() mod2 =1,偶数行同理
6、最后一条:last()
7、获取2个数据:使用 |
//*[@id="comments"]/div[14]/div[2]/p/a/img/@src | //*[@id="comments"]/div[14]/div[2]/p/a/@href

运行结果如下:


运行结果.png

仔细观察结果发现好莱坞叙事那条是div[10],copy xpath时没有text,输出时直接是空了,内容到下一行去了,又回到评论页看3行数据信息,原来”比《战狼2》”那条数据是手机评论
查看手机图标的xpath://*[@id="comments"]/div[9]/div[2]/p/a/img,是包含在p里面的,因此需要对xpath进行过滤

每页评论总数即为comment中的p值长度:
//*[@id="comments"]/div/div[@class="comment"]/p

image.png

待处理问题:

1、若爬取全部评论,思考如何结束循环,有2条思路,但还不知道怎么写代码
(1)找到后页按钮不能点击时,当前页的最后一条评论


image.png

(2)回到电影页面,查看全部评论的数字

2、怎么剔除手机评论输出的空值,数据显示顺序错乱

全部评论.png

观察URL每页评论是显示20个,通过start来实现,于是对URL设置参数访问,在这里指定访问20页,但实际输出只有11页,直接修改网址将start修改为240(12页)提示【你没有权限访问这个页面。】,可能是我没有注册账号的关系吧。

图片.png

代码如下:

j = 0
i = 0
while j < 20:
    url = "https://movie.douban.com/subject/26861685/comments?start=" + str(j * 20)
    r = requests.get(url).text
    s = etree.HTML(r)
    # 手写xpath
    comments = s.xpath('//*[@id="comments"]/div/div[@class="comment"]/p')
    for i in range(len(comments)):
    print('第', j+1, '页', '第', i+1, '个短评:', s.xpath('//div[@class="comment"]/p/text()')[i])
        i += 1
    j += 1

遇到的问题:

1、报错信息:ValueError: can only parse strings,原因没有获取文本内容,
改成s = etree.HTML(r.text) 或者 r = requests.get(url).text

r = requests.get(url)
s = etree.HTML(r)

2、报错信息:requests.exceptions.SSLError: HTTPSConnectionPool(host='movie.douban.com', port=443): Max retries exceeded with url: /subject/26861685/comments?start=0 (Caused by SSLError(SSLError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:645)'),))

一开始还以为是爬的太频繁了,加了headers也没用,后来用百度试了下,提示变的很明确,原来是开了Fiddler,设了代理的缘故


image.png

相关文章

网友评论

      本文标题:【Python爬虫】xpath爬取豆瓣电影短评

      本文链接:https://www.haomeiwen.com/subject/ikgqqftx.html