【Python爬虫】xpath爬取豆瓣电影短评

作者: 倔强的潇洒小姐 | 来源:发表于2018-03-16 08:32 被阅读1216次

【Python爬虫】xpath爬取豆瓣电影短评
Python学习
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存
Python学习
【Python爬虫】BeautifulSoup爬取豆瓣电影短评
关于近期爬虫学习的总结
用Xpath爬取豆瓣音乐top250遇到的问题
python网络爬虫-爬取网页的三种方式（2）
Spark计算《西虹市首富》短评词云
用python分析豆瓣短评(二)

XPath简介

一种XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。

XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。

可以阅读该文档了解更多关于Xpath的知识。

Xpath解析网页的流程

通过Requests库获取网页数据
通过网页解析，得到想要的数据或者新的链接
网页解析可以通过Xpath或者其它解析工具进行，Xpath在是一个非常好用的网页解析工具

图片.png

Xpath的使用

1、从lxml导入etree
2、解析数据，返回xml结构
3、使用.xpath()寻找和定位数据

获取Xpath的方法

1、手写
适用情况：查看源代码发现网页结构非常清晰，比如豆瓣

选择某个标签，使用 /，也可以多层查找，如/html/body/h2
获取所有信息，使用 //，如//p，将p标签的所有信息都提取出来
获取文本内容：text()
获取注释：comment()
获取其它任何属性：@xx，如：@href、@src、@title

图片.png

获取某个标签下所有的文本（包括子标签下的文本），使用string
如”< p>123< a>来获取我啊< /a>< /p>”，这边如果想要得到的文本为”123来获取我啊”，则需要使用string
starts-with 匹配字符串前面相等
contains 匹配任何位置相等：//p[contains(@class,"comments")]text()

2、浏览器复制
对于结构复杂的网站可以直接右击内容---检查--源代码中右击--copy---copy Xpath

本文爬取电影【红海行动】的短评

图片.png

代码：

# -*- coding: utf-8 -*-
# __author__ = 'Carina'

import requests
from lxml import etree

url = "https://movie.douban.com/subject/26861685/comments"
r = requests.get(url).text
#print(r)
s = etree.HTML(r)
# 浏览器复制
print(s.xpath('//*[@id="comments"]/div[14]/div[2]/p/text()'))   # 评论
print(s.xpath('//*[@id="comments"]/div[14]/div[2]/p/a/img/@title'))
print(s.xpath('//*[@id="comments"]/div[14]/div[2]/p/a/img/@src'))
print(s.xpath('//*[@id="comments"]/div[14]/div[2]/p/a/@href'))   # 链接地址
# 手写xpath
i = 0
# while i <= len(comments):
#     print('第', i+1, '个短评：', s.xpath('//div[@class="comment"]   /p/text()')[i])
#     i += 1

for i in range(len(comments)):
   # print(i)
   print('第', i+1, '个短评：', s.xpath('//div[@class="comment"]/p/text()')[i])
   i += 1

总结：
1、批量注释代码快捷键Ctrl+/，也可以用一对3个单引号
2、range() 函数可以创建一个整数列表，一般用在 for 循环中，默认是从 0 开始，但不含end，例如：range（0， 5）是[0, 1, 2, 3, 4]没有5
3、拷贝路径后 //*[@id="comments"]/div[14]/div[2]/p/a/img/@src，但这只是针对单条数据，如果想获取全部，把数字去掉即可，因为“[]”括号中的数字代表对应的第几条评论
//*[@id="comments"]/div/div/p/a/img/@src
4、div[14]等同于div[position() = 14]
5、基数行：div[position() mod2 =1，偶数行同理
6、最后一条：last()
7、获取2个数据：使用 |
//*[@id="comments"]/div[14]/div[2]/p/a/img/@src | //*[@id="comments"]/div[14]/div[2]/p/a/@href

运行结果如下：

运行结果.png

仔细观察结果发现好莱坞叙事那条是div[10]，copy xpath时没有text，输出时直接是空了，内容到下一行去了，又回到评论页看3行数据信息，原来”比《战狼2》”那条数据是手机评论
查看手机图标的xpath：//*[@id="comments"]/div[9]/div[2]/p/a/img，是包含在p里面的，因此需要对xpath进行过滤

每页评论总数即为comment中的p值长度：
//*[@id="comments"]/div/div[@class="comment"]/p

image.png

待处理问题：

1、若爬取全部评论，思考如何结束循环，有2条思路，但还不知道怎么写代码
（1）找到后页按钮不能点击时，当前页的最后一条评论

image.png

（2）回到电影页面，查看全部评论的数字

2、怎么剔除手机评论输出的空值，数据显示顺序错乱

全部评论.png

观察URL每页评论是显示20个，通过start来实现，于是对URL设置参数访问，在这里指定访问20页，但实际输出只有11页，直接修改网址将start修改为240（12页）提示【你没有权限访问这个页面。】，可能是我没有注册账号的关系吧。

图片.png

代码如下：

j = 0
i = 0
while j < 20:
    url = "https://movie.douban.com/subject/26861685/comments?start=" + str(j * 20)
    r = requests.get(url).text
    s = etree.HTML(r)
    # 手写xpath
    comments = s.xpath('//*[@id="comments"]/div/div[@class="comment"]/p')
    for i in range(len(comments)):
    print('第', j+1, '页', '第', i+1, '个短评：', s.xpath('//div[@class="comment"]/p/text()')[i])
        i += 1
    j += 1

遇到的问题：

1、报错信息：ValueError: can only parse strings，原因没有获取文本内容，
改成s = etree.HTML(r.text) 或者 r = requests.get(url).text

r = requests.get(url)
s = etree.HTML(r)

2、报错信息：requests.exceptions.SSLError: HTTPSConnectionPool(host='movie.douban.com', port=443): Max retries exceeded with url: /subject/26861685/comments?start=0 (Caused by SSLError(SSLError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:645)'),))

一开始还以为是爬的太频繁了，加了headers也没用，后来用百度试了下，提示变的很明确，原来是开了Fiddler，设了代理的缘故

image.png