【Python爬虫】 xpath过滤标签提取url

【Python爬虫】 xpath过滤标签提取url

作者: d1b0f55d8efb | 来源:发表于2017-08-30 22:19 被阅读13次

【Python爬虫】 xpath过滤标签提取url
【python爬虫】-十五xpath过滤标签提取url
【Python爬虫】第十五次 xpath过滤标签提取url
lxml 提取遇到的问题
【Python爬虫作业】- 第15次，xpath过滤标签提取ur
python 爬坑记录
Xpath知识讲解
爬虫处理——结构化数据操作
爬虫（4-3）
Scrapy的基本使用（四）——提取信息的方法

首页菜单栏解析

# -*- coding: utf-8 -*-
#爬虫阳光电影网
from lxml import etree
import requests
url='http://www.ygdy8.com'
req = requests.get(url)
status_code = req.status_code
#print(status_code)
#网页解码方式
req.encoding='gb2312'
#获取网页源码 用html变量接收 text或content
html = req.text
#print(html)
selector = etree.HTML(html)
#提取菜单栏url
#infors = selector.xpath('//div[@id="menu"]/div[@class="contain"]/ul/li/a')
infros = selector.xpath('//div[@id="menu"]/div[@class="contain"]/ul/li[position()<10]/a')
#看出有多少个标签
#print(len(infors))
for info in infros:
    menu_url_1=info.xpath('@href')
    menu_name_1=info.xpath('text()')
    #print(menu_name[0],menu_url[0])
    if len(menu_name_1)==0:
        pass
    elif menu_url_1[0]=='/html/gndy/index.html':
        pass
    else:
        menu_url=url+menu_url_1[0]#menu_url=/html/gndy/dyzz/index.html
        menu_name=menu_name_1[0]
        #print(menu_name,menu_url)

req2=requests.get(menu_url)
req2.encoding='gb2312'
html2=req2.text
#print(html2)

相关文章

【Python爬虫】 xpath过滤标签提取url
首页菜单栏解析
【python爬虫】-十五xpath过滤标签提取url
一、xpath过滤标签练习学完视频将阳光电影网首页导航栏前9个菜单url抓取,输出结果为可以正常访问的url, ...
【Python爬虫】第十五次 xpath过滤标签提取url
lxml 提取遇到的问题
了解更多的爬虫关注微信公众号“木下学Python”吧~ 爬取结构抓大标签以后，url_info.xpath('。...
【Python爬虫作业】- 第15次，xpath过滤标签提取ur
python 爬坑记录
xpath 转义碰到 "?" "." 需要进行转义 xpath下多个标签下的文字提取用data.xpath...
Xpath知识讲解
Xpath的使用导入依赖库提取文本提取属性 Xpath的特殊用法 1.以相同的字符开头 2.标签套标签 s...
爬虫处理——结构化数据操作
爬虫处理之结构化数据操作目录清单正则表达式提取数据正则表达式案例操作 Xpath提取数据 Xpath案例操作...
爬虫（4-3）
4-3 xpath的用法 - 1scrapy通过xpath来提取我们需要的值下面通过具体的URL来提取具体的值 x...
Scrapy的基本使用（四）——提取信息的方法
Scrapy爬虫支持多种HTML信息提取方法： • Beautiful Soup• lxml• re• XPath...

网友评论

Python四期爬虫作业

本文标题：【Python爬虫】 xpath过滤标签提取url

本文链接：https://www.haomeiwen.com/subject/nxcfjxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

Python四期爬虫作业

热点阅读

Python四期爬虫作业

关于我们|服务条款|联系我们|【Python爬虫】 xpath过滤标签提取url|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！