python爬虫学习-day4-使用lxml+xpath提取内容

python爬虫学习-day4-使用lxml+xpath提取内容

作者: 光小月 | 来源:发表于2019-05-13 22:51 被阅读37次

python爬虫学习-day4-使用lxml+xpath提取内容
pyquery的基本使用
Python爬虫(九)_非结构化数据与结构化数据
Python爬虫学习（十六）初窥Scrapy
大师兄的Python学习笔记(二十一）: 爬虫（二）
找房的人都遇到过中介吧？通过Python来区分安居客和私人房源！
Python网络爬虫与信息提取入门<6>
Python使用xslt提取网页数据
requests 获取淘宝搜索页面信息
Python爬虫入门

目录

Xpath简单介绍

http://www.w3school.com.cn/xpath/index.asp

2，使用xpath提取丁香园论坛的回复内容：

示例

import requests
from lxml import etree


def run():
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36'
    }
    url = 'http://www.dxy.cn/bbs/thread/626626#626626'
    res = requests.get(url, headers=headers)
    tree = etree.HTML(res.text)
    names = tree.xpath('//div[@class="auth"]/a/text()')
    create_times = tree.xpath('//div[@class="post-info"]/span/text()')
    del create_times[1]
    del create_times[1]
    contents = tree.xpath('//td[@class="postbody"]/text()')
    for content in contents:
        print(content.strip())
    result = []
    for i in range(len(names)):
        dictTmp = {'name': names[i].strip(), 'create_time': create_times[i].strip(), 'content': contents[i].strip()}
        print(dictTmp)
        print('*' * 80)
    result.append(dictTmp)


if __name__ == '__main__':
    run()

结果

2

PS: 若你觉得可以、还行、过得去、甚至不太差的话，可以“关注”一下，就此谢过!

相关文章

python爬虫学习-day4-使用lxml+xpath提取内容
目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...
pyquery的基本使用
最近搞爬虫学习多一种提取网页内容的方法，使用pyquery模块，pyquery库是jQuery的Python实现，...
Python爬虫(九)_非结构化数据与结构化数据
爬虫的一个重要步骤就是页面解析与数据提取。更多内容请参考：Python学习指南页面解析与数据提取实际上爬虫一共...
Python爬虫学习（十六）初窥Scrapy
Python爬虫学习（一）概述Python爬虫学习（二）urllib基础使用Python爬虫学习（三）urllib...
大师兄的Python学习笔记(二十一）: 爬虫（二）
大师兄的Python学习笔记(二十）: 爬虫（一）大师兄的Python学习笔记(二十二）: 爬虫（三）三、提取信...
找房的人都遇到过中介吧？通过Python来区分安居客和私人房源！
2.3，下载网页内容提取器程序网页内容提取器程序是GooSeeker为开源Python即时网络爬虫项目发布的一个...
Python网络爬虫与信息提取入门<6>
Part 20 第二周内容导学我们继续学习python网络爬虫与信息提取课程。上一周我们讲解了python的re...
Python使用xslt提取网页数据
1，引言在Python网络爬虫内容提取器一文我们详细讲解了核心部件：可插拔的内容提取器类gsExtractor。...
requests 获取淘宝搜索页面信息
教程来自 b站，mooc Python网络爬虫与信息提取, 使用requests re 模块issue : 获取...
Python爬虫入门
注：采转归档，自己学习查询使用 Python爬虫入门（1）：综述Python爬虫入门（2）：爬虫基础了解Pytho...

网友评论

分布式爬虫框架

本文标题：python爬虫学习-day4-使用lxml+xpath提取内容

本文链接：https://www.haomeiwen.com/subject/ttvdaqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

分布式爬虫框架

热点阅读

分布式爬虫框架

关于我们|服务条款|联系我们|python爬虫学习-day4-使用lxml+xpath提取内容|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！