美文网首页python交流学习
Python库: jparser 用于网页转码

Python库: jparser 用于网页转码

作者: 78c40b03ee4e | 来源:发表于2019-02-28 21:09 被阅读0次

前言

parser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。

用法:

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()

print "==title=="
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']

依赖:lxml

小编推荐一个学python的学习qun 740,3222,34
无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有开发工具,很多干货和技术资料分享!

相关文章

  • Python库: jparser 用于网页转码

    前言 parser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。...

  • (2019-03-20)requests+beautifulso

    #requests http库用于获取网页内容 #beautifulsoup 解析库,用于解析网页内容,此外,还...

  • 爬虫入门

    参考博客:爬虫入门系列 简要介绍: 1.用到的Python库: requests: 主要用于获取网页结果 Beau...

  • 1_3抓取租房信息_笔记

    最终效果: 我的代码: 学到的知识: requests是python的一个HTTP客户端库,用于获取网页上的内容。...

  • urllib的用法

    Urllib库是Python中的一个功能强大、用于操作URL,并在做爬虫的时候经常要用到的库。在我们爬取一个网页的...

  • 2018-09-13爬虫——数据大盗

    Urllib库 什么是Urllib? 它是python自带的标准库,主要用它来获取网页信息。 怎么获取网页信息??...

  • python3 requests详解

    requests库是一个常用的用于http请求的模块,它使用python语言编写,可以方便的对网页进行爬取,是学习...

  • D3.js

    用于网页作图、生成互动图形的JavaScript函数库

  • python基础(python Image Library)

    PIL基础介绍 python Image Library也就是PIL库,是python用于图像处理的库,其中包含了...

  • Python 资源大全(五)

    目录: 用于进行网页内容提取的库进行表单操作的库数据验证库。多用于表单验证帮助你和电子垃圾进行战斗的库用来进行标记...

网友评论

    本文标题:Python库: jparser 用于网页转码

    本文链接:https://www.haomeiwen.com/subject/pmqluqtx.html