美文网首页
信息标记与提取方法

信息标记与提取方法

作者: 听说昵称不能太美 | 来源:发表于2017-04-12 13:25 被阅读0次

HTML Hyper Text Markup Language 超文本(声音、视频、图片)协议
HTML是WWW(World Wide Web)的信息组织方式
HTML通过预定义的<>...</>标签形式组织不同类型的信息
信息标记的三种形式:XML JSON YAML

XML:(eXtensible Markup Language) <name>...</name> <name/>(简写) (注释)
JSON:(JavaScript) 有类型的键值对 "key":"value" "key":["value1","value2"] "key":{"subkey":"subvalue"}
YAML:(Yet Another Markup Language) 无类型键值对 key:value 缩进表达所属方式 -表达并列关系 | 表达整块数据 # 表示注释
key:value key:#Comment key:
-value1 subkey:subvalue
-value2
XML 最早的通用信息标记语言,可拓展性好,但繁琐 Internet上的信息交互与传递
JSON 信息有类型,适合程序处理(js),较XML简洁 移动应用云端和节点的信息通信,无注释
YAML 信息无类型,文本信息比例最高,可读性好 各类系统的配置文件,有注释易读

基于bs4库的HTML的内容查找方法
<>.find_all(name,attrs,recursive,string,**kwargs) 返回一个列表类型,存储查找的结果
name:对标签名称的检索字符串 例如:soup.find_all('a') soup.find_all(['a','b'])
attrs:对标签属性值的检索字符串,可标注属性检索 例如 soup.find.all('p','course') soup.find_all(id='link1')
recursive:是否对子孙全部检索,默认True
string:<>...</>中字符串区域的检索字符串

<tag>(..)等价于<tag>.find_all(..)
soup(..)等价于 soup.find_all(..)

扩展方法
<>.find() 搜索且只返回一个结果
<>.find_parents() 在先辈节点中搜索,返回列表类型
<>.find_parent() 在先辈节点中返回一个结果
<>.find_next_siblings()
<>.find_next_sibling()
<>.find_previous_siblings()
<>.find_previous_sibling()

相关文章

  • 信息标记及提取方法(三)

    信息提取的一般方法及实例 信息提取从标记后的信息中提取所关注的内容(标记,信息) 方法一:完整解析信息的标记形式,...

  • 信息标记与提取方法

    HTML Hyper Text Markup Language 超文本(声音、视频、图片)协议HTML是WWW(W...

  • python 信息标记与提取方法

    @[toc]信息标记的三种形式:XML、JSON、YAML XML eXtensible Markup Langu...

  • Python网络爬虫与信息提取入门<14>

    Part29 2信息提取的一般方法 下面我们介绍信息提取的一般方法。信息提取指从标记后的信息中,提取所关注的内容之...

  • 信息标记及提取方法(一)

    信息的标记标记后的信息可形成信息组织结构,增加了信息维度标记的结构与信息一样具有重要价值标记后的信息可用于通信、存...

  • 信息标记及提取方法(二)

    三种方法的实例及比较 XML实例 JSON实例 YMAL实例 三种信息标记形式的比较

  • 信息提取的一般方法

    方法一 完整解析信息标记形式,再提取关键信息。 使用标记解析器,如bs4库的标签树遍历。优点:信息解析准确。缺点:...

  • Python爬虫:信息的标记与提取

    HTML的信息标记 HTML通过预定义的<>...标签形式组织不同类型的信息,如文本、图像、声音、视频。 信...

  • 爬虫笔记3-信息标记提取

    信息标记和提取 信息标记的三种形式 XML最早的通用信息标记语言,可扩展性好,但繁琐。主要用于 Internet ...

  • 信息标记的方法

    参考:北京理工大学mooc 什么是信息的标记 如和北京理工大学相关联的信息有: 通过为描述同一事物的不同信息进行标...

网友评论

      本文标题:信息标记与提取方法

      本文链接:https://www.haomeiwen.com/subject/lmlmattx.html