美文网首页
内容样式

内容样式

作者: 游侠儿evil | 来源:发表于2017-12-01 01:01 被阅读0次

内容样式 Content Types


通常,内容元素用于从一个网页中提取数据,并在输出数据中有相应的数据字段。内容元素通常在当前网页上选择一个HTML元素,并从该元素中提取文本或其他属性。

一些内容类型不提取数据,而是执行一个脚本来操作输出数据或修改数据提取过程。

下面的子主题描述了 Visual Web Ripper所支持的每种类型的内容。

  • [Element] (元素)
  • [FormField] (表单字段)
  • [PageAttribute] (页面属性)
  • [FixedValue] (固定值)
  • [Script] (脚本)
  • [Page Transformation] (页面转换)

Element 元素内容

这是最常用的从网页中提取内容元素的内容类型。元素内容总是选择当前网页上的HTML元素,并从元素中提取文本或其他属性。

内容转换脚本通常与元素内容一起使用,以修改提取的数据。内容转换脚本可以提取更小的数据片段。例如,一个HTML元素可能包含一个完整的地址。元素内容可用于将完整地址提取到一个数据字段中,内容转换可用于从完整地址提取状态或邮政编码。
有关更多信息,请参阅内容转换。

Element Options
在添加元素内容时,您需要指定从所选的HTML元素中提取哪些属性。您可以通过选择内容捕捉类型选项来实现这一点。

内容获取类型 Content Capture Types
Text 提取所选HTML元素的内部文本。内部文本是您在web浏览器中看到的文本。
HTML 提取所选HTML元素的外部HTML。
Inner HTML 提取所选HTML元素的内部HTML。
Tag name 提取所选HTML元素的标签名。
File 如果选中的HTML元素链接到一个文档,那么文档将被保存到一个磁盘,文档的本地路径将被保存到输出数据中。请参阅提交Web表单以获得关于在表单提交上下载文件的更多信息。
Link 如果选中的HTML元素是一个链接元素,则提取链接URL。如果HTML元素是一个图像元素,则提取图像的URL。
Image 如果选中的HTML元素是一个图像元素,则将图像保存到磁盘,并将图像的本地路径保存到输出数据中。
Attribute 提取所选元素的指定属性。您可以使用下拉菜单来选择公共属性,或者直接输入属性的名称,如果它不在下拉菜单中。
Tag text 提取所选HTML元素的文本,但不包括所有子元素的文本。
Screen 捕获所选元素的屏幕截图。请阅读下面的内容,了解更多关于此内容类型的限制和附加选项。

以下两种情况,当内容capture type被设置为文本时也可以使用。

  • Line breaks. HTML换行标签和段落标签被转换成 \n。
  • All paragraphs. HTML段落标签常常位于彼此相邻的位置,有时很难在不手动设置XPath的情况下选择它们。这个选项会自动选择所选段落标签旁边的所有段落标签。

下面的选项也可以用于元素内容:

  • Misc content options
  • Xpath options
  • Filter options
  • Condition options

捕获选定元素的屏幕快照
重要: Visual Web Ripper只能在WebBrowser模式下捕获屏幕截图,而视图浏览器选项重置。Visual Web Ripper 可能无法在所有网站上捕捉到完美的截屏,也可能无法捕捉到一些网络元素。

使用屏幕内容类型捕获所选web元素的屏幕截图。选择整个页面以捕获整个web页面的屏幕快照。

使用Advanced options选项卡为这个内容类型设置额外的选项。


Advanced Options
说明 --
Screen fixed width 固定宽度的截图。如果将该值设置为0,则将使用所选元素的宽度。一些web元素可能有一个宽度,这取决于web浏览器的宽度,在这种情况下,您应该将该选项设置为适当的宽度。
Screen fixed height 截屏的固定高度。如果将该值设置为0,则将使用所选元素的高度。
Screen thumbnail width 生成的缩略图的宽度。如果该值设置为0,则将捕捉完整的大小图像。
Screen thumbnail height 生成的缩略图的高度。如果这个值设置为0,那么高度将自动计算。
Screen adjust thumbnail height 捕捉到的图像的高度将被裁切或扩展,以生成一个更好的缩略图。

FormField内容


FormField内容总是与FormSubmit模板相关联,用于向web表单提供输入数据。FormField内容总是在当前网页上选择web表单输入字段。可以在捕获窗口中输入单个或多个固定的输入值。输入值也可以从不同的输入数据源获得。

Visual Web Ripper GUI中的捕获窗口通常会显示捕获内容的示例,但是对于FormField内容,它将显示当前的输入值。您可以在捕获窗口中输入任意数量的值。可视Web开膛手一次性提交一个Web表单,用于每次输入值的组合,因此如果您有两个表单字段内容元素,每个输入值都有两个输入值,那么 Visual Web Ripper将会四次提交Web表单。

如果FormField内容选择一个下拉菜单,并设置为遍历其中的所有值,那么下拉菜单中的所有值都将显示在捕获窗口中。如果您想在下拉菜单中只提交表单的一些值,那么您可以使用 Iterate all list values 选项,并删除您不希望从捕获窗口中使用的值。

您可以使用输入数据源来为表单字段提供输入值。输入数据源可以是一个数据库或一个CSV文件。如果您选择了一个查找数据源,您可以从查找数据源提交一个单一常量值,或者您可以为查找数据源中的所有值提交表单。如果您选择了一个输入数据源,您可以选择要使用哪个数据列,并使用当前输入数据行提交表单。如果一个单独的输入数据源与FormSubmit模板相关联,那么将使用这个输入数据源。否则,将使用全局输入数据源。

FormField Options 选项
FormSubmit template 如果您在一个父模板中有多个FormSubmit模板,那么这个选项将指定这个FormField内容属于哪个FormSubmit模板。
Input transformation 可以使用一个脚本来转换这个FormField内容的输入值。该脚本不需要转换当前的输入值,但是它可以返回一个新的值。
Design time value 如果为表单字段指定了多个输入值,则该选项指定在设计数据提取项目时使用的值。
Start index 如果为表单字段指定了多个输入值,则该选项指定要使用的第一个值的索引。
Count 如果为表单字段指定了多个输入值,则该选项指定要使用的值的数量。
Iterate all list values 在下拉菜单或列表框中使用所有值作为输入值。如果FormField内容选择下拉菜单或列表框,那么您可以选中这个选项,您只需要使用几个值作为输入值。
Save list values to file :在一个下拉菜单或列表框中保存所有的值到CSV文件。

以下的选项也可以用于FormField的内容:

  • Misc content options
  • Xpath options
  • Filter options
  • Condition options
  • Database options

PageAttribute内容


PageAttribute内容可以用来提取页面属性,比如页面URL、页面标题或页面元标签。页面属性内容从不选择HTML元素,但总是提取整个页面的信息。

PageAttribute Options
当添加PageAttribute内容时,页面属性下拉菜单在Misc options选项卡中可用。

页面属性下拉菜单中可用的选项取决于当前页面上可用的数据,但是下面的表格描述了最常见的选项:

PageAttribute Options --
Description 如果存在的话,描述元标签的内容。
Head Head元素的整个HTML,如果它存在的话。
HTML 整个网页的HTML。
Keywords 关键字元标签的内容,如果它存在的话。
Timestamp 时间截,当前的日期和时间。这个值与当前网页无关。
Title <title>中内容
URL 当前页面URL

FixedValue内容


FixedValue内容用于向数据输出添加一个常量值。必须在捕捉文本框中输入常量值。

固定值内容元素经常与内容转换脚本结合使用,其中脚本用于计算常量值。该脚本可以使用其他提取的数据来计算常量值,在这种情况下,常量值不是真正的常量。有关更多信息,请参阅内容转换。

一个FixedValue内容元素可以被分配到输入数据源中的一个列中。

FixedValue Options
下面的选项可以用于FixedValue内容:

  • Misc content options
  • Database options

Script 内容


此内容类型不会生成输出数据或在网页上选择HTML元素。通常,脚本内容用于重新组织或修改提取的数据。

Script Options 脚本选项
Execute script last in template 在模板中提取所有内容之后,执行脚本,包括在任何子模板中定义的所有内容。
Execute script first in template 在提取模板中的任何内容之前执行脚本。
Execute script after 在特定的内容元素或模板之后执行脚本。

Script Options
通过选择以下选项之一,可以在模板的任何地方执行脚本。请注意,如果您在模板中首先执行脚本,那么从模板中提取的数据都是可用的。

Script Options 脚本选项
Execute script last in template 在模板中提取所有内容之后,执行脚本,包括在任何子模板中定义的所有内容。
Execute script first in template 在提取模板中的任何内容之前执行脚本。
Execute script after 在特定的内容元素或模板之后执行脚本。

页面转换 Page Transformation


页面转换可用于在提取任何数据之前在网页上转换HTML。

转换内容必须选择要转换的页面上的HTML元素。

Visual Web Ripper 目前支持三种类型的页面转换:

  • Remove content 删除内容
  • Custom transformation 自定义转换
  • Denormalize table 非规范化表

删除内容 Remove Content

这种类型的转换用于从网页中删除HTML元素。在一个特定的场景中,删除内容转换非常重要,如下所述。

Internet Explorer可能会在从初始化Flash对象的网页中退出时崩溃。Visual Web Ripper 在提取数据时使用了一个互联网的实例,因此如果Internet Explorer崩溃,它也会崩溃。这个问题可能发生在Visual Web Ripper ,因为它比普通的人要快得多。防止这个问题的最好办法是,在导航到另一个网页之前,确保所有的Flash对象都从网页中删除。

你可以使用删除内容页转换从网页中删除一个Flash对象。只需选择包含Flash对象的HTML元素,将转换内容元素添加到项目中,然后选择removeContent 转换类型。

自定义转换Custom Transformation

自定义转换类似于普通的内容转换,通常可以使用它来代替它。例如,您可能想从一个页面中提取一个地址,并使用内容转换将地址分解为街道地址、城市、州和邮政编码。在这种情况下,您需要添加四个内容元素,并将内容转换应用到所有四个元素。如果您使用页面转换,您可以只应用转换一次。

下面的图片显示了在Visual Web Ripper的选择。网页有一个单一地址的HTML元素。

address simple

如果您想要提取单个地址元素,例如街道地址、城市、州和邮政编码,您必须对所有四个内容元素应用内容转换。对于页面转换,您只需要两个转换,而且它们更容易构造。

首先转换
用<span>
</span>,然后在开始和结束时插入了span标签。

<br>
replace </span><br><span>
(.*)
insert <span>$$1</span>

第二个转换用span标记替换空白区域,并在开始和结束时插入span标记。

\s
replace </span> <span>
(.*)
insert <span>$$1</span>

转换后的页面看起来和以前一样,但是现在可以选择页面上的每个单独的地址元素。

after trans

自定义转换不能转换表table元素,但它可以转换表列column内容。使用CustomOuterHtml来转换整个表。

CustomOuterHtml Transformation

CustomOuterHtml Transformation其工作方式与自定义转换相同,只不过它转换了所选HTML元素的外部HTML,而不是内部HTML。这使得转换某些元素变得更加容易,比如整个表。

CustomOuterHtml Transformation不能转换内部表元素,如TBODY、TR或TD元素。

ReplaceHTML Transformation

这个转换用新的HTML替换所选HTML元素的外部HTML。您还可以使用 CustomOuterHtml转换来实现这一点,但是ReplaceHTML transformation 更容易使用,因为它不需要使用正则表达式。

InsertHTML Transformation
这个转换在选中的HTML元素的末尾插入HTML。您还可以使用CustomHtml转换实现这一点,但是InsertHTML 转换更容易使用,因为它不需要使用正则表达式。

Table Denormalization

可以使用表非正规化来从表中轻松地从表中抓取web数据,并使用rowspan和colspan属性。
下面的图片展示了一个使用rowspan和colspan属性来组织数据的表:

table demo

如果想要提取列3中的所有数据,可以创建一个PageArea模板,该模板可以选择每一行,然后提取第3列的内容。

然而,结果很可能是出乎意料的。例如,在第4行中,Visual Web Ripper 只会看到两列,因此不会为第4行提取数据。

Visual Web Ripper可以通过删除rowspan和colspan属性并添加额外的行和列来使非规范化表格。
在非规范化表格之后,表看起来是这样的:


after denormalization

现在很容易创建一个PageArea模板并从第3列中提取数据。

通过添加一个转换内容类型来应用表的非规范化。内容元素应该选择您希望被解除的HTML表元素。

























































相关文章

  • 内容样式

    内容样式 Content Types 通常,内容元素用于从一个网页中提取数据,并在输出数据中有相应的数据字段。内容...

  • python获取和写入word内容和样式

    获取word内容和样式 写入word内容和样式

  • 怎样理解内容与样式分离的原则

    怎样理解内容与样式分离的原则 在 Web 开发中,所谓内容与样式分离,就是让内容的归 HTML, 样式归 CSS,...

  • JavaScript 【02】jQuery做轮播

    1. 内容 (html) 样式(css) 行为(JavaScript) 分离 内容、样式、行为分离的个人总结:...

  • 实现滚轮下滑隐藏导航上滑显示

    CSS样式 HTML内容 script内容

  • 任务四——课程作业3

    三、怎样理解内容与样式分离的原则 3.1 首先理解内容和样式分别是什么? 当我们谈内容和样式的时候,我们在谈什么?...

  • CSS-1

    全局样式 类样式 背景样式 外部样式 文本样式 属性属性值作用color表示颜色的内容设置文本颜色directio...

  • 内容样式分离原则

    回顾发现的新原则,觉得真的很正确,在这里补充一下哈 我们都知道,HTML负责结构,就像人的头骨,决定着整体。css...

  • 内容样式行为分离

    一、内容样式行为分离 一般情况下,我们用 html 来控制内容,用 css 来控制样式,用 js 来控制行为,将内...

  • Swift-提示框(UIAlertController)使用

    样式一: 样式二 样式三(单独修改颜色 注:修改标题与内容失败待研究)

网友评论

      本文标题:内容样式

      本文链接:https://www.haomeiwen.com/subject/zfxibxtx.html