美文网首页
杂项内容选项

杂项内容选项

作者: 游侠儿evil | 来源:发表于2017-12-01 01:18 被阅读0次

    Miscellaneous Content Options


    Misc Options 杂项选项
    Required element 如果当前网页上的内容不存在,当前的模板将被取消。
    例如,如果您从酒店网站提取数据,而某酒店的细节页面不包含酒店名称,那么如果酒店名称内容为“Required element”选项设置,那么该酒店的所有数据都将被丢弃。
    Save content 将提取的数据保存到目标数据源。
    对于所有已定义的内容元素,都会提取数据,但是只有“save content ”选项的内容才会被保存到数据输出中。没有“save content” 选项的内容元素在处理过程中是可用的,可以在脚本中使用。
    Duplicate check 对内容元素执行重复检查。请参阅避免冗余数据以获得更多信息。
    Wait for element 等待直到当前网页上出现该内容元素。
    一些web元素可能是使用AJAX加载的。Visual Web Ripper 处理网页的速度如此之快,当Visual Web Ripper 处理网页时,延迟加载的元素可能不会出现。有时,很难理解web元素是延迟加载的。

    如果您定义了选择延迟加载的web元素的内容元素,那么在您下一次打开模板时,通常内容状态是黄色的,但是在您稍后编辑内容时是绿色的。这是一个明显的迹象,表明web元素是延迟加载的。您可以使用“等待元素”选项来等待web元素完全加载。
    Long text Visual Web Ripper 默认情况下,在数据库表字段中保存提取的文本,这些字段可以包含4000个字符。这确保可以在数据上执行某些SQL操作。一些提取的数据可能不适合4000个字符字段,因此您可以设置长文本选项,以允许提取任何长度的内容。重复检查不会对长文本内容起作用。
    Process last 内容元素通常在模板之前处理。通常,处理顺序无关紧要,但有时与内容元素相关联的脚本可能依赖于其他模板提取的内容。在这种情况下,在处理完所有其他内容元素和模板之后,您可能希望最后处理一个内容元素。


    二选一内容选择Alternative Content Selections


    有时相同的内容可能放在同一类型的两个HTML页面的不同位置。例如,您可能正在从一个房地产网站中提取属性数据,但是在属性细节页面上,属性地址可能位于稍微不同的位置。如果您添加一个内容元素来选择一个页面的地址,那么它可能不会在另一个页面上选择任何内容。在这个场景中,您可以使用一个或多个替代内容元素来选择每个位置的地址。

    另一种内容元素必须以字符 # 和数字结尾,例如,Address#1或 Address#2。另一个内容元素必须有对应的正常内容元素。例如,您可以在模板中有以下三个内容元素:

    Address
    Address#1
    Address#2
    

    如果没有找到地址内容元素,那么Visual Web Ripper将首先尝试Address#1,然后Address#2。输出数据只包含所有三个内容元素的一个列,而列名将是地址。












































    相关文章

      网友评论

          本文标题:杂项内容选项

          本文链接:https://www.haomeiwen.com/subject/izqibxtx.html