美文网首页
使用输入数据源

使用输入数据源

作者: 游侠儿evil | 来源:发表于2017-12-02 11:26 被阅读0次

    Using an Input Data Source


    可以使用一个输入数据源来为数据提取项目提供一个输入值列表。一个数据提取项目将为每一行输入值运行一次。

    一个输入数据源通常用于以下场景之一:

    • 为web表单提供一个输入值列表
    • 要提供一个开始urls的列表
    • 为FixedValue内容元素提供输入值
    • 为脚本提供输入值

    要添加或编辑输入数据源,从Visual Web Ripper菜单中选择 项目->输入数据源Project -> Input Data Source

    您可以选择下列输入数据源之一。

    • SQL Server (Database)
    • MySQL (Database)
    • OleDB (Database)
    • CSV File (Jet Engine)
    • CSV File (Direct)
    • Script
    Input Date Source

    Visual Web Ripper 只支持文本/字符串作为输入数据,因此确保所有输入值都可以转换为文本。如果需要在脚本中使用另一种数据类型,输入值必须仍然是一个字符串,但是脚本可以将输入值从字符串转换为另一种格式。

    如果您使用的是CSV输入文件,您可以选择使用MS Jet引擎或直接加载CSV文件。MS Jet引擎允许您指定从CSV文件中选择数据的select语句,如果您需要构造开始url,这将是非常方便的。考虑下面的例子:

    select 'http://mywebsite.com/searchByState?state=' + state as URL from [states.csv]

    您应该避免在MS Excel中创建CSV输入文件。Excel有时会在CSV文件中以出乎意料的结果格式化值。您应该以以下格式在文本编辑器中创建输入CSV文件:

    URL,STATE,CITY
    "http://mywebsite.com/search?state=al","al","brumby"
    "http://mywebsite.com/search?state=ca","ca","california"
    

    请注意,输入CSV文件应该总是有一个指定列名的标题行。

    设计时输入数据值 Design Time Input Data Values

    当您在设计一个使用输入数据源的数据提取项目时, Visual Web Ripper 将在设计时默认使用数据值作为第一个输入数据行。如果您的项目是提交web表单并使用输入数据值来填充表单字段,那么有时在设计时使用特定的输入数据行是可取的,这样您就可以在不同的场景中测试数据提取项目。

    要更改设计时使用的输入数据行,请打开输入数据源屏幕并单击View data按钮。选择您想要在设计时使用的数据行,并单击按钮集作为设计行。当前的设计时数据行标记为绿色。

    Input Data

    输入数据的脚本 Input Data Script

    在将输入数据源设置为脚本之后,你可以向项目添加一个输入数据脚本。一个输入数据脚本可以用来为一个项目生成输入值。该脚本通常用于为项目生成启动urls
    有关如何创建输入数据脚本的更多信息,请参阅主题输入数据脚本。

    供给开始URLs / Feeding Start URLs


    在您添加了一个输入数据源之后,您可以配置数据提取项目来使用它来提供多个启动url。遵循以下步骤:

    1. 打开项目选项窗口。
    2. 选择Start urls options选项卡。
    3. 从输入数据源选项中设置供给的urls。
    4. 在包含开始urls的输入数据源中选择列。
    Starts URLs

    在开始URL上使用链接转换
    链接转换可用于从输入数据源中的值生成起始url。

    Link Transformation

    例子
    下面的示例展示了一个链接转换脚本,该脚本使用输入数据源中的两个列来生成start urls。

    using  System;   
    using  VisualWebRipper.Internal.SimpleHtmlParser;   
    using  VisualWebRipper;   
    public   class  Script   
    {      
         public   static  string TransformLink(WrLinkTransformationArguments args)   
        {   
             try   
            {   
                 return   "http://www.coldwellbanker.com/agent?action=list&freeTextAddress="     
                    + args.InputDataRow[ "State" ] +  "&CountryID="  + args.InputDataRow[ "CountryID" ];   
            }   
             catch (Exception exp)   
            {   
                args.WriteDebug(exp.Message);   
                 return   "Custom script error" ;   
            }   
        }   
    }  
    


    使用输入数据源为Web表单提供输入值


    在添加了一个输入数据源之后,您可以将一个数据列分配给FormField内容元素。遵循以下步骤:

    • 编辑FormField内容元素。
    • 选择Database options选项卡。
    • 设置输入数据源选项。
    • 选择您希望分配给FormField内容元素的数据列。
    Database

    一个数据采集项目在输入数据源中的每一个数据行运行一次。如果一个输入数据源被分配给一个或多个FormField内容元素,那么web表单将会被提交给输入数据源中的每一个数据行。

    使用一个输入数据源为FixedValue内容提供输入值


    在添加了一个输入数据源之后,您可以将一个数据列分配给FixedValue内容元素。遵循以下步骤:

    • 编辑FixedValue内容元素。
    • 选择Database options选项卡。
    • 设置输入数据源选项。
    • 选择您希望分配给FixedValue内容元素的数据列。
    Database

    使用输入数据源为脚本提供输入值


    在您添加了一个输入数据源之后,您可以在任何脚本中使用输入值。对于输入数据源中的每一个数据行,一个数据提取项目都会运行一次,所有的脚本都可以访问当前数据行。

    下面的内容转换脚本简单地返回名为STATE_NAME的数据列中的当前数据值。

    
    using  System;   
    using  VisualWebRipper.Internal.SimpleHtmlParser;   
    using  VisualWebRipper;   
    public   class  Script   
    {   
         public   static   string  TransformContent(WrContentTransformationArguments args)   
        {   
             try   
            {   
                 return  args.InputDataRow[ "STATE_NAME" ];   
            }   
             catch  (Exception exp)   
            {   
                 //Place error handling here   
                args.WriteDebug(exp.Message);   
                 return   "Custom script error" ;   
            }   
        }   
    }  
    
    































    相关文章

      网友评论

          本文标题:使用输入数据源

          本文链接:https://www.haomeiwen.com/subject/ibhibxtx.html