Using an Input Data Source
可以使用一个输入数据源来为数据提取项目提供一个输入值列表。一个数据提取项目将为每一行输入值运行一次。
一个输入数据源通常用于以下场景之一:
- 为web表单提供一个输入值列表
- 要提供一个开始urls的列表
- 为FixedValue内容元素提供输入值
- 为脚本提供输入值
要添加或编辑输入数据源,从Visual Web Ripper菜单中选择 项目->输入数据源Project -> Input Data Source
。
您可以选择下列输入数据源之一。
- SQL Server (Database)
- MySQL (Database)
- OleDB (Database)
- CSV File (Jet Engine)
- CSV File (Direct)
- Script
Visual Web Ripper 只支持文本/字符串作为输入数据,因此确保所有输入值都可以转换为文本。如果需要在脚本中使用另一种数据类型,输入值必须仍然是一个字符串,但是脚本可以将输入值从字符串转换为另一种格式。
如果您使用的是CSV输入文件,您可以选择使用MS Jet引擎或直接加载CSV文件。MS Jet引擎允许您指定从CSV文件中选择数据的select语句,如果您需要构造开始url,这将是非常方便的。考虑下面的例子:
select 'http://mywebsite.com/searchByState?state=' + state as URL from [states.csv]
您应该避免在MS Excel中创建CSV输入文件。Excel有时会在CSV文件中以出乎意料的结果格式化值。您应该以以下格式在文本编辑器中创建输入CSV文件:
URL,STATE,CITY
"http://mywebsite.com/search?state=al","al","brumby"
"http://mywebsite.com/search?state=ca","ca","california"
请注意,输入CSV文件应该总是有一个指定列名的标题行。
设计时输入数据值 Design Time Input Data Values
当您在设计一个使用输入数据源的数据提取项目时, Visual Web Ripper 将在设计时默认使用数据值作为第一个输入数据行。如果您的项目是提交web表单并使用输入数据值来填充表单字段,那么有时在设计时使用特定的输入数据行是可取的,这样您就可以在不同的场景中测试数据提取项目。
要更改设计时使用的输入数据行,请打开输入数据源屏幕并单击View data按钮。选择您想要在设计时使用的数据行,并单击按钮集作为设计行。当前的设计时数据行标记为绿色。
Input Data输入数据的脚本 Input Data Script
在将输入数据源设置为脚本之后,你可以向项目添加一个输入数据脚本。一个输入数据脚本可以用来为一个项目生成输入值。该脚本通常用于为项目生成启动urls
有关如何创建输入数据脚本的更多信息,请参阅主题输入数据脚本。
供给开始URLs / Feeding Start URLs
在您添加了一个输入数据源之后,您可以配置数据提取项目来使用它来提供多个启动url。遵循以下步骤:
- 打开项目选项窗口。
- 选择Start urls options选项卡。
- 从输入数据源选项中设置供给的urls。
- 在包含开始urls的输入数据源中选择列。
在开始URL上使用链接转换
链接转换可用于从输入数据源中的值生成起始url。
例子
下面的示例展示了一个链接转换脚本,该脚本使用输入数据源中的两个列来生成start urls。
using System;
using VisualWebRipper.Internal.SimpleHtmlParser;
using VisualWebRipper;
public class Script
{
public static string TransformLink(WrLinkTransformationArguments args)
{
try
{
return "http://www.coldwellbanker.com/agent?action=list&freeTextAddress="
+ args.InputDataRow[ "State" ] + "&CountryID=" + args.InputDataRow[ "CountryID" ];
}
catch (Exception exp)
{
args.WriteDebug(exp.Message);
return "Custom script error" ;
}
}
}
使用输入数据源为Web表单提供输入值
在添加了一个输入数据源之后,您可以将一个数据列分配给FormField内容元素。遵循以下步骤:
- 编辑FormField内容元素。
- 选择Database options选项卡。
- 设置输入数据源选项。
- 选择您希望分配给FormField内容元素的数据列。
一个数据采集项目在输入数据源中的每一个数据行运行一次。如果一个输入数据源被分配给一个或多个FormField内容元素,那么web表单将会被提交给输入数据源中的每一个数据行。
使用一个输入数据源为FixedValue内容提供输入值
在添加了一个输入数据源之后,您可以将一个数据列分配给FixedValue内容元素。遵循以下步骤:
- 编辑FixedValue内容元素。
- 选择Database options选项卡。
- 设置输入数据源选项。
- 选择您希望分配给FixedValue内容元素的数据列。
使用输入数据源为脚本提供输入值
在您添加了一个输入数据源之后,您可以在任何脚本中使用输入值。对于输入数据源中的每一个数据行,一个数据提取项目都会运行一次,所有的脚本都可以访问当前数据行。
下面的内容转换脚本简单地返回名为STATE_NAME的数据列中的当前数据值。
using System;
using VisualWebRipper.Internal.SimpleHtmlParser;
using VisualWebRipper;
public class Script
{
public static string TransformContent(WrContentTransformationArguments args)
{
try
{
return args.InputDataRow[ "STATE_NAME" ];
}
catch (Exception exp)
{
//Place error handling here
args.WriteDebug(exp.Message);
return "Custom script error" ;
}
}
}
网友评论