-
安装火车采集器
-
安装完成后,打开火车采集器,登陆进入主界面
-
单击菜单栏上方的新建任务
QQ截图20160226104055.jpg
-
在起始网址处填入要抓取的网址,这里以 http://www.douban.com/group/topic/10478214 为例。点击右侧的起始网址就是内容网址?点击设置
QQ20160226104356.jpg
-
填好后单击上方的2.内容采集规则标签页
QQ20160226105520.jpg
-
单击左侧标签列表栏的内容
QQ20160226105655.jpg
-
在右侧数据获取栏中,提取方式选正则提取,勾选右侧的循环匹配,在匹配内容区域粘贴以下表达式:
QQ20160226111740.jpg
(?<content>\b[a-zA-z0-9_\-\.]+@[\w\-\.]+\.[cno][oner][mtg]?\b)
-
在右侧数据处理栏中,单击内容过滤,勾选采集数据不得为空和采集结果不得重复
QQ20160226113659.jpg
-
左侧循环设置里,"用分隔符连接在上条记录后"改为"添加为新记录"
-
切换至内容发布规则标签,左侧栏选择保存为本地文件,在右侧,本地文件保存选择启用,然后选取保存文件格式和保存位置。在底部输入任务规则名,然后保存
QQ20160226112244.jpg
-
回到主界面,在左侧任务列表中,点选刚刚创建的任务,把三个选项框都打上勾,然后右击刚刚创建的任务,单击开始。
QQ20160226114551.jpg
-
火车采集器下载地址:
http://www.locoy.com/
网友评论