crawler4j爬虫技术获取a标签的title及链接

作者: 龙哥哥_码畜 | 来源:发表于2019-02-18 17:25 被阅读0次

准备把一些之前觉得不错的代码带到简书来：

最近的项目用到了爬虫技术，这里主要说明下crawler4j技术的获取对应的标签的链接及title的实现:

首先是抓取类:

1、必须继承于WebCrawler，实现shouldVisit和visit两个方法。

2、使用一个入口类进行采集任务，并进行处理。

代码可以参考这里：

https://blog.csdn.net/u010172714/article/details/50353987

刚才的这一部分

String content = parseData.getHtml();// 链接内容

String htmlTitle = parseData.getTitle();//链接的title

就是获取当前页面的title属性的方法。

使用这个就能获取到a标签里的title，而不是网页上所截取的标题anchor这个就是网页上显示什么就会展示什么的属性！

网友评论

本文标题：crawler4j爬虫技术获取a标签的title及链接

本文链接：https://www.haomeiwen.com/subject/xshzeqtx.html

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！