美文网首页
crawler4j爬虫技术获取a标签的title及链接

crawler4j爬虫技术获取a标签的title及链接

作者: 龙哥哥_码畜 | 来源:发表于2019-02-18 17:25 被阅读0次

    准备把一些之前觉得不错的代码带到简书来:

    最近的项目用到了爬虫技术,这里主要说明下crawler4j技术的获取对应的标签的链接及title的实现:

    首先是抓取类: 

    1、必须继承于WebCrawler,实现shouldVisit和visit两个方法。 

    2、使用一个入口类进行采集任务,并进行处理。

    代码可以参考这里:

    https://blog.csdn.net/u010172714/article/details/50353987

    刚才的这一部分

    String content = parseData.getHtml();// 链接内容

    String htmlTitle = parseData.getTitle();//链接的title

    就是获取当前页面的title属性的方法。

    使用这个就能获取到a标签里的title,而不是网页上所截取的标题anchor这个就是网页上显示什么就会展示什么的属性!

    相关文章

      网友评论

          本文标题:crawler4j爬虫技术获取a标签的title及链接

          本文链接:https://www.haomeiwen.com/subject/xshzeqtx.html