美文网首页Java Web知识
由Java爬虫所想到的

由Java爬虫所想到的

作者: jarvan4dev | 来源:发表于2016-05-25 10:05 被阅读279次

爬虫,听起来似乎很高端,然而也就那么回事,有很多爬虫框架,Java实现的有crawler4j,WebCollector,webMagic,Python实现的最著名的应该是Scrapy,工作中用到,但是没用什么爬虫框架,整个工作基于HttpClient和Jsoup。

  • 流程

    1. HttpClient去模拟get和post请求;

    2. 获取返回的数据,

      • 如果是json或者XML,直接解析;

      • 如果是html,使用Jsoup去分析;

  • 技能要求

    1. 熟悉HTML,JavaScript,jQuery

    2. 熟悉HttpClient,Jsoup

  • 使用工具

    1. FireFox(FireBug)/ chrome : 用于观察HTML文档结构

    2. WireShark:抓数据包(不是十分常用,在爬取不成功的时用于对比浏览器数据和模拟数据)

    3. 一些插件,如 RESTClient(不常用)

  • 额外的一些记录

    1. HttpClient与jsonp

最近在爬取某市图书馆,发现其中有一个jsonp的请求,期初以为是一个普通的get请求,但是url感觉很奇怪,就搜了下,发现是jQuery的jsonp请求


#host地址已改

api.baidu.com/book/isbn/978-7-5442-4725-2/?glc=P2HBJ0315013&returnType=json&callback=insertAllBookMetaInfo&jsoncallback=jQuery1620053801810543760764_1464099784203&_=1464099796349

也了解了下jsonp,具体请参看:

1. [跨域JSONP原理及调用具体示例](http://blog.csdn.net/yuebinghaoyuan/article/details/32706277)

2. jsonp原理:[说说JSON和JSONP,也许你会豁然开朗,含jQuery用例](http://www.cnblogs.com/dowinning/archive/2012/04/19/json-jsonp-jquery.html)

相关文章

  • 由Java爬虫所想到的

    爬虫,听起来似乎很高端,然而也就那么回事,有很多爬虫框架,Java实现的有crawler4j,WebCollect...

  • Java爬虫:用java爬取小说

    Java也能做爬虫。 现在提到爬虫人第一个想到的就是python,其实使用Java编写爬虫也是很好的选择, 下面给...

  • 【工具】echarts+kuno+分词

    数据: python爬虫:微博爬虫、借助'出书啦'爬微信知乎Java爬虫:Java微博爬虫 时间轴: JAVA时间...

  • 由520所想到的

    不知道从什么时候开始,除清明节以外,各大节日就成了男生送女生礼物的节日。很多女生纷纷晒出礼物的清单,晒幸福或是证明...

  • java爬虫与python爬虫谁更强?

    java爬虫与python爬虫的对比: python做爬虫语法更简单,代码更简洁。java的语法比python严格...

  • 用Python写爬虫有哪些好处?

    大家都知道,关于爬虫几乎每种编程语言都可以实现,比如:Java、C、C++、python等都可以实现爬虫,但是之所...

  • Java 网络爬虫,就是这么的简单

    这是 Java 网络爬虫系列文章的第一篇,如果你还不知道 Java 网络爬虫系列文章,请参看学 Java 网络爬虫...

  • java爬虫(二)-- httpClient模拟Http请求+j

    前言 在了解了爬虫的大概原理和目前的技术现状之后,我就开始了java爬虫的蹒跚之旅。 首先我想到的是用框架,了解到...

  • 由“示弱”所联想到的

    李红艳 2020.3.26 在生活的字典里,我重新认识了“示弱”这个词背后庞...

  • 由路所联想到

    世间所谓路者,大抵是很早以前就存在了的,任何一条路,都不是无缘无故突然有之,但凡路者,必是人们千踏万踩才磨砺出来...

网友评论

    本文标题:由Java爬虫所想到的

    本文链接:https://www.haomeiwen.com/subject/nqqtdttx.html