作为大数据重要基础的Java语言,在大数据学习当中的重要性还是非常高的。Java作为一门有着悠久历史的语言,想要学好还是有很多可参考借鉴的学习思路的。今天的Java大数据开发分享,我们主要来讲讲Java基础类库和API。
大致来说,Java比较重要的类库包括日志、JSON解析、单测、XML解析、字节码处理、数据库连接池、集合类、邮件、加密、嵌入式SQL数据库、JDBC故障诊断以及序列化等。
一、日志相关类库
Java当中,日志库是很常见的,JDK附带自己的日志库,同时还有很多选择可用,例如Log4j、SLF4j和LogBack。
二、JSON解析库
在如今的web服务和物联网中(IoT),JSON已经取代了XML,成为从客户端到服务器传送信息的首选协议。JDK没有提供JSON库,而有许多第三方库可以用来解析和创建JSON消息,如Jackson和Gson。
三、单元测试库
单元测试技术的使用,是区分一个一般的开发者和好的开发者的重要指标。常见的单测框架有JUnit,Mockito和PowerMock。
四、通用类库
通用类库是经过无数开发者实践过的,无论是实用性还是在性能等方面,都值得一试,例如Apache Commons和Google Guava。
五、Http库
JDK 9开始HTTP 2.0,对HTTP的支持做了优化,但是还是强烈建议所有的Java开发人员熟悉流行的HTTP处理类库,例如HttpClient和HttpCore HTTP等库。
六、XML解析库
市面上常用的XML解析的类库,包括Xerces,JAXB,JAXP,Dom4j,Xstream等。
七、Excel读写库
当应用程序需要提供把数据导出到Excel的功能,那么你需要Apache POI API,从Java程序读写XLS文件。
八、字节码库
字节码库如javassist和Cglib Nodep可以供你选择,他们可以让你阅读和修改应用程序生成的字节码。
九、数据库连接池库
在web应用程序中,web服务器通常提供了这些功能。但是在java项目中需要把数据库连接池的类库导入到应用中。好用的连接池,可以考虑如Commons Pool和DBCP。
十、消息传递库
消息传递也是很多实际的Java项目中必备的。Java提供了JMS Java消息服务,但这不是JDK的一部分,你需要单独的引入jms.jar。如果需要使用第三方消息传递协议,Tibco RV是个不错的选择。
十一、PDF处理库
如果应用程序要支持PDF格式的文件处理,可以使用iText和Apache FOP类库,两者都提供了非常有用的PDF处理功能。
十二、日期和时间库
在Java之前,JDK的日期和时间库一直被人们所诟病,比如其非线程安全的、不可变的、容易出错等。很多开发人员会选择更好用的JodaTime类库。
但是在Java8推出之后,我们就可以彻底放弃JodaTime了,因为Java 8提供了其所有功能。但是,如果你的代码运行在一个低版本的JDK中,那么JodaTime还是值得使用的。
十三、集合类库
虽然JDK有丰富的集合类,但还是有很多第三方类库可以提供更多更好的功能。如Apache Commons Collections、Goldman Sachs collections、Google Collections和Trove。Trove尤其有用,因为它提供所有标准Collections类的更快的版本以及能够直接在原语(primitive)(例如包含int键或值的Map等)上操作的Collections类的功能。
FastUtil也是一个好用的API,它继承了Java Collection Framework,提供了数种特定类型的容器,包括映射map、集合set、列表list、优先级队列(prority queue),实现了java.util包的标准接口(还提供了标准类所没有的双向迭代器),还提供了很大的(64位)的array、set、list,以及快速、实用的二进制或文本文件的I/O操作类。
十四、邮件API
javax.mail和Apache Commons Email提供了发送邮件的API。
十五、HTML解析库
和XML与JSON类似,HTML是另外一种我们可能要打交道的传输格式。jsoup可以大大简化Java应用程序使用HTML。你不仅可以使用JSoup解析HTML还可以创建HTML文档。
十六、加密库
Apache Commons家族中的Commons Codec就提供了一些公共的编解码实现,比如Base64,Hex,MD5,Phonetic and URLs等等。
十七、嵌入式SQL数据库库
在你跑单测的时候如果需要一个数据库,用来验证你的SQL的话,H2是个很好的选择。当然,H2不是唯一嵌入式DB,还有Apache Derby和HSQL可供选择。
十八、JDBC故障诊断库
JDBC扩展库的存在使得调试变得很容易,例如P6spy,这是一个针对数据库访问操作的动态监测框架,它使得数据库数据可无缝截取和操纵,而不必对现有应用程序的代码作任何修改。
十九、序列化库
Google Protocol Buffer是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说序列化。它很适合做数据存储或RPC数据交换格式。可用于通讯协议、数据存储等领域的语言无关、平台无关、可扩展的序列化结构数据格式。目前提供了C++、Java、Python三种语言的API。
二十、网络库
一些有用的网络库主要有Netty的和Apache MINA。如果应用程序需要做的底层网络任务,可以考虑使用这些库。
关于大数据开发,Java基础类库和API,以上就为大家做了简单的介绍了。在Java技术生态当中,丰富的类库可以提供高效的解决方案,但是同时,也需要有选择性地去学习,知道什么时候用什么。
网友评论