当"互联网+"深入渗透至各行各业时,大数据和云计算业务也在全球范围内的飞速发展。企业想要顺应时势得到更大规模的发展,可能要面对业务发展云化。这就不得不面对一个问题——存储架构怎么选?要跟上时代的发展,应该是更精确地考虑——分布式存储架构要怎么选?大圣众包(www.dashengzb.cn)小编就为大家分析下分布式存储文件的优劣性!
一、主流的3种分布式存储文件系统
存储架构分两种,一种是传统存储阵列架构,另一种就是本文将要重点介绍的分布式存储架构。进入大数据时代,随着数据量的飞速增加,企业对于数据存储的可扩展性不断提出要求,而具有扩展性强、价格低廉特点的分布式存储系统则渐渐成为众多企业的选择。可以说,得益于大数据的繁盛发展,分布式存储架构在近几年中得到了前所未有的关注。
当前市场上,比较主流的3种分布式存储文件系统,分别有AFS、GFS、Lustre。它们基本都有一个共通点——全局名字空间、缓存一致性、安全性、可用性和可扩展性。
二、3种分布式存储文件系统的各自特点
1.AFS
由卡内基美隆大学最初设计开发的AFS,目前已经相当成熟,用于研究和部分大型网络中。AFS是AndrewFileSystem的简称,它的主要组建包括Cells、AFSclients、基本存储单元Volumes、AFSservers和Volumereplication。
拥有良好可扩展性的AFS,能够为客户端带来性能的提升和可用性的提高。AFS将文件系统的可扩展性放在了设计和实践的首要位置,因此AFS拥有很好的扩展性,能够轻松支持数百个节点,甚至数千个节点的分布式环境。它实现的是模块化的,所以并不要求在每台服务器上运行所有服务器进程。
但值得一提的是,AFS的缺点在于管理员界面友好性不足,需要更多的专业知识来支持。
2.GFS
被称为谷歌文件系统的GFS(GoogleFileSystem),是用以实现非结构化数据的主要技术和文件系统。它的性能、可扩展性、可靠性和可用性都受到了肯定。它主要运行在大量运行Linux系统的普通机器上,能大大降低它的硬件成本。
文件的大小,一直是文件系统要考虑的问题。对于任何一种文件系统,成千上万的几KB的系统很容易压死内存。所以,对于大型的文件,管理要高效,对于小型的文件,也需要支持,但是并没有进行优化。在GFS中,chunkserver的大小被固定为64MB,这样的块规模比一般的文件系统的块规模要大得多,可以减少元数据metadata的开销,减少Master的交互。但是,太大的块规模也会产生内部碎片,或者同一个chunk中存在多个小文件可能会产生访问热点。
GFS主要部件包括一个master和n个chunkserver,和chunkserver(数据块服务器)同时可以被多个客户client(客户)访问。不同于传统的文件系统,GFS不再将组建错误当成异常,而是将其看作一种常见的情况予以处理。
同样地,GFS也有缺点。一系列冗余备份、快速恢复等技术,很难保证它能够正常和高效运行。
3.Lustre
名称来源于Linux和Clusters的Lustre,也被称为平行分布式文件系统,它是HP、Intel、ClusterFileSystem公司联合美国能源部开发的Linux集群并行文件系统。Lustre的主要组建包括元数据服务器(MetadataServers,MDSs)、对象存储服务器(ObjectStorageServers,OSSs)和客户端。其中MDSs提供元数据服务,MGS管理服务器提供文件系统配置信息,OSS对象存储服务器expose块为设备提供数据。作为一个遵循GPL许可协议的开源软件,Lustre常用于大型计算机集群和超级电脑中。
Lustre文件系统针对大文件读写进行了优化,能够提高性能的IO能力。另外,它对源数据独立存储、服务和网络失效的快速恢复、基于意图的分布式锁管理和系统可快速配置方面,表现也十分优异。
各企业可以根据自身需求,选取合适的分布式存储文件系统,以便在大数据海洋中扬帆猛进!
(更多大数据与商业智能领域干货、兼职机会请关注大圣众包平台,或添加大圣花花个人微信号(dashenghuaer),拉你入bigdata&BI交流群330648564。)
网友评论