数据安全主要解决问题包括数据误删、敏感数据泄露、开发影响生产环境。
数据安全管理主要有五个方向
1.首先建立数据备份与恢复机制
数据备份除了hdfs本身线上的集群三副本,还可以通过Distcp存储数据到冷备份集群。冷备份集群可以用EC纠删码技术进行存储,每天在低峰期进行同步。
2.建立垃圾回收机制
就是数据删除后进入垃圾箱,不立即删除
比如通过rm命令删除的文件可以通过在core-site.xml添加配置,删除就会进入垃圾箱的目录,到时间点后再删除。
<property>
<name>fs.trash.interval</name>
<value>10080</value>
</property>
然后hive的drop表进入垃圾箱,需要对hive的hdfs client修改调用Delete接口的语义。
3.做权限管理
通过OpenLDAP统一用户权限管理服务,Hadoop通过使用 LdapGroupsMappings 同步 LDAP 创建的用户和用户组
使用Kerberos基于共享密钥实现的安全认证,在非安全网络环境下可以向服务端证明用户。
Ranger基于策略的细粒度权限管理。
4.建立审计机制
在权限校验过程,获取用户对表的访问记录,基于Ranger实现操作审计,用户访问的记录会由各个服务上的插件进行推送
5.开发和生产环境隔离
在拥有两套环境系统,可以在测试环境中配置好后,经审核后发布到生产环境。如需数据进行测试,可以在脱敏数据后同步部分数据到测试环境。如需直接对生产环境的数据进行测试,在同一个开发环境、调度系统和共享元数据信息但有两套大数据系统环境下进行,开发时使用测试的环境,上线后切换为生产环境。
网友评论