Linux中的Capabilities
Linux内核中的Capabilities特性用于划分特权集,以便进程可以只分配“执行特定功能”的特权。
在引入此特性前,如果进程需要使用网络,则必须使用root来运行,通常是sudo或者添加suid,那么普通用户在使用ping时,ping就可以运行任何特权。引入Capabilities特性后,可以通过给ping应用添加CAP_NET_RAW特权集,使其具有使用网络的特权集,而不具备其他特权集。缺省ping具有cap_net_admin和cap_net_raw特权集
# getcap /bin/ping
/bin/ping = cap_net_admin,cap_net_raw+p
在 Linux 中的 Capabilities 是通过 extended attributes 中的 security 命名空间实现的,selinux也是一样
# getfattr -d -m "^security\\." /bin/ping
getfattr: Removing leading '/' from absolute path names
# file: bin/ping
security.capability=0sAAAAAgAgAAAAAAAAAAAAAAAAAAA=
security.selinux="system_u:object_r:ping_exec_t:s0"
可以通过查看进程/proc/xxxx/status,来检查进程的特权集,并通过capsh来解码得到具体的特权集。
# ps -ef | grep dockerd | grep -v grep
root 1159 1 1 May26 ? 01:02:41 /usr/bin/dockerd -H fd:// --containerd=/run/containerd/containerd.sock
# cat /proc/1159/status | grep Cap
CapInh: 0000000000000000 #可以继承的CAP(i)
CapPrm: 0000003fffffffff #可以使用的CAP(p)
CapEff: 0000003fffffffff #使用的CAP(e)
CapBnd: 0000003fffffffff #进程特有
CapAmb: 0000000000000000 #进程特有
使用capsh可以翻译出每个BIT的含义,3=0011表示2个bit,f=1111表示4个bit,一共2+4+4+4+4+4+4+4+4+4=38bit,从后先前,每个bit代表一种特权,一共38种特权集.
# capsh --decode=0000003fffffffff
0x0000003fffffffff=cap_chown,cap_dac_override,cap_dac_read_search,cap_fowner,cap_fsetid,cap_kill,cap_setgid,cap_setuid,cap_setpcap,cap_linux_immutable,cap_net_bind_service,cap_net_broadcast,cap_net_admin,cap_net_raw,cap_ipc_lock,cap_ipc_owner,cap_sys_module,cap_sys_rawio,cap_sys_chroot,cap_sys_ptrace,cap_sys_pacct,cap_sys_admin,cap_sys_boot,cap_sys_nice,cap_sys_resource,cap_sys_time,cap_sys_tty_config,cap_mknod,cap_lease,cap_audit_write,cap_audit_control,cap_setfcap,cap_mac_override,cap_mac_admin,cap_syslog,cap_wake_alarm,cap_block_suspend,cap_audit_read
Docker中的Capabilities
Docker 也支持 Capabilities ,在运行容器的时候可以通过指定 --privileded 参数来开启容器的所有CAP,可以通过--cap-add 和 --cap-drop 这两个参数来调整.
后台运行一个容器busybox,通过查看进程,可以发现缺省容器只有14种特权集
image.png
# docker run --name test1 -td busybox /bin/httpd -f
# ps -ef | grep httpd | grep -v grep
root 49478 49462 1 02:27 pts/0 00:00:00 /bin/httpd -f
# cat /proc/49478/status | grep Cap
CapInh: 00000000a80425fb
CapPrm: 00000000a80425fb
CapEff: 00000000a80425fb
CapBnd: 00000000a80425fb
CapAmb: 0000000000000000
#capsh --decode=00000000a80425fb
0x00000000a80425fb=cap_chown,cap_dac_override,cap_fowner,cap_fsetid,cap_kill,cap_setgid,cap_setuid,cap_setpcap,cap_net_bind_service,cap_net_raw,cap_sys_chroot,cap_mknod,cap_audit_write,cap_setfcap
由于容器缺省不支持cap_sys_nice,所以无法改变nice值
# docker exec -it test1 /bin/sh
/ # renice -n -9 1
renice: setpriority: Permission denied
通过--cap-add给容器增加cap_sys_nice特权集
# docker run --name test2 -td --cap-add=cap_sys_nice busybox /bin/httpd -f
# docker exec -it test2 /bin/sh
/ # renice -n -9 -p 1
/ #
在宿主机上查看nice值,发现已经修改为-9,test1的nice值还是0
# ps -eo "%p %c %n" | grep httpd
16371 httpd 0
21056 httpd -9
使用--privileged可以获得所有特权集
#docker run --name test3 -td --privileged busybox /bin/httpd -f
5b277e886f498451bae505091a05ad1d09455dd2b4824c16953e08e9bd9bb526
# ps -ef | grep httpd | grep -v grep
root 49032 49015 0 03:32 pts/0 00:00:00 /bin/httpd -f
# cat /proc/49032/status | grep -i cap
CapInh: 0000003fffffffff
CapPrm: 0000003fffffffff
CapEff: 0000003fffffffff
CapBnd: 0000003fffffffff
CapAmb: 0000000000000000
# docker kill test3
# docker container prune
使用--cap-add=ALL也可以获得所有特权集
# docker run --name test3 -td --cap-add=ALL busybox /bin/httpd -f
# ps -ef | grep httpd | grep -v grep
root 30041 30012 0 03:23 pts/0 00:00:00 /bin/httpd -f
# cat /proc/30041/status | grep -i cap
CapInh: 0000003fffffffff
CapPrm: 0000003fffffffff
CapEff: 0000003fffffffff
CapBnd: 0000003fffffffff
CapAmb: 0000000000000000
# docker kill test3
# docker container prune
如果使用--cap-drop=ALL --cap-add=cap_net_bind_service,则只有cap_net_bind_service 特权集.--cap-drop和--cap-add是在基础的14重特权集的基础上先减后加的
# docker run --name test3 -td --cap-drop=ALL --cap-add=cap_net_bind_service busybox /bin/httpd -f
5c033ee08b2fbb1fe1c6cf9a3d636f602959647f0bed29dbec111eb0cff6fe05
# ps -ef | grep httpd | grep -v grep
root 43727 43709 3 03:29 pts/0 00:00:00 /bin/httpd -f
# cat /proc/43727/status | grep Cap
CapInh: 0000000000000400
CapPrm: 0000000000000400
CapEff: 0000000000000400
CapBnd: 0000000000000400
CapAmb: 0000000000000000
docker kill test3
docker container prune
Kubernetes中的Capabilities
在k8s中使用Capabilities,与container基本一致
apiVersion: apps/v1
kind: Deployment
metadata:
labels:
run: test1
name: test1
namespace: default
spec:
selector:
matchLabels:
run: test1
template:
metadata:
creationTimestamp: null
labels:
run: test1
spec:
containers:
- args:
- /bin/httpd
- -f
image: busybox:latest
imagePullPolicy: IfNotPresent
name: test1
securityContext:
capabilities:
add:
- cap_net_bind_service
drop:
- all
网友评论