cephfs内核客户端性能追踪

cephfs内核客户端性能追踪

作者: 字节跳动技术团队 | 来源:发表于2018-05-17 10:36 被阅读41次

cephfs内核客户端性能追踪
挂载cephfs
CephFS 异常测试
使用file layouts来提升cephfs的读性能
动态追踪技术(二)：trace your kernel Func
IO解惑：cephfs、libaio与io瓶颈
net/httptrace
如何恢复cephfs数据
TCP数据流动过程
如何让ceph-fuse单次下发更大IO请求

问题描述

测试cephfs内核客户端的吞吐性能，direct写时单个客户端性能有上限，只能接近150 mb/s:

image

查看网卡流量，并没有打满:

image

查看集群负载也很低，osd磁盘很空闲，验证多台机器同时并发测试，总吞吐可以上去，怀疑单个客户端的上限有瓶颈。

源码分析

集群没有打满，网络也不是瓶颈，那么只能从内核客户端cephfs的写IO入手，寻找问题的根源。 cephfs内核客户端写IO的代码在文件fs/ceph/file.c:

image

从代码实现看，主要流程是new_request, start_request, wait_request三个步骤。直觉告诉我这里的wait会被block住，跟踪一下这里的wait实现:

image

先看超时的时间，传入的是0，最终结果是LONG_MAX，差不多就是一直wait:

image

接下来看条件的满足:

image

从kernel的注释看，函数schedule_timeout就是sleep直到timeout:

image

从源码分析看，已经比较明确，一次请求下发后，只有等请求完成了才会进行下一次请求，IO并不是并发的下发给后端的集群。

接下来的问题是，每次请求的size如何决定？这个和文件的layout属性和当前写的位置相关，如果从文件offset 0开始写的话，以及采用默认属性，最大就是ceph object size的大小，即4MB。 ceph的layout解释可以参考官方文档。

image

实验证明

调取文件属性

为了更明显的观察延时，我们将文件的属性调整一下，即从4m到64m:

image

获取文件inode

image

文件对应的对象

image

查看两个对象对应的osd信息，分别对应osd 121和130:

image

再次执行刚才的dd命令，并在两个primary osd(121, 130)上观察op的情况，并同时用ftrace，观察kernel客户端写的过程。

osd机器OP请求

通过以下命令查看osd的op信息，ID为上面的121和130:

ceph daemon osd.ID dump_historic_ops

image

上面是osd 121的信息，操作的对象是10000000388.00000000，op持续了426.153ms，主要耗费时间在网络读数据的延时和副本操作的延时。op开始时间16:04:19.049346，结束时间16:04:19.475499。

image

这是osd 130的信息，操作的对象是10000000388.00000001，op持续了439.539ms。op开始时间16:04:19.491627，结束时间16:04:19.931166。

可以很清楚的看见，先写第一个对象，再写第二个对象，对象之间是没有并发写的，这区别于块存储，块存储的实现，至少librbd的实现，如果一次io对应多个object，多个请求是同时发出的，而不会等第一个对象完成了才下发第二个对象的IO，参见如下代码:

image

写文件的客户端ftrace信息

enable ftrace步骤:

image

观察日志:

image

这里用了差不多500ms才开始下一个请求，而上面从osd端的分析看，第一个IO用了426ms才完成，osd完成IO后通知kernel客户端有网络延时，然后加上kernel调度的延时，差不多能够匹配。

结论

通过源码分析，然后分别从集群osd端和kernel客户端进行验证，direct的情况，cephfs性能确实有限制。但是，用户也不用过于担心性能跟不上，因为通常情况下，不会是direct写，kernel客户端有page cache，写会非常快，

image

更贴近真实的使用场景，用户先写数据，最后调用一次sync操作:

image

相关文章

cephfs内核客户端性能追踪
问题描述测试cephfs内核客户端的吞吐性能，direct写时单个客户端性能有上限，只能接近150 mb/s: ...
挂载cephfs
使用内核驱动程序挂载CephFs 1、在ceph-client1客户端节点上创建挂载点目录 2、查看管理员秘钥因为...
CephFS 异常测试
1. Cephfs 异常测试方案 CephFS允许客户端缓存metadata 30s，所以这里测试对MDS sto...
使用file layouts来提升cephfs的读性能
前言这里想介绍下，如何使用cephfs的FILE LAYOUTS功能来提升cephfs的读性能。我们都知道ce...
动态追踪技术(二)：trace your kernel Func
Ftrace是一个设计用来帮助开发者和设计者监视内核的追踪器，可用于调试或分析延迟以及性能问题。ftrace令人印...
IO解惑：cephfs、libaio与io瓶颈
最近笔者在对kernel cephfs客户端进行fio direct随机大io读测试时发现，在numjobs不变的...
net/httptrace
追踪客户端请求各阶段
如何恢复cephfs数据
title: 如何恢复cephfs数据 1、前言这里实验在使用cephfs时，如果cephfs的元数据损坏或丢失...
TCP数据流动过程
客户端 ->主机内核->路由器 ---------路由器->主机内核->客户端在看看WireShark的抓包从...
如何让ceph-fuse单次下发更大IO请求
最近项目里面要求写使用o_direct，但是测试时cephfs性能并不好。通过iostat查看底层磁盘利用率，实际...

网友评论

relaX_2363:请问，测试kernel cephfs 客户端的内核版本是多少

本文标题：cephfs内核客户端性能追踪

本文链接：https://www.haomeiwen.com/subject/qdxorftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

ceph的刀和剑

热点阅读

Ceph

我爱编程

ceph的刀和剑

关于我们|服务条款|联系我们|cephfs内核客户端性能追踪|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！