启动程序:./detectTest -p ./1080P -m ./eagle -t 30 -c 100000
perf stat统计结果如下:
data:image/s3,"s3://crabby-images/023f2/023f281b9955b48cdb7f6782f81fa98bc69c7b80" alt=""
其他指标均正常,除了CPI,每周期执行了0.67条指令。
怀疑时CPU的IO导致,查看CPU缓存:
执行如下指令: perf stat -e instructions -e cache-references -e cache-misses -e L1-dcache-loads -e L1-dcache-load-misses -e L1-dcache-stores -e L1-dcache-store-misses -e LLC-loads -e LLC-load-misses -e LLC-prefetches -e cycles -e cs -p 36232
输出如下:
data:image/s3,"s3://crabby-images/85e1d/85e1d894afc0580f493fa7433cf1470a4ee6e213" alt=""
从以上输出可知,L1D和LLC的misses偏高,为CPU IO密集型的计算。
多次测试结果表明,在Xone E5 2680型号的CPU上,每张图片检测大约需要0.7s左右。
data:image/s3,"s3://crabby-images/6f636/6f6365caf4855d0011c72a0ee9bcfb166038a7e7" alt=""
附加:
在使用了taskset之后,性能有略微的提升.
numactl输出如下:
data:image/s3,"s3://crabby-images/5b21e/5b21e9f3e19090362a69f2c914a072b78f07c2c8" alt=""
限制程序跑在0-35的线程:
data:image/s3,"s3://crabby-images/4d93e/4d93e3fe17af0a6bb84ee360c194649de05df5a8" alt=""
程序输出如下:
data:image/s3,"s3://crabby-images/c2ce6/c2ce6a95c44d48e0399b9e287bafdd4798bcbcef" alt=""
平均检测时间比之前降低了10ms左右,看下perf的统计输出:
data:image/s3,"s3://crabby-images/8684a/8684a7ec18498304ad8f0edc005c7669ea0f7eec" alt=""
每周期执行的指令数,L1D,LLC命中率都略微提升。
网友评论