Camera Image Quality Benchmarkin

作者: 晓说娟绘 | 来源:发表于2019-02-12 16:48 被阅读35次

为什么有这本书

大神寥寥几句就阐明了本书起源，点明CIQB在这个时代发展背景下变得很重要——ESSENTIAL!

In 1999, digital cameras were introduced, and in the early 2000s cameras were first integrated into mobile phones. By 2015, more than 25% of the world's population were using smartphones.

大白话是数码拍照用的多了，怎么知道拍的好坏呢，是机器问题还是人的手法技巧问题。在数码拍照之前，怎么衡量胶卷相机的好坏呢？怎么衡量画家画的好坏呢？值得思考的问题。

你能从本书得到什么

通过定义图片质量和属性，详述定性和定量评估图片的方法，呈现各种科学的主客观评估图像质量的方法步骤，让你理解The Framework for understanding the visual quality of digitally captured images. 最牛逼的是，它还提升到了物理心理学层面，让你对于人类视觉系统有所了解。比起完形心理学来说，更实际一些，不是那么晦涩。

It provides the reader with an understanding of the important elements of the camera itself as well as of the physiology and physicality of the human visual system.

书的源起

这是一本日积月累的书，起源于2011年法国的DxO Labs，还有来自Kodak研究院成果，从400页PPT变成了386页的干货书籍，价钱也不菲，可以当做影像评测界的红宝书了。

有待进一步完善的

老外写东西就是非常严谨，不得不赞

Still, there are areas in which the mobile phone camera is lacking, like low-light photography and zooming capabilities.

Chapter 5 Subjective Image Quality Assessment -- Theory and Practice

5.1 Psychophysics

开篇从已经研究了200年的精神物理学开始，探讨刺激和感知之间的关系，并涉及心理测量学sychometric。

基础理论为Weber/Fechner

1850年10月22日早晨，費希納躺在床上，突然有了一個想法，他發現在日常生活中存在一種數量關係，當感覺強度按算術級數增加的時候，刺激似乎是以幾何級數增加的。如果一個鈴在響，再增加一個，對我們造成的印象比 10個響鈴增加一個要強烈得多；假如4-5支蠟燭正在發光，再點亮一支所造成的差異微乎其微，如果原來只點有2支蠟燭，那它所造成的影響就相當大。刺激的作用不是絕對的，而是相對的，即與已經存在的感覺量有關。費希納感到他可能會在精神世界與物質世界中發現一個簡單的數學關係。於是他開始了一系列的亮度實驗、舉重實驗和視覺、觸覺距離實驗，以驗證他關於感覺強度和刺激強度關係的假說。實驗開始後不久，他偶然發現了20多年前韋伯的工作。韋伯已經證明，刺激強度和對兩個刺激強弱加以分辨的能力兩者間有某種關係，這種關係受一定法則的支配：「最小可覺差」是標準刺激的不變分數。費希納用公式ΔI／I=K概括韋伯的發現，並把它命名爲「韋伯定律」。他注意到韋伯定律同他自己的假設的關係。他把握住，充分加以利用，並做了大量實驗來印證它。但是費希納的假說與韋伯的研究間仍有很大差別，韋伯關心的是「最小可覺差」，而費希納在意的是獲得一種對物質世界和精神世界間的關係的說明。

JND - Just Noticeable Difference
现实生活中，声音越大，感知同样音贝提升差异却越小。

5.2 Measurement Scales

衡量尺度的几种表示方式

5.3 Psychophysical Methodologies

有多种方法度量刺激，有的是整体度量，有的是度量JND

Rank Order，将评估对象排序，弊端是排序之间的差异大小无法评估。
Category Scaling，一般选择为奇数级别，主要是方便评估人员二分法快速判断。级别之间尽量保持感知的均匀粒度，并统计结果标准差来确保不同评估者的一致性结果。
Acceptability Scaling，评估接受度，依据应用场景而变化的。比方说，
* 拍照质量，旗舰机上接受度和低端机的预期接受度是不一样的
* 对于VR质量而言，消费级娱乐游戏要求就比专业应用如在教育上应用要求高很多
Anchored Scaling, 使用离散的参考锚点。本章节用了大量篇幅在谈Quality Ruler，实际上就是这个方法的衍生
Forced-Choice Comparison，适合于差异比较小的情况。对于有选择障碍的朋友来说，这样的任务是很大的挑战。 Pair-wise打分，归属于此类。
Magnitude Estimation，量级估计，相比于参考图像而言

各个方法的比拼

5.4 Cross-Modal Psychophysics

为何进了商场就有想购物的冲动，为何到了餐馆就有吃饭的欲望，营造场景氛围进行多感官刺激，让你做出非理性的选择，在这一章节就通过严谨的心理学实验告诉你，综合多感官综合刺激如何影响感知的，大白话应该是通感。第一个实验，颜色和气味的关联结果显示，研究结果：棕色和焦糖关联；粉色和草莓关联；香柠檬油和黄色关联；第二个实验，亮度和听觉的关联，研究结果：高音选择亮色，低音选择暗色。

5.5 Thurstonian Scaling

可以用以评估JND，更有意思的是这个结果，三者对比时间会更快，但是对于有选择障碍的人来说不一定快。

对比评估

5.6 Quality Ruler

Quality Ruler

特别提到，标准集无法全面覆盖所有场景，如何解决这个问题呢？在5.6.4中有简要提及，识别提取出影响评估的特征，通过特征合理采样，如看Noise需选择low spatial frequency场景。如何有效提取出影响评估的特征，这又是一个问题，评测场景抽样大千世界不一样，那么得出来的评测结论也会不一样，相信这是做这一行的绝对痛点之一。

Of course, the standard set cannot be expected to be entirely comprehensive, and there will be circumstances in which no supplied ruler scene corresponds to the photographic situation being assessed.

在评估时，还强调明确判断的聚焦点很重要，诚然，一张图片要传达的信息很多，需要聚焦判断的维度和方向。

It is important that you judge the OVERALL QUALITY of the WHOLE image - not some particular attribute or a particular area of the image

Quality Ruler应用很广，手机Camera IQ评测有一套成熟的方法，如何跟这个方法论映射是一个值得后续再探讨的课题

... individual image quality attributes of a given camera, for example, lens geometric distortion, noise, and color saturation, can be judged using the quality ruler and subsequently the individual JND values can be added with the Minkowski metric to obtain an overall quality prediction.

5.7 Subjective Video Quality

如今视频社交风靡，就连春晚也为抖音在带盐，对于Video Quality其实还会再有更多的进一步探索。本书列举了一些基本的方法。

和图像评估区别

相比于图像评估，在每一帧质量判断上有重叠，但是又有很大不同：1）视频在空间和时间上变化，而图像只有空间上变化；2）视频编码影响；3）声音感知，会影响视觉感知

视频评估的方法

整理一些点如下

权威的要参考ITU(International Telecommunication Union)

ITU标准
评估者，需要考虑其年龄、性别和职业，而非简单地区分专家和非专家，评估人员选择不同那么结果也不同
观看的环境，分为Lab和Home，要求不一样

观看环境要求
观看的距离和角度也会影响评估的结果
显示设备的颜色管理、设备大小尺寸都是影响评估结果的关键因素
要考虑制式兼容转换，会影响质量评估结果。其实对于图片而言，基于YUV处理还是JPEG处理，最后的效果也不一样。
选择评估的clip，视频长度一般为8-15s
评估片段的展示顺序，在一些评估方法（如ACR）中会受影响，同时时序上因为近因效应影响，视频最后几秒的印象会影响评估结果。

Chapter 6 Objective Image Quality Assessment -- Theory and Practice

因为有CMU课程学习和实测过CameraIQ，这章看起来还是比较快，很多熟悉的名词，看到了背后的缘起和各种度量方式的所能和所不能，还是比较惊喜。之前做CameraIQ评测时，有些疑问也能从中找到答案。
有主观评测结果，又有客观评测结果，这两个结果是否一致呢？大神说，非也，因为主观判断和种族人群相关的。但是这一章定义的客观评估标准，又会尽量和全人类的主观评判结果一致，科学就是在这样挑战不可能中前进。

With these definitions, it may seem difficult to find a correlation between results from objective subjective experiments.

开篇，大神强调了空间频率和MTF的重要性和基础性，值得好好看看。

6.1 Exposure and Tone

先谈谈什么是理想解

A well-balanced tone reproduction then means that it should be possible to distinguish details in both highlights and shadows and all the midtones in between, if such details are present in the original scene.

但是为了艺术表现的需要，各种曝光方法出现，还有local tone mappint的图像处理技术。

several different exposure methodologies have been developed during the past years, such as center-weighted exposure, spot metering, matrix-based methods, and so on.

白盒来看，相关度量就涉及到光电转化效能

光电转化函数

6.2 Dynamic Range

此处没啥好说的

6.3 Color

大神提到，所有的客观度量是独立于人类判断的，除了颜色。印象派画家，看到的颜色就与与常人不同。莫奈一个草垛子都能从早画到晚，从春天画到冬天，才有睡莲的缤纷异彩。

Merely the fact that colors are perceived almost the same under a wide range of light sources gives a hint that the processing done by the human visual system has a big influence on how we perceive color.

看颜色几大要素列举如下，对于几种色彩空间，CMU课程讲得更透彻一些。

光源
* 人眼能看到390-700nm的光。很好奇，动物的眼睛呢，如果有技术可以重现看看动物眼里的世界，应该比较有趣。
* 黑体被物理学家定义出来是为了做理想辐射研究，进而也得到了色温和波长的关系。一个物体越热，其辐射谱的波长越短（或者说其辐射谱的频率越高），参见：https://zh.wikipedia.org/wiki/维恩位移定律
。譬如在宇宙中，不同恒星随表面温度的不同会显示出不同的颜色，温度较高的显蓝色，次之显白色。
* 几种熟悉的光源：TL84，展柜用的荧光灯； CWF(Cool White F光)荧光； U30蜡烛；A光，白炽灯的光；UVA紫外灯
场景
物体反射光源和吸收光源的公式，除了荧光。荧光，可以吸收紫外光转换成可见光，这也解释了纸张增白剂和衣物漂洗剂为何要加荧光粉的原理。
观察者
人是三视锥动物，看到多视锥动物的世界，应该比较有意思。当前sensor其实可以做到模拟。

6.4 Shading

通过划分网络计算Shading
IR Cut Filter会容易产生Color Shading

6.5 Geometric Distortion

度量畸变，可以用TV distortion，但是也不是特别靠谱，在这种情况下TV distortion就有问题

TV Distortion=0的误判

可以采用点图或者网格图来计算畸变，相比于网格图，点图能更精准定位点的位置，但是点的大小又决定了测量精度，无法达到亚像素级别的测量，而点本身也会产生畸变。测不准原理的一个现实案例。

测量畸变的图卡

6.6 Stray Light

杂光是由漫反射引起的，有ghosting和flare两种，用VGI可以测量ghosting, MTF可以测量flare

Ghost现象

Flare现象

6.7 Sharpness and Resolution

大神说，MTF很重要，因为

In order to understand the reasons behind the distinctions between sharpness, pixel resolution, and limiting resolution, the concept of the modulation transfer function(MTF) must be firmly understood.

类比时间频率和空间频率，空间频率就很好理解了

空间频率变化

样张

样张的MTF曲线

MTF是单方向的，而图像是二维的，所以需要计算多方向的MTF。

不同方向的MTF曲线

在度量MTF时，采样的混叠现象会影响MTF的评估

6.8 Texture Blur

如下低对比度的纹理模糊，MTF很难度量，需要新的方法来衡量这种情况。

纹理模糊

因此，传说中的枯叶图出现了，但是枯叶图对噪点敏感，#6.8.3列举了各种替代评估方案。而枯叶图进一步演进变为彩色枯叶图，以便不同色彩下纹理模糊度量清晰度。

枯叶图

6.9 Noise

SNR的额计算，和颜色的关系

6.10 Color Fringing

Color Fringing现象

LCA度量

6.12 Video Quality Metrics

Video部分的度量，还有很大的发展空间，书中列举的方法尚未形成国际标准。

Frame Rate and Frame Rate Consistency
Frame Exposure Time and Consistency，曝光时间影响Image Tone和Motion Blur, Video曝光时间需要衡量一致性，不要忽明忽暗，很考验自动曝光算法
Auto White Balance Consistency，和曝光时间一样，自动白平衡算法也会涉及到更新窗口
Autofocusing Time and Stability，同理考验着自动对焦算法
Video Stabilization Performance，书中列举了测量稳像的客观方法，值得参考，SFR也用上了
Audio-Video Synchronization，音频的同步，在视频中不可忽视