背景

本文档为计算机机器学习相关笔记，探讨了计算机视觉的应用。

视觉应用分类

应用分类具体有两种：

语义感知
语义感知有：分类（一幅图中猫、狗划分出来）、检测（检测人脸、行人）Detection、识别-Recognition（识别出运动或静止中人）、检索-Retrieval（看相似度有多高，以图搜索图，比如搜狗图片搜索）、分割（？）
几何属性（什么是几何属性？）
3D建模、双目视觉、增强现实

颜色空间

颜色空间有RGB和HSV

RGB空间：
RGB以red green blue，3种颜色组合成的颜色空间。
HSV/HSL(I)空间：
3通道为： H/Hue通道（颜色种类），Saturation(颜色浓淡)、value（颜色明亮度）、Lightness（I/Intensity）(亮度、光照亮度)
在两个空间中都可以表示一个像素的颜色值，在RGB空间终究是(b,g,r),在hsv空间中表示为(h,s,v/l/i)，请看如下图：

image.png

亮度适应和鉴别（人眼是有误判）

下图中中间一小块的亮度是一样的，但是人眼由于有周围背景的对比，我们会感觉3个小图的亮度是不一样的。（这方面机器检测比人眼强多了）

image.png

图像的取样和量化

我们知道电脑中的图片都是以数字的形式存放，那么这个数字图片是如何生成的呢？
数字图像的生成包括取样和量化，下面图描述了一幅图如何从模拟信号转换为数字信号及其取样和量化的过程。

image.png

计算机都是通过0,1离散的值来表示信息，同样图像表示中我们把图像分成一个一个像素，像素越大精度越大。如下图，图像被分割成很多像素，每个像素有一个灰度值。右边小图由于像素精度太低所以出现马赛克的式样，如果像素越来越大越能够平滑真实的表示图像信息。

图像像素描述

实际过程中我们有均匀采用和非均匀采用，非均匀采样就是图片不同区域采样的精度不一样，比如电影夜晚画面，依据注意力引导机制，对人就高精度采样，背景就低精度采样。

图像在电脑中就是以矩阵形式存储，坐标可以有多种（直角的、矩阵的、像素的），矩阵里面的值可以是灰度值/RGB值。
坐标的精度就是空间分辨率，坐标里的一格表示物理图像中尺寸多大即采样间隔值，用3维坐标来说就是X,Y坐标的采样间隔值。
而灰度分辨率就是竖坐标H的精度，如果 A(Xa,ya)区域的灰度值为4.56，B(Xb,yb)区域的灰度值为4.57，此时如果H轴的分辨率如果是0.01,那么A,B区域灰度值就区分开来了；如果H轴分辨率是0.1那么A,B区域的H轴值一样，这样图片表示不细腻。当H轴分辨率低到一定程度会出现断层，无中生有的轮廓。

像素内的值如何填充

我们知道一个像素是一个小方块且这一小方块的值是一样的，更细节的观察这个小方块有4个顶点。那么这个小方块的值该取哪个顶点的值呢，还是4个顶点平均一下。
关于像素内值如何取的问题我们叫做图像内插值，最常见的插值方法有：
1).最近领域
2).双线性差值
3).双3次插值（又叫双立方插值，具体参考：https://baike.baidu.com/item/%E5%8F%8C%E4%B8%89%E6%AC%A1%E6%8F%92%E5%80%BC）