数字图像取证 - 基于统计的取证 4

Posted on Tue 02 March 2021 in Digital Image Forensics • 1 min read

引言

现在软件可以渲染一个非常写实的图像,从而分区CG还是相片已经是一个困难的问题。但是CG图像一般都渲染在一个理想的模型下(光照,几何形状甚至是), 那么统计量上CG一定与真实的图像存在差异. 下面将介绍一种方法: 利用小波变换得到的其高频以及低频分量进行统计学分析.

正交镜像滤波器

众所周知利用空间位置(spatial position), 方向(orientation)以及尺度(scale)等基本函数(如 小波变换)对图像进行分解后, 可以有效地完成图像压缩, 图像编码, 图像去噪抑或是材质合成等操作. 其主要是由于图像分解暴露出了有效用的统计特征. 下面介绍一种与小波变换紧密相关的滤波器-正交镜像滤波器, 其主要结构见下图 wavelet 当其作用在一张RGB图像时, 镜像正交编码器会对每一个通道(R, G, B)提取其竖直子带\(V^c_i(x, y), 水平子带\)H^c_i(x, y)\(以及对角子带(subbands)\)D^c_i(x, y)的特征. 其中\(c\in{r, g, b}\). 更进一步的每子带的系数分布由每个子带的方向, 尺度以及色彩通道的均值, 方差, 偏度以及峰度来描述.

求解跨域高阶相关性信息

仅靠这正交镜像滤波器所获取到的统计量无法完全获取跨域的高阶相关性. 举个例子, 具有一种边缘在固定方向,多个尺度上延申的显著特征的图像. 这样的图像特征将会在多个尺度, 方向以及空间位置上具有显著的能量分布. 故在横向子带上的一个巨大的系数表明其空间中的左右邻居也会有巨大值. 简单来说, 即如果尺度i的系数很大, 那么尺度i+1的系数同样也会很大. 为了获取跨域高阶相关性, 这里就需要引入统计学习相关算法. 为便于描述仅考虑绿色通道上的垂直子带\(V^g_i(x, y)\). 一线性预测器在所有可能的空间, 方向, 尺度以及邻居色彩定于如下:

$$ \begin{aligned} |V^g_i(x, y)| &= \omega_1|V^g_i(x - 1, y)| + \omega_2|V^g_i(x + 1, y)| \\ &+ \omega_3|V^g_i(x, y - 1)| + \omega_4|V^g_i(x, y + 1)| \\ &+ \omega_5|V^g_{i + 1}(x/2, y/2)| + \omega_6|V^g_i(x, y)| \\ &+ \omega_7|V^g_{i + }(x/2, y/2)| + \omega_8|V^r_i(x, y)| \\ &+ \omega_9|V^r_i(x, y)|\\ \end{aligned} $$

其中\(|\cdot|\)为绝对值函数, \(\omega_k\)为标量权重. 上述的线性关系可以被简单的表示为矩阵相乘的形式\(v = Q\Omega\). 权重\(\omega\)可以利用最小二乘法进行求解

$$ \Omega = (Q^TQ)^{-1}Q^Tv $$

一般\(Q\)采用\(9 * 9\)的矩阵进行运算. 这样可以保证\(Q^TQ\)是可逆的. 最后在利用对数损失计算真实值与预测值之间的误差

$$ p = log(v) - log(|Q\Omega|) $$

同理对于纵向子带, 对角子带及其不同的色彩通道处理方法类似

实验结果

分类器使用二分类的LDA, 以及SVM进行检测 数据集则由40000张图像数据, 6000张CG图像组成, 为解决不同图像大小不一的情况, 仅提取图像中心256 * 256的像素. 按照上面的方法提取特征. 最后按照8:2的比例分割数据集. 使用LDA模型, 测试集上分类准确率为54.6%的照片准确率, 99.2的CG图像. 使用SVM模型, 测试集上分类准确率为66.8%的照片准确率, 98.8%的CG图像.