数字图像取证 - 基于文件格式的取证 1

Posted on Fri 10 April 2020 in Digital Image Forensics • 1 min read


基于文件格式的取证

文件格式(或文件类型)是指电脑为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。(摘自百度百科)。 那么计算机为了处理这样特定的编码一定存在一些特定的标识符来对该数据进行解释。利于在JPEG文件格式中,为了使JPEG数据能正常的还原成为位图数据(bitmap), 文件的头中一定存在着某些数据保存了压缩的参数(量化表,傅立叶变换系数等等)。

色彩空间

色彩空间(英语:Color space)是对色彩的组织方式。借助色彩空间和针对物理设备的测试,可以得到色彩的固定模拟和数字表示。色彩空间可以只通过任意挑选一些颜色来定义,比如像彩通系统就只是把一组特定的颜色作为样本,然后给每个颜色定义名字和代码;也可以是基于严谨的数学定义。

同时颜色可以从以下属性取衡量: 1. 亮度(Brightness,value):指的是感官上区域的明暗。 2. 色相(Hue): 指的是色彩的外相,是在不同波长的光照射下,人眼所感觉不同的颜色,如红色、黄色、蓝色等。 3. 色度(Colorfulness):指色彩的纯度,也叫彩度,即颜色的鲜艳程度。从广义上说,黑色、白色以及灰色是“色度=0”的颜色。 4. 明度(Lightness):同一种颜色在不同的亮度中会产生不同的颜色感。具体来讲就是相对于周边颜色亮度(发白感) 5. 色品(Chroma):由色度,明度综合决定 6. 饱和度(Saturation):由色度以及亮度综合决定

基本上所有的色彩空间都由上述6个属性组合而来,并且大多都为3元组的形式,比如 Adobe RGB、sRGB,LAB以及一个四元祖色彩空间CMYK, 该色彩空间由Cyan-青,Magenta-洋红,Yellow-黄,blacK-黑。此处缩写使用最后一个字母K而非开头的B,是因为在整体色彩学中已经将B给了RGB的Blue蓝色。

JPEG文件格式

JPEG是一种有损的文件格式但其也是最常用的图像文件格式。构造一张JPEG图像,一般由以下几个步骤构成 1. RGB转换为YCbCr空间。众所周知,大多数的图像数据都是以RGB色彩空间存储的 。YCbCr是一三元组色彩空间由Y-明度(Lightness),Cb-蓝色偏移,Cr-红色偏移构成。YCbCr由于其按照4:1:1的比例进行采样故常用于影像连续处理,或是数字摄影系统中。 利用YCbCr储存色彩可以有效的降低图像的所占比例。 2. 对每组通道进行8*8的划分,并将每个8*8的数据转换为signed integers。 3. 对每个8*8的数据块进行二维离散傅里叶变换,以储存其频域信息。\(\omega_k=\frac{2k\pi}{8}\), \(\omega_l=\frac{2l\pi}{8}\),c对应每个通道以及\(f_c(m, n)\)对应特定的像素点。

$$F_c(\omega_c, \omega_l)=\sum^7_{m=0}\sum^7_{n=0}f_c(m, n)cos(\omega_{k}m)cos(\omega_{l}n)$$

4. 对频域信息进行量化压缩。\(q_c\)是对于每个通道都有一个独立的8*8的量化表

$$\hat{F_c}(\omega_k,\omega_l)=\lfloor\frac{F_c(\omega_k,\omega_l)}{q_c(\omega_k,\omega_l)}\rfloor$$

5. 最后在利用熵编码法(一般都是用霍夫曼编码)对压缩后的评语信息再次进行压缩。

```dot digraph G{ rankdir=LR RGB -> YCbCr YCbCr -> 离散傅里叶 离散傅里叶 -> 量化压缩 量化压缩 -> JEPG }

'''

EXIF

EXIF(Exchangeable image file format)是专门为数码相机的照片设定的,可以记录数码照片的属性信息和拍摄数据。该数据结构一般嵌入在JEPG,TIFF,RIFF文件格式中。 下面是EXIF包含的信息(摘自WIKI))

项目 信息(举例)
制造厂商 Canon
相机型号 Canon EOS-1Ds Mark III
图象方向 正常(upper-left)
图象分辨率X 300
图象分辨率Y 300
分辨率单位 dpi
软件 Adobe Photoshop CS Macintosh
最后异动时间 2005:10:06 12:53:19
YCbCrPositioning 2
曝光时间 0.00800 (1/125) sec
光圈值 F22
拍摄模式 光圈优先
ISO感光值 100
Exif信息版本 30,32,32,31
图象拍摄时间 2005:09:25 15:00:18
图象存入时间 2005:09:25 15:00:18
曝光补偿(EV+-) 0
测光模式 点测光(Spot)
闪光灯 关闭
镜头实体焦长 12 mm
Flashpix版本 30,31,30,30
图象色域空间 sRGB
图象尺寸X 5616 pixel
图象尺寸Y 3744 pixel

取证

结合上面叙述的JEPG以及EXIF信息,若给定一组图像想要确定那些图像来源于那一台相机,我们可以抽取出: 1. 量化表 - 3x8x8共192个数据特征 2. 图像的长宽 - 2个特征值 3. 霍夫曼编码 - 15x2x3共90个数据特征 4. 可选:EXIF信息,一般而言拥有完整的EXIF信息的图像十分容易确定来源 那么一共284个数据特征,可以用来表示一张图像。随后使用简单的LR模型便可以对一张图像进行分类。