沉默的证据

如何利用数字水印技术保护原创数字图像？

据说，公元前5世纪，古希腊奴隶主为推翻波斯人的统治，决定与爱奥尼亚城统治者联合行动。为了保密通信，他们剃光了奴隶头发，并将情报刺于其头皮上。待头发长出后，奴隶便前往目的地，将头发再次剃光，对方即可看到情报信息。这种保密通信的方式就是典型的信息隐藏场景。何为信息隐藏？简单来说，信息隐藏就是指将秘密信息以不易察觉的方式隐藏至载体（如图像、文档等）中的一种技术。其主要利用了载体的冗余特性以及人类视、听觉系统等感官特性，在不影响内容的前提下，实现信息的隐藏并提供保护通信或版权认证等功能。

数字水印技术是信息隐藏技术的一个重要分支，除了具有信息隐藏技术的特性之外，还有固有的特征和要求，即隐藏的信息不能够被轻易擦除或破坏。因此，水印技术通常被用于保护载体的版权信息和溯源追踪。本文将分别从四个阶段介绍纸张水印到数字水印的发展进程和重大转折。

水印技术的前世今生：由物理媒介转向数字媒介

700年前，意大利一家造纸厂工匠不慎将一根铜丝滑入抄纸框内，使得纸张上出现半透明线条。该发现激发了工匠们的灵感，他们开始有意识地往纸张中融入各种图案或花纹，并制造出带有独特水印图案的纸张。此事件被视为水印技术诞生的起点。直至17世纪中叶，瑞典斯德哥尔摩银行率先采用水印纸来印刷钞票，这一举措标志着水印技术在防伪领域的应用迈出了重要的一步。传统意义上，水印一般是通过物理加工或者化学处理等方式，在物理媒介的表面或内部嵌入具有特定结构和性质的微小标记或者标识符，从而有助于鉴别真伪和制作者的身份，图1为纸张水印示例。

图1 纸张水印示例

正是由于纸张水印的问世与应用才启发了水印技术在数字环境下的首次使用。数字水印最早可追溯到1954年，Muzak公司通过间歇性地使用频率为1 kHz的窄带陷波器将水印插入音乐中实现版权保护。直到20世纪90年代初，安德鲁 · 特克尔（Andrew Tirkel）首次提出“Watermark”一词作为水印术语。自此，数字水印技术开始被真正作为一门研究性的学科。随着数字化时代的发展，物理媒介开始转向数字化存储。全球数字媒体的存储容量爆发式增长，从1986年的1%到2007年的94%。虽然数字媒体的传输变得越来越便捷，但数字内容的非法分发和盗版问题也日趋严重，特别是易复制和易篡改的数字图像。这一背景下，数字图像水印技术被广泛研究并成为解决该问题的重要途径。简单来说，数字图像水印是一种在数字图像中嵌入水印的技术，其在不影响图像原始质量的情况下提供一定程度的保护和验证。实际上，数字图像水印本质上属于一个小型通信系统，基本要求是在水印的嵌入端（发送方）和提取端（接收方）之间传递信息，见图2。

图2 数字图像水印系统基本模型

图像水印性能评估的指标有三个：鲁棒性、透明性和容量，见图3。鲁棒性指水印提取的准确率；透明性指水印的嵌入对图像内容的影响程度；容量指嵌入水印的信息量。鲁棒性、容量和透明性三者之间相互制约。例如，嵌入水印的信息量越大对图像内容的改动就越大，透明性越低；高的透明性意味着水印嵌入强度的降低，鲁棒性也会降低。三者之间如何达到纳什均衡，始终贯穿着图像水印的整个研究过程。

图3 水印系统三个性能指标间的关系

数字水印的新变革：由人工嵌入转向自适应嵌入

在早期的图像水印研究阶段，为了平衡水印系统的鲁棒性和透明性，可利用数字图像的固有属性来制定水印嵌入策略。根据水印嵌入方式和位置的不同可分为两类：基于空域的水印方法和基于频域的水印方法。空域水印方法一般是将水印嵌入在图像像素空间内的某些像素点或像素块中，例如，最低有效位水印方法。由于图像像素二进制最后一位的变化对图像的视觉效果影响较小，因此水印嵌入后不易被察觉。但是，该嵌入方式使水印和图像之间的关联性较弱，面对噪声攻击时鲁棒性较差。基于此，变换域水印方法应运而生。

在变换域水印方法中，通过对图像使用不同的数学基函数进行变换，就可以在选定的频谱系数中嵌入水印。由于图像的频谱系数能更好地捕捉人类视觉系统的特性，因此频域水印方法能够有效保证透明性。例如，可在图像的离散余弦变换系数中嵌入水印并利用水印与系数的误差实现提取；也可在图像的离散小波变换系数中嵌入水印并通过计算小波系数的差值提取水印；还可通过离散傅里叶变换选取图像频域的分量并通过逆变换将含水印的频谱转换为空域实现水印嵌入。然而，这些传统的水印方法虽然有着良好的透明性，但面对严重的几何失真时，鲁棒性表现较差。

近年来，因深度学习强大的图像处理能力，这种技术也被应用到数字图像水印的研究中，人为寻找嵌入空间的方式可被人工智能神经网络代替。借助网络寻找稳定的嵌入空间并对各种噪声攻击展开对抗学习，可同时满足鲁棒性和透明性要求。自此，基于“编码器-噪声层-解码器”结构的深度水印框架被广泛使用，见图4。具体而言，编码器将原始水印以不易感知的方式嵌入到原始图像中并保证含水印图像与原始图像具有视觉一致性。噪声层对含水印图像施加噪声并得到失真图像。解码器从失真图像中提取出嵌入的水印。在图像和信息损失的约束下，联合训练编、解码器和噪声层就能实现水印的自适应嵌入，并在提升透明性的同时增强对噪声攻击的鲁棒性。在深度水印方法中，实现鲁棒性的关键因素在于噪声层的设计。此外，为了保证训练过程中编、解码器之间的梯度能够正常回传，噪声层必须可导。

图4 通用的端到端深度鲁棒图像水印框架

数字水印的新挑战：由数字信道转向跨媒介信道

随着屏幕、相机和打印机等设备的先进化，实体媒体与其高质量数字化副本对信息传输方式产生了巨大影响，并引发新的版权和泄密溯源问题。当前，数字图像不仅在数字信道中传输，也在跨媒介信道中传输，例如，“屏幕-相机”信道、“打印机-相机”信道和“打印机-扫描仪”信道。特别地，随着相机设备的便携化，“屏幕-相机”和“打印机-相机”信道中的版权侵犯及隐私泄漏的问题尤为严重。人们只需使用手机对显示在屏幕上（或打印在纸张上）的图像进行拍照，就可以在无记录痕迹的情况下获取高质量的数字图像副本。移动互联时代，智能手机拍照成为获取、传播信息的重要途径。相应地，这就对数字水印的鲁棒性提出了一个新的挑战，即针对“数字处理鲁棒”转为“物理过程鲁棒”，见图5。

图5 传输信道的转变

相较于数字信道，跨媒介信道中的失真现象具有随机性和不可预测性，例如：“打印机-扫描仪”信道中的平移、缩放和旋转等几何失真；“打印机-相机”信道中因打印机、镜头和光照等影响产生的透视畸变和色彩失真等；“屏幕-相机”信道会经历两次的数模转换，不同的拍摄距离、角度和光照度均会产生透视畸变和摩尔纹失真等。因此，针对数字信道设计的水印方法并不适用于跨媒介信道中图像的版权保护和追踪溯源。基于此，抗跨媒介失真的水印方法被提出。

传统的抗跨媒介失真水印方法可以通过图像的频域变换，找到失真前后稳定的系数并根据系数的相关性或相对关系来实现鲁棒性，或者使用空域模板叠加的算法并找到鲁棒性足够强的表达水印的模板特征来抵抗跨媒介失真。当前，深度学习代替人工设计特征已成为抗跨媒介失真水印方法的主流。如前所述，深度水印方法实现鲁棒性的关键在于设计可导的噪声层。然而跨媒介信道中的失真类型往往因其高度复杂性导致大多数的失真并不可导，从而影响水印框架的正常训练。为了解决该问题，可分析跨媒介信道中真实失真的主要成分，利用已知的可导过程模拟真实失真。其中，可导过程可以是基于传统图像处理的过程，也可以是训练模拟失真的神经网络。这些模拟的过程最终可作为噪声层加入网络的训练，以获得针对跨媒介失真的鲁棒性。

数字水印的新趋势：由嵌入式转向生成式

近两年生成模型的陆续发布和开源降低了用户利用人工智能生成内容（AIGC）造假的门槛。许多主流平台上已经充斥着大量人工智能（AI ）生成的多媒体虚假信息。2023年7月，拜登召见了微软、谷歌以及OpenAI等七家公司领导人并承诺为AI生成的内容加入水印，这有助于安全地分享AI生成的数字媒体，避免因内容的真实性问题误导他人。其实在2023年7月，国家网信办等七部门联合发布了《生成式人工智能服务管理暂行办法》，其中便对“AI生成的内容要有标识”提出了具体要求。之后于2025年3月，国家网信办牵头正式发布了《人工智能生成合成内容标识办法》。为了解决AIGC虚假泛滥的问题，生成式水印方法被提出。例如，将水印生成、嵌入过程合并到AI图像的生成过程中。这样，水印的嵌入是在图像的生成过程中，而非图像生成之后，同时也意味着实际样本并不带有经典“加法”（嵌入）意义上的水印。该方法为内容平台追踪和验证信息真实性提供了一种新的可能性。

直到今日，数字媒体安全领域对可证安全的需求仍在日益增长。未来的发展趋势之一是研究可证性无损水印技术。该技术旨在确保水印的可靠嵌入与提取的同时，不对图像视觉质量造成影响并为数字内容的真实性和完整性提供更强有力的保障。当前水印技术的演进正朝着更透明、更智能化的方向发展。

_____________________

本文系“两翼杯”青年前沿科普创作大赛科普文章组一等奖作品，作者郭玳豆是常州工学院计算机信息工程学院讲师，丁红艺是上海理工大学学报编辑，秦川是上海理工大学光电信息与计算机工程学院教授

Periodical

期刊

沉默的证据