数据库水印(简称数据水印)是一种将标识信息(如版权信息、机构/员工ID)通过一定的规则与算法隐藏在结构化数据中的技术。隐藏后数据库的使用价值几乎不变。其主要用于版权保护或泄露追踪溯源(本文关注后者)。广泛地说,数据库水印属于数字水印的其中一个分支。除数据库水印外,根据嵌入载体不同,数字水印还包括图像水印、视频水印、音频水印、文本水印和软件水印等。其中,最早的数字水印技术是应用在图像领域中,即图像水印发展较为成熟。数据库水印技术在安全需求驱动下,近年来得到快速发展与应用。下面从数据库水印的方案框架、评估指标、水印攻击和典型算法四个方面对其进行全面概述与介绍。
2.1方案框架
-
水印嵌入端:企业或组织机构通过水印嵌入算法,将水印标识信息W(如下载该数据库的员工ID)隐藏到原始数据库D中,最终得到含水印的数据库,为了保证安全性,该过程通常由密钥控制
-
水印嵌入端:当数据库发生泄露后,企业或组织机构希望查找清楚是谁泄露该数据库,它通过水印提取算法,在获得的数据库进行水印提取或相关性检测操作,进而溯源确定最终的泄露主体,追究责任
2.2评估指标
-
透明性。也称为不可感知性,包括主观不可感知性和客观不可感知性,前者是指用户主观体验不出数据库一些变化;后者由数学指标进行定义,比如均值和均方差的改变率,改变率越小,不可感知性/透明性越好。 -
鲁棒性。在溯源场景也称为溯源成功率,是指遭受各类攻击后仍然能正确提取水印的能力。通过多种水印攻击测试,结合提取水印比特的误码率或检测的相关性值进行综合评估。 -
嵌入容量。数据库可以嵌入的水印比特信息数量,通常使用每个元组可嵌入的水印比特数或总嵌入量指标进行评估。
-
安全性。攻击者在没有掌握密钥情况下,不能提取到隐藏的水印信息、不能破坏水印信息、且不能伪造或替换非法的水印信息。相比鲁棒性指标,安全性指标考虑范畴更大、要求更严。 -
实用性。是指算法的应用效果,包括嵌入/提取算法的执行效率,所需的内存空间。
2.3水印攻击
-
修改攻击(Alteration attack):对数据库的属性值进行部分修改。 -
删除攻击(Deletion attack):也称称为抽样攻击,选择数据库的部分元组或部分属性列。 -
插入攻击(Insertion attack):在数据库插入新的记录或者增加新的属性列。 -
置换攻击(Permutation attack):改变数据库的元组顺序。 -
混淆攻击(Obfuscated attack):在已有的含水印数据库中嵌入一个新的伪造水印。 -
复合攻击(Multifaceted attack):综合前面提到两种或以上攻击方法。
2.4嵌入方法
- 数值属性的嵌入方法:其主要思路是通过一定的规则,修改原始数值的大小而嵌入“0”或“1”两种水印比特。为了保留数据可用性,修改应满足一定的约束条件(如统计特性)。最为简单的方式,是在数值属性值的最低有效位(Least Significant Bit, LSB)进行替换,比如在年龄18(二进制“10010”)最小LSB位嵌入“0”变为18( “10010”),嵌入“1”变为19(二进制“10011”)。其他可以在小数点后进行嵌入,或者使用不同的量化索引等嵌入机制。
-
类别属性的嵌入方法:类别属性不能直接修改数值编码,一种思路是嵌入数据库用户不易察觉的字符或标点,比如通过在类别属性值末尾嵌入回车符、换行符表示“0”“1”,以及嵌入不同的空格数量等,常见嵌入规则如表1所示;另一种思路是基于语义的近义词进行嵌入,首先构建关键词的近义词库并确立顺序,嵌入过程根据约定规则嵌入“0”或“1”比特。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-
伪行水印:先基于元组各项属性的数据类型、数据格式、取值范围的约束条件生成多个伪造的行,然后将水印按前面所述的数值属性或类别属性嵌入规则嵌入水印比特。 -
伪列水印:伪造新的属性列,包括数值属性列或类别属性列,生成的伪列应尽可能与该关系表的其他属性相关,不容易被攻击者察觉,然后将水印比特嵌入到伪造的新列中。
3.1针对企业员工的泄露溯源
3.2针对组织机构的泄露溯源
-
政府部门数据共享场景:包括从中央到地方的纵向数据共享,以及省市地区之间横向数据共享。 -
企业之间的数据共享:多家企业将自身的数据进行融合,联合进行数据挖掘与机器学习任务。 -
研究性质的数据发布:金融/医疗将限制开放给科研机构、以及高校,进行数据统计与数据分析。 -
商业性质的数据外包:企业有一批数据,外包给第三方进行数据分析或处理。
本文为数据安全系列文章,欢迎阅读该系列的相关文章:
法规标准篇:
《数据淘金热时代下的隐私问题何去何从——探讨国内外法规下的匿名化概念》
治理体系篇:
《聚焦数据安全建设难点,绿盟科技发布《数据安全白皮书2.0》》
实践技术篇:
《大数据下的隐私攻防02:身份证号+手机号如何脱敏才有效?》
数据安全事件解读:
《2019年国内外数据泄露事件盘点——个人信息保护刻不容缓》
RSAC创新技术解读:
《RSA2020创新沙盒Securiti.ai—解决隐私合规痛点的一站式自动化方案》
《RSA2019创新沙盒Duality:基于同态加密的数据分析和隐私保护方案》
参考文献
-
Risk based security, 2020 Q3 Report: Data BreachQuickView: https://pages.riskbasedsecurity.com/hubfs/Reports/2020/2020%20Q3%20Data%20Breach%20QuickView%20Report.pdf -
绿盟科技《网络安全观察2020》,http://blog.nsfocus.net/wp-content/uploads/2021/01/The-Observed-of-Cyber-Security-2020.pdf. -
绿盟科技《拥抱合规、超越合规:数据安全前沿技术研究报告》,http://blog.nsfocus.net/wp-content/uploads/2021/01/data_security_advanced_technology_research_NSFOCUS_1228.pdf. -
Sion R, Atallah M, Prabhakar S. Rights protectionfor relational data. IEEE transactions on knowledge and data engineering, 2004,16(12): 1509-1525. -
Sion R, Atallah M, Prabhakar S. Rights protectionfor categorical data. IEEE transactions on knowledge and data engineering,2005, 17(7): 912-926. -
Shehab M, Bertino E, Ghafoor A. Watermarkingrelational databases using optimization-based techniques. IEEE transactions onknowledge and data engineering, 2007, 20(1): 116-129
天枢实验室聚焦安全数据、AI攻防等方面研究,以期在“数据智能”领域获得突破。
本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。
关于我们
绿盟科技研究通讯由绿盟科技创新中心负责运营,绿盟科技创新中心是绿盟科技的前沿技术研究部门。包括云安全实验室、安全大数据分析实验室和物联网安全实验室。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。
绿盟科技创新中心作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。
我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。
原文始发于微信公众号(绿盟科技研究通讯):数据泄露频发,数据水印技术如何做到事后溯源追责?