近年来,由于符合当前低碳经济与绿色计算的总体趋势,在世界各国政府的大力倡导与推动下,云计算及其相关产业正蓬勃发展。但云计算在推动信息资源高度数字化和网络化的同时,不可避免地扩展了数据泄露的通道,导致数据被窃取和破坏、泄密等事件的频繁发生。
云存储的数据安全性问题尤其是数据泄露(Data Leakage)已引起学术界和产业界的广泛关注。Gartner前任DLP分析师Rich Mogull针对数据泄露防护(Data Leakage Protection,DLP)给出如下定义:以集中策略为基础,采用深层内容分析,对静态数据、动态数据及使用中的数据进行识别、监控、保护的相关产品。其主要作用是防止内部和外部人员有意或无意地将敏感信息发送到未经授权的第三方。因此,针对DLP技术进行研究,建立完善的数据泄露防护体系,对于保护核心资源安全具有十分重要的意义。
一、数据泄露检测技术
数据泄露检测技术的主要作用是检测并阻止泄露的发生,防患于未然。具体的技术策略包括:一是解决对静态数据的存储保护,二是解决传输态数据的泄露问题,三是解决应用系统在使用数据时存在的泄露风险。简单起见,可分为泄露检测通用技术和其他类泄露检测技术。
(一)泄露检测通用技术
为预防数据丢失,无论数据存储、复制或传输至何处,都必须保证能准确检测到所有类型的敏感数据。如果没有准确的检测,数据安全系统就会生成许多误报及漏报。前者会耗费大量核查及确认的时间和资源,后者则会掩盖安全漏洞引发泄露风险,因此需要准确的检测技术来做保障。为了确保准确性,DLP采用了3种基础检测技术和3种高级检测技术。
基础检测技术。基础检测技术中通常包括3种方式:正则表达式检测(标示符)、关键字和关键字对检测、文档属性检测。基础检测方法采用常规的检测技术进行内容搜索和匹配,比较常见的包括正则表达式和关键字,此两种方法可对明确的敏感信息内容进行检测。文档属性检测主要针对文档的类型、文档的大小、文档的名称进行检测,其中文档的类型的检测是基于文件格式进行的。
高级检测技术。高级检测技术中主要包括3种方式:精确数据比对(EDM)、指纹文档比对(IDM)、向量分类比对(SVM)。通常,EDM用于保护为结构化格式数据,IDM和SVM用于保护非结构化数据。对于EDM、IDM、SVM而言,敏感数据会先由企业标识出来,然后再由DLP判别其特征,以精准地进行持续检测。
EDM可保护客户与员工的数据及其他通常存储在数据库中的结构化数据。EDM允许根据特定数据列中的任何数据栏组合进行检测,也就是在特定记录中检测M个字段中的N个字段。它能在“值组”或指定数据类型集上触发,例如,可接受名字与身份证号码这两个字段的组合,但不接受名字与手机号这两个字段的组合。
IDM可确保准确检测以文档形式存储的非结构化数据。IDM会创建文档指纹特征,以检测原始文档中已检索部分、草稿或不同版本的受保护文档。IDM首先要进行敏感文件的学习和训练,打开敏感内容的文档时,IDM采用语义分析技术进行分词,再进行语义分析后,提出来需要学习和训练的敏感信息文档的指纹模型,最后利用同样的方法对被测文档或内容进行指纹抓取,将得到的指纹与训练的指纹进行比对,根据预设的相似度进一步确认被检测文档是否为敏感信息文档。这种方法可让IDM具备极高的准确率与较大的扩展性。
SVM由Vapnik等人于1995年提出,它是建立在统计学习理论的VC维理论和结构风险最小化原理基础上的,其基本思想是把训练数据的非线性映射到一个更高维的特征空间中,并寻找一个超平面使正例和反例两者间的隔离边缘被最大化。SVM表现出很多引人注目的性质,因此被广泛地应用在模式识别、数据挖掘等领域。
(二)其他类泄露检测技术
使用较为广泛的主流技术以控制类、加密类、过滤类、虚拟类为代表。
控制类技术。控制类技术通过安全策略,控制内部网络用户的使用和应用权限,对应用和用户两个维度组合进行细粒度限制,以降低内部数据泄露风险。其核心思想是权限概念的延伸,主要通过权限设置,对计算机输入输出进行集中控制和管理,实现对关键数据传输的控制,防止未经授权的数据外泄。该类技术通常不对数据的存储进行加密保护,而主要关注数据在传输过程中的合法性。控制类技术无法解决如磁盘丢失、笔记本被盗等被动泄密风险,同时防范手段也不够全面,所以单独采用控制类技术来实现数据防泄露的方案目前已越来越少。
加密类技术。加密类技术是最传统、也是必不可少的一种数据泄露防护技术,其主要思想是将数据从明文加密转换为密文。加密后的文档即使流失到外部也无法打开,确保核心秘密不被泄露。根据数据加密的方式,加密类技术主要分为以下4种类型。文件级加密技术。该技术通过建立应用程序的进程和相应文件之间的关联来达到对特定文件数据加密的目的,其加解密过程对用户透明,对文件的使用无任何影响,技术实现简单且开发周期短。透明加密技术主要分为应用层透明加密和驱动层透明加密两类。前者通过消息处理机制,监控应用程序对文件的打开和保存操作,安全系统与应用程序的具体实现密切相关,对用户环境的兼容性较差;后者基于文件系统驱动技术,工作在API函数的下层,与应用程序无关。该技术的优点是运行速度快,加解密操作更稳定,缺点是开发难度较大。
磁盘级加密技术。该技术主要通过对特定的磁盘扇区进行加解密来实现对写入磁盘特定保密区域的数据进行加解密操作,对非保密区域根据用户权限允许或禁止读写操作。该技术的优点是与应用无关,支持应用的升级和更新,能兼容各种复杂的应用环境,稳定性和可用性好;缺点是对保密存储区难以控制,且无法防止主动泄密行为。这一弱点极大限制了磁盘级加密技术在数据防泄露方面的应用。
硬件级加密技术。该技术是指直接由数据存储设备或其他硬件设备提供加密保护功能。最具代表性的是Drive Trust技术,即在硬盘中集成加密处理芯片,无需安装客户端软件,工作时不占用CPU资源,对整个磁盘进行加密处理。采用硬件级加密技术,在系统破坏或硬盘丢失、被盗、废弃或转售时,可有效阻止未经授权的访问,但无法有效防止其他途径的主动泄密行为。
网络级加密技术。该技术主要用于保障数据在网络传输过程中的安全。根据实现保护层次的不同,可分为网络层的IPSec VPN、应用层的SSL VPN、专用IP数据包格式变换等。该技术的缺点是无法对通过外部存储介质所传递的数据进行安全保护,因此通常不能作为一个完整的数据泄露防护解决方案,需要与其他技术结合使用。
过滤类技术。过滤类数据保护技术通过监控机构内部发往外部的信息包以确定其中是否包含敏感信息。这种技术不仅在协议、端口和IP地址层上进行操作,同时还使用相关技术进行敏感数据识别。相对于其他技术,其优点是无需在终端处安装软件。安全管理人员通过设置过滤规则和关键字过滤出相关内容,防止敏感数据泄露。其缺点是也存在过滤手段受限于内容分类的效率和准确度;无法识别被用户特殊处理过的通信内容;由于要进行深度内容过滤,因此设备性能往往成为限制其应用的瓶颈。
虚拟化技术。虚拟化技术分为基于硬件实现的虚拟化和基于软件实现的虚拟化。前者对硬件平台有特殊需求,兼容性较差,应用极其有限;后者包括硬件抽象层的虚拟化、操作系统层的虚拟化和应用层的虚拟化,其特点依据具体的虚拟化方式而定,具有较大的灵活性。
二、数据泄露追踪技术
在数据与第三方存在共享的环境下,所有者一般对敏感数据没有充分的控制手段,防止和检测数据泄露相对困难,因此需要有相关技术来追踪和震慑这些不实行为。
早期的数据泄露追踪技术包括标记化算法、信息传输决策点技术、诚信机制水印技术、便携式数据绑定算法(Portable Data Binding,PDB)和流模型算法等。这些泄露追踪算法的缺陷是需要修改源数据,且检测性能也不尽如人意。
当前,主流的泄露追踪算法通过应用分配策略,把不同的数据对象分配给每个代理(Agent),提高在不改变源数据的前提下,增加识别泄密者的概率。主流泄露追踪技术主要以过失模型为基础,少数研究也涉及了影子模型和数据看守/泄露检测技术。Buneman P等人研究了Data Provenance的问题,他们提出,跟踪被泄露数据组的线性关系是提高检测Guilty Agents可能性的关键因素。其他文献也讨论了Guilt检测方面的问题。Jagtap NP则对企业实际应用中的数据泄露与保护进行了研究,并提出Data Watcher和Leakage Detector概念模型。Cui Y等人提出一些更有针对性的解决方案,如对数据仓库的线性跟踪。
根据数据分配策略技术在不同环境下的应用,研究者进行了较为广泛的研究。Koneru A等人侧重分析数据分配策略技术与加密技术相结合来防止数据泄露。另外,Koneru A还分析了如何优化数据对象分配过程以提高检测成功率。Shobana V等人研究了数据分配及泄露检测技术在云计算环境中的应用情况,特别是针对云数据存储环境的保护。Ansari Z S等人研究了数据分配策略技术在E-Mail过滤中的机制,阐述了一种用伪数据检测过失代理的模型并将其应用到E-Mail安全过滤系统中。
三、行业现状及产品对比
经历了近20年的发展历程,数据泄露防护方面的安全产品从无到有,已形成了相对完善的产品系列,与传统的杀毒软件、防火墙及入侵检测并列成为第四大网络安全工具软件。
囚笼型DLP产品。这个阶段的产品主要特点为设备强管控,采用逻辑隔离手段,构建安全隔离容器。自2000年后,国外的安全管理产品相继涌入中国。2008年以后,随着国内产品开始大量进入市场,至今国外终端管理类产品已被国内产品大量替换。虽然市场已呈现饱和状态,但每年还有将近4000万元左右的市场份额来自于这个强管控的终端管理产品。
枷锁型DLP产品。这个阶段的产品主要表现为文档强管控,提供内容源头级纵深防御能力。数据文档的分类、分级、加密、授权与管理与终端管理不同,数据加密与权限控制产品已将关注点从设备变化成具体的数据文件,控制方式更加细粒度化,保密方式更优化。从2007年至今,市场中涌现出很多有实力的优秀厂商。加密和权限类产品至今为止,每年还拥有10亿元左右的市场份额,各个行业都有数据防护的需求。虽然市场竞争激烈,但使用者还是担心数据会被加密绑架,且是全局范围内绑架。目前,所有产品成熟度及稳定性较好。
监察型DLP产品。该产品是行为强审计,利用准确关键字对数据操作行为,例如,文档的新建、修改、传输、存储、删除等进行审计,分为网络行为审计和终端行为审计。前者可有效地监控员工工作时间的网络访问行为,后者则更有针对性地完成对关键数据文件的操作行为。审计产品与其他网络和终端产品共存,可互相补充,至今市场占有率依然很高。然而,随着很多网络和终端产品的不断完善和提升,单独行为审计产品已无法顺利存活,多元化产品开始受到客户青睐。
智慧型DLP产品。智慧型产品追求智能管控,可识别、可发现、可管理,提供共性管控能力。为了更加全面地对数据进行管控,终端管理产品与加密权限类产品提供了很多组合方案,但都属于全局强管控,有一定的局限性,无法应用到更加复杂的数据环境中。在这种情况下,人们愈发重视数据内容,内容感知型DLP产品应运而生。通过内容来识别数据的重要性,对数据进行分类和级别划分,智能化的管控方式也带来了更多的便利性和灵活性。
面对越来越严峻的安全形势,国内外安全厂商纷纷推出数据泄露防护解决方案。这些解决方案的最终目的只有一个:确保数据安全,防止数据泄露。
目前,国外在数据防泄露领域已涌现出一批优秀企业,从不同的角度提出了各自的数据泄露防护解决方案。由于数据防泄露是个比较新的领域,国外在这方面虽然起步较早,很多公司宣称自己是该领域领先者,但实际上就目前来看,尚没有任何一家公司具有显而易见的优势。一方面是因为该领域仍存在大量需要解决的技术问题,另一方面则是由于敏感数据防泄露涉及政策和管理等方方面面的问题,且各行各业情况不尽相同,这也增加了数据防泄露的难度。
自2013年以来,国内大力推动国产DLP产品的生产和应用,在金融行业和运营商行业更是掀起了一股潮流。但国内产品还处于萌芽阶段,产品的不成熟和不稳定为DLP国产化的道路带来了阻力,很多终端、加密和审计厂商开始转型。国内相关产品虽然具备了一些数据泄露防护功能,但其主要采用单一加密方式对数据进行保护,不能对传输中的数据进行保护,且加密文件的外发需要经过文件审批流程,增加人工管理工作量,缺乏对数据全生命周期的管控。因此,为适应数据泄露防护产品发展的需求,相关企业已对当前实施的DLP行业标准进行修改。新行业标准的落地必将大力推进DLP产品的发展,对于防止数据外泄、确保敏感数据安全具有重要意义。
云计算为各行业提供了低廉的计算成本、海量的存储空间和灵活的配置能力,这也使整个云计算产业获得了前所未有的迅猛发展。与此同时,数据安全尤其是敏感数据泄露问题也日益引发了人们对云安全的普遍担忧。本文重点介绍了云环境中数据泄露风险的成因和特点,然后分别针对数据泄露检测技术和数据泄露追踪技术展开分类归纳和综述,并对数据泄露防护的行业现状及主流产品进行了分析对比,以期能为云环境下数据泄露的研究做出一些有益探索。
(原载于《保密科学技术》杂志2017年2月刊)