咨询律师 找律师 案件委托   热门省份: 北京 浙江 上海 山东 广东 天津 重庆 江苏 湖南 湖北 四川 河南 河北 110法律咨询网 法律咨询 律师在线 法律百科
我的位置:110网首页 >> 资料库 >> 论文 >> 刑法学 >> 查看资料

虚拟现场数字证据搜索技术综述

发布日期:2012-02-21    文章来源:互联网
【出处】《犯罪研究》2010年第6期
【摘要】在虚拟犯罪现场固定数字证据前,需要在大量数据中搜索和定位与案件事实相关联的数字证据。为了及时准确定位数字证据,必须依赖计算机相关技术,虚拟现场常采用的搜索技术包括基于字符串的搜索技术、基于特征码的搜索技术、基于数字指纹的搜索技术、基于痕迹信息的搜索技术等。
【关键词】数字证据;搜索技术;特征码;数字指纹;痕迹信息
【写作年份】2010年


【正文】

  一、引言

  当互联网中发生与网络相关的犯罪时,需要从虚拟的犯罪现场中固定与案件事实相关的证据。由于数字证据是以数字化形式存在的,具有无形性、技术性、隐蔽性、复杂性等特点,对其固定与传统证据有较明显的区别,无法通过肉眼直观判断数字证据的有无和具体位置。由于在虚拟空间中,存储着大量的杂乱无章的数据。在这些数据中,只有很少的一部分数据是与案件相关的。在犯罪调查取证中,只需要收集这些与案件相关部分的证据。因此,需要事先通过搜索或检查等方法过滤掉无用的数据,确定与案件相关的数字证据。搜索可以通过人工手段也可以通过计算机自动处理进行有限或者全部处理。通过人工方法在虚拟现场中寻找案件相关证据是难以想象的。一方面,案件调查需要在有限的时间内完成;另一方面,很多数据必须借助特定的工具才能够被人所理解。因此,通过技术方法进行自动收集案件事实相关证据是网络犯罪或相关犯罪调查取证必不可少的。

  在虚拟的犯罪现场搜索数字证据,目的是为了从大量杂乱无章的数据中快速且准确地找出确实与案件事实相关的数字证据。良好的搜索技术能够快速定位与案件事实相关的证据,又不过多地将一些无关证据搜索出来。在虚拟现场中搜索数字证据的技术有很多,但都需要根据一定的预测信息从现场中获取。根据预测信息的方式不同,大体可将虚拟空间搜索数字证据的方式分为基于字符串的搜索技术、基于特征码的搜索技术、基于数字指纹的搜索技术、基于痕迹信息的搜索技术。

  二、数字证据搜索技术

  在虚拟空间中搜索数字证据时,完全采用人工方法逐一检查所有相关的数据信息是不可行的。由于信息量大、相关数字证据信息量少,所以需要充分利用计算机的自动处理能力。利用计算机技术搜索数字证据时,一般需要使用一定的预测信息。当计算机逐一检查虚拟空间数据信息时,通过一定方法进行计算,当所得结果值符合预测条件时,可以将获取的数字证据作为证明案件事实的初步证据。根据预测信息的不同,可以将其分为四种完全不同的预测信息。

  第一种信息是与被搜索或检查数字证据内容或者属性相关的信息,这种预测信息所搜索的结果与需要获取的数字证据存在一定关联关系。通常,需获取的数字证据是搜索结果的一个子集。

  第二种信息是与被搜索或检查数字证据内容密切相关的信息,且该信息与该数字证据具有较好的对应关系。这种预测信息所搜索的结果与需要获取的数字证据存在较强的对应关系,能比较准确地搜索出需要的数字证据。

  第三种信息与被搜索或检查数字证据的所有内容存在密切联系的信息,该信息与该数字证据一般具有较好的一一对应关系。将虚拟犯罪现场相关数据信息转化为需要比对的信息,便能搜索需要获取的数字证据,且搜索的准确度较高。

  第四种信息与被搜索数字证据的内容或者属性存在间接的联系,通过该信息的获取,可以间接地确定需要搜索的数字证据的具体位置,或者可以确定搜索数字证据所使用的预测信息。

  按照四种不同信息所使用的搜索技术依次可以称为基于字符串的搜索技术、基于特征码的搜索技术、基于数字指纹的搜索技术、基于痕迹信息的搜索技术。

  1.基于字符串的搜索技术

  如果事先能够确定数字证据包含的部分内容,可以将该信息作为检索条件从现场中检索符合条件的所有数字证据。例如,利用文件名、文件创建时间、文件修改时间、文件内容中所包含的字符串等信息。这些信息一般由字符串组成,将不同字符串根据不同的条件进行组合检索的技术为基于字符串的搜索技术。这里的字符串可以是二进制字符、ASCII字符、Unicode字符、MIME字符、…等等。

  在虚拟犯罪现场中搜索数字证据时,该方法是最常用的方法之一。根据收集的场所又可进一步划分为存储介质中搜索、文件系统中搜索、应用系统中搜索等多种方法。在存储介质中搜索数字证据时,一般根据给定的字符串组合条件情况,从存储介质的开始到结尾,依次将字符串组合条件与介质中数据依次进行匹配,如果符合匹配条件,则将匹配所得的信息进行记录,最后将记录的信息提供给调查人员进行进一步分析和判断。文件系统中字符串匹配与存储介质中字符串匹配方法类似,唯一不同的是检索时需要在所在操作系统平台支持的一个或几个文件系统框架下进行,这表明有些隐藏的数据、文件系统中被删除的数据、被覆盖的残留数据、不能被系统识别的其它数据等均不能通过该方法检索出来。应用系统中字符串匹配指的是通过应用系统提供的检索功能进行字符串匹配或数据检索。通常,应用系统将要使用的所有数据存储在数据库中。需要数据时,再通过数据库提供的标准查询语句进行检索。因此,最常见的应用系统中字符串匹配是数据库中字符串的匹配。在数据库检索中,通过提供一种结构化的查询语言供数据库使用者进行检索数据。这种查询语言可以通过将复杂的条件表达式找到满足特定条件的数据库记录信息。

  准确度是衡量基于字符串搜索技术定位数字证据好坏的关键因素之一。准确度高低除了与使用的算法有关外,还与字符串条件组合的情况有关。通常情况下,使用基于字符串搜索技术常搜索出大量的与案件无关的数据信息,使得进一步定位与案件相关的数字证据变得比较困难。

  2.基于特征值的搜索技术

  基于特征码的搜索技术也是一种常用的搜索技术,与基于字符串搜索不同的是,该方法中特征码信息来源于文件内容,且匹配条件简单,一般进行相同或相似的匹配,通常速度快、准确性高,常用来搜索破坏性代码证据,例如,在计算机病毒检测中,当出现新病毒时,将从病毒程序中寻找并提取一部分能够代表该病毒的唯一的二进制代码,作为该病毒的特征值,并将该病毒特征值添加到病毒特征码数据库中。如果需要检测病毒,只需要与病毒特征码数据库中特征码逐一比较,用以判断某程序是否属于已知病毒。使用特征码检测破坏性代码(注:一般只能检测计算机病毒、蠕虫和木马,不能检测其他破坏性代码),只能检测已知的破坏性代码,不能检测未知的破坏性代码。而且对于某些擅于伪装的代码难以发现或检测。

  基于特征码的搜索技术效率高、准确率高,但应用范围受到较大限制,一般只用来检测已知的破坏性程序代码,对于其它数字证据无法进行识别和定位。

  3.基于文件指纹的搜索技术

  前述两种搜索技术所使用的预测信息直接与文件(或数据)的属性或内容有关,由于预测信息与文件内容无一一对应的关系,检索出的数据信息中常常包含无用的信息。使用文件指纹能够较好地改善这种情形。基于文件指纹的检索技术使用能够代表文件内容的指纹直接通过指纹的比较来判断所获取的文件是否为所需要搜索的内容。表示文件指纹的方法非常多,但大多使用二进制字符串来表示,大体可分为两种不同的形式:一般指纹和模糊指纹。

  一般指纹所包含的二进制字符串与文件内容无任何关联,二进制字符串中少量字符的差异并不表明文件内容只存在少量差异。而模糊指纹所包含的二进制字符串内容与文件内容具有一定的相关性,模糊指纹相似的文件内容,在内容上也存在相似的特点。

  (1)利用一般指纹搜索

  一般指纹通常使用单向加密技术实现。单向加密与双向加密不同,它只对数据进行加密,不能通过一定的算法或工具将其还原成明文。单向加密算法可用于不需要对信息进行解密或者读取的场合。当用来比较数据传输或处理前后的两消息内容是否完全一致,不需要或不宜知道信息内容时,非常实用。一种常见的单向加密方法是采用Hash函数加密。常见的单向Hash函数有MD2、MD4、MD5、SHA-1、SHA256。在数字证据搜索中,常采用MD5、SHA-1、SHA256。它们既可用于证据检索,也可以用于保护证据的完整性。基于一般数字指纹搜索技术经常用来检测恶意代码或者己知内容的嫌疑文件。由于数字指纹匹配是基于文件内容的,一些通过更改文件名,修改文件扩展名等反侦查措施行为也无法逃过它的检测。在检测恶意代码时,数字指纹匹配适合检测以文件形式存在的内容完整的破坏性代码,在采用此方法进行检验时,需要先将已知的破坏性文件指纹存入到破坏性程序(或文件)数据库中,同时将已知的安全文件的指纹存入到安全程序和文件数据库中。通过比较可以判定存储介质中的特定文件是否包含破坏性代码。其主要工作原理如图1所示: 在有些犯罪案件调查中,数据量极其巨大,当采用基于字符串的搜索技术检索数字证据时,检索出的信息非常多,而与案件相关的证据信息非常少,这样会大大增加人工分析的工作量。而采用基于一般数字指纹搜索数字证据时,数据内容非常少的变化结果也是不同的,很多与案件相关的信息不能检索出来。因此,需要采用更加智能的方法来检索数据。在案件调查中,常见的相关证据可能因为犯罪嫌疑人的刻意混淆或者破坏、计算机系统的处理异常、数据的覆盖等各种复杂因素影响,只有部分的证据信息被保留。此时,新的证据信息与原始证据信息依然是同源的。因此,需要采用更加智能的方法进行检索。智能检索的方法是计算机取证的前沿课题,存在很多方法和技术。在计算机取证中常采用基于模糊指纹的检测方法。

  (2)利用模糊指纹搜索

  基于模糊指纹的搜索技术是通过智能的方法发现和检测破坏性代码,或者其他程序或文件。这种方法通常利用智能的方法确定可能存在的破坏性代码或者破坏性代码的可能类型,并对可能的破坏性代码再通过人工分析方法进一步确定是否属于破坏性程序及属于哪一种类型的破坏性代码。前者分析通常可采用一种模糊检测的方法进行发现,例如使用“相似度”确定特定软件与已知的破坏性代码相似情况。很多破坏性代码在设计时便加入了一些防止病毒检测、改变自身内容等反侦查技术代码,难以通过数字指纹或者特征码等方法进行检测;而且,在案件调查中,获取的破坏性代码有时候并不完整,只有部分证据信息被保留。犯罪嫌疑人的刻意混淆或者破坏、计算机系统的处理异常、数据的覆盖等各种复杂因素均能影响破坏性代码数据的完整性。即使破坏性代码信息不完整,它与原始证据信息依然是同源的。通过模糊检测的方法可以计算待比较信息的相似度,根据相似度大小可以确定证据信息是否同源。因而,智能方法也是一种常见的发现和检测破坏性代码的方式。

  基于一般数字指纹的搜索技术准确率高,能否搜索出相关数字证据主要依赖检测所用指纹库信息的全面性。但如果数字证据内容被部分破坏,则无法通过该技术搜索出数字证据;而基于模糊数字指纹的搜索技术则具有较好的适应性,但既要保证搜索的效率又要确保搜索的准确度是一项难题,也是目前研究的新热点问题。

  4.基于痕迹信息的搜索技术

  如果事先无法确定检索数字证据的任何预测信息,则首先必须使用人工的方法寻找数字证据的相关线索,否则难以在包含海量数据的现场中准确获取案件事实相关证据。在很多涉及虚拟现场的犯罪中,犯罪所涉及的一系列行为会在现场留下很多相关信息,即数字痕迹,有些数字痕迹信息可能会不能直接证明案件事实,但可以用作发现案件事实的线索。即数字证据可能与现场中其它数据(痕迹信息)存在某种联系。根据这些数据(痕迹信息)发现和定位数字证据的方法称为基于痕迹信息的搜索技术。

  基于痕迹信息的搜索技术与上述几种搜索技术不同,它所使用的预测信息与数字证据内容或属性无关。使用该技术能够直接确定数字证据的位置,或者虽不能确定位置但能够发现与数字证据内容或属性有关的预测信息。

  由于在犯罪现场中痕迹信息的类型和内容千差万别,设计功能良好的基于痕迹信息搜索的软件十分不易。根据取证人员提供的有限信息,软件应能够自动在计算机或网络中自动寻找痕迹信息,并根据痕迹信息内容,自动搜索或者定位数字证据。例如,在Windows操作系统中,软件应能够对注册表、临时文件、内存信息进行自动分析,并自动将这些异常痕迹信息所指向的内容进行固定向关数字证据。

  基于痕迹信息的数字证据搜索技术,定位速度快,准确度相对较高。但是数字证据搜索的全面性与否完全依赖痕迹信息的充分性。

  三、结论

  虚拟犯罪现场与传统犯罪现场不同,数字证据不以肉眼所能见的直观表现形式存在,且现场中涉及到大量的数据,依靠人工手段远远不能完成搜查任务,必须依赖相关计算机搜索技术,本文根据搜索所依赖预测信息的不同,将虚拟犯罪现场搜索技术归纳为四种不同的类型,并对不同搜索技术的所取得数字证据的特点进行了分析。由于网络犯罪和虚拟犯罪现场还是一比较新的事物,目前在搜索技术方法的研究已成为一项新的热点,准确度高和效率高的搜索技术不断翻新,相信未来数字证据搜索技术的功能会更加快速和准确。




【作者简介】
廖根为,单位为华东政法大学。
没找到您需要的? 您可以 发布法律咨询 ,我们的律师随时在线为您服务
  • 问题越详细,回答越精确,祝您的问题早日得到解决!
发布咨询
发布您的法律问题
推荐律师
陈兵民律师
天津河西区
陈宇律师
福建福州
刘永军律师
山西太原
刘海鹰律师
辽宁大连
刘平律师
重庆渝中
罗雨晴律师
湖南长沙
宋昕律师
广东深圳
王远洋律师
湖北襄阳
李波律师
广西柳州
热点专题更多
免费法律咨询 | 广告服务 | 律师加盟 | 联系方式 | 人才招聘 | 友情链接网站地图
载入时间:0.03001秒 copyright©2006 110.com inc. all rights reserved.
版权所有:110.com