搜索机器人应用于采集电子证据探讨.doc

上传人:99****p 文档编号:1748376 上传时间:2019-03-14 格式:DOC 页数:7 大小:27.50KB
下载 相关 举报
搜索机器人应用于采集电子证据探讨.doc_第1页
第1页 / 共7页
搜索机器人应用于采集电子证据探讨.doc_第2页
第2页 / 共7页
搜索机器人应用于采集电子证据探讨.doc_第3页
第3页 / 共7页
搜索机器人应用于采集电子证据探讨.doc_第4页
第4页 / 共7页
搜索机器人应用于采集电子证据探讨.doc_第5页
第5页 / 共7页
点击查看更多>>
资源描述

1、搜索机器人应用于采集电子证据探讨摘 要 在网络犯罪中,很多的证据是散落在互联网的各个角落,特别是非法言论、虚假信息、传销广告、诈骗信息等。公安机关侦查部门就需要采用特殊手段,收集对案件有法律效力的网络电子证据。面对庞大的互联网信息,人工搜索的方式不仅费时费力,花费的人力物力成本高,而且不能够全面的获取需要的电子证据。运用搜索机器人的方式,建立互联网收集的信息收据库,根据制定的搜索规则,及时的遍历互联网络信息的节点,提取有效的电子证据,为司法实践提供高效全面的数据库查询,有力的打击网络犯罪。 关键词 搜索机器人 电子证据 信息检索 作者简介:唐剑刚,云南警官学院信息网络安全学院教师,主要从事网络

2、安全与计算机犯罪研究。 中图分类号:D925 文献标识码:A 文章编号:1009-0592(2014)02-259-02 在电子取证过程中,通过传统的手段获取分散在互联网上的电子证据是一件十分不容易的事情,不仅人工需要搜索大量的网页,进行庞大的数据筛选,还需要花费大量的人力物力。为提高公安机关侦查部门快速获取来自互联网的电子证据,可以运用搜索机器人的方式,并结合数据库管理系统的模式。采用搜索机器人可以极大的提高检索互联网信息的能力,有效的降低成本。 一、搜索机器人介绍 随着信息技术的飞速发展,搜索引擎已经成为日常生活查找信息的必备工具,如 Google、百度、雅虎等。除此之外,还有一些针对特定

3、的信息进行搜索的工具,如专门搜索新闻、影视、图片等的搜索引擎。人们通过运用搜索引擎极大的提高了检索信息的能力,有效的降低了成本。在司法实践中,为了互联网取证过程更方便、准确、及时,并获取作为电子证据使用的专业的检索信息,因此研究搜索机器人采集电子证据的模型具有重要的现实意义。 由于全球化资源的信息,导致信息的容量极大、具有异构性和分布式的特点,这给信息检索带来了挑战。如何快速获取所需信息是电子取证面临的重要问题。解决这个问题的途径是就是正确的使用搜索机器人。搜索机器人也称“网络蜘蛛(Spider) ”,是指根据设定的搜索策略、运用定制的计算机程序代码实施互联网上信息的收集工作。通过对采集的庞大

4、的凌乱信息进行分析和处理,再为用户提供信息检索服务。 二、搜索机器人的原理 搜索机器人是提供因特网和万维网上的一种信息检索服务的系统,其具有信息搜索、分析、索引、检索与提供服务功能。作为一种Internet 信息检索系统,其基本原理是:使用 Robot(一段搜索程序,此类还有 Spider、Wander、Crawler 等)来遍历整个可以访问到的因特网它通过遍历整个网络资源 WEB 资源,能够扫描用户指定的 IP 地址范围内的所有网站,通过网站内部的超链接、网站内的外部链接,沿着链接从一个网页爬行到另一个网页,从一个网站到另一个网站采集网页信息数据。搜索机器人将分布在 Web 上的特定信息下载

5、到本地建立的信息库,然后对本地的信息库根据设计要求进行自动分析并建立以关键词为单位的索引文件。当用户根据需要进行信息查询时,搜索引擎通过索引文件查找出数据库中匹配的文档或链接,并根据检索关键词在每网页中出现的频率,对包含这些关键词的网页进行排序,最后输出查询结果。 网络搜索机器人为保证采集的信息最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。通常见到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索

6、引,并按一定的排名规则呈现出来。 搜索引擎功能的实现是建立在使用搜索机器人的基础上的进行Internet 搜索,自动抓取目标网站的网页,然后将获取的网页内容进行索引,并同时记录与检索有关的属性,对于中文搜索引擎,还需要先对中文进行分词,然后数据库系统才能够提供用户的查询服务,进而开始检索索引文件并按照各种参数执行复杂高级的计算,最后生成查询结果并返回给用户。为了保证网络机器人遍历的信息范围更广、深度更强,那么需要定制一些重要的链接并制定合理的扫描策略。搜索机器人将遍历得到的网页信息保存在临时数据库中。再通过建立索引,按照倒排文件的格式存放来提高检索效率。 三、搜索机器人的类型及特点 1.以分类

7、目录为主的机器人,特点是信息管理系统先将搜索到的网络信息归类并以分类目录为主。信息管理系统是采取人工操作的方式实现的,有的系统让搜索机器人根据事先制定的策略自动完成。该类搜索机器人的工作原理是根据系统的分类体系,按步照班的逐层遍历互联网的所有网页资源。它类似于图书馆中传统的分类索引功能。 2.以全文检索为主的搜索机器人,通常也被称作索引服务。它们与分类目录为主的搜索机器人使用的网站查询功能类似,但具体实现过程却有着本质的区别。其主要特点是需要遍历的目标信息量特别庞大。其设计的功能在理论上可以对 Internet 上所有网站进行逐个网、网页内逐个关键词进行检索。如果需要针对某一特定的关键词进行深

8、入细致的研究时,通常采用这类搜索机器人。特别是对于检索作为电子证据使用的互联网信息时,采用这种方式,获得的信息的可靠性、完整性更好。 3.多元化搜索机器人是为了一定程度上能够满足更多、更快地获得网络信息的要求而设计的。由于 Internet 庞大的信息,如果采用孤立一种搜索机器人通常是无法单独全面获取到需要的信息的。通过建立在搜索机器人层面之上的搜索模式,即多元搜索引擎来达到应用的要求。多元化的搜索机器人向下层的多个子搜索机器人发送检索命令后,该子搜索机器人将检索到的信息综合反馈并生成一个总结果集,提供给用户使用。多元化搜索机器人具有同时查询多个子数据库的优势,由于存在多个信息数据库服务器,可

9、以减轻对硬件性能的压力,提供更高效的服务。四、运用搜索机器人采集电子证据的流程 搜索机器人的工作流程如图 1 所示。 第一步是搜集信息,运用搜索机器人搜集互联网信息的方式分为批量搜集和增量式搜集两种,针对用户需要的信息的关键信息,如关键词、匹配权重、关联度、关联级数等参数,通过遍历 Internet 的方式搜集信息。由于互联网的信息量非常庞大,因此在用户执行搜索操作前,搜索引擎可以利用空闲时间事先获取尽量多的基础信息;另外需要确定搜集的目标,并人工提供给搜索机器人搜集策略。 第二步是整理搜集到的判定的杂乱信息。可以通过设置关键词的方式进行数据的整理和筛选。另外还需要对搜集到的重复网页进行清除,

10、避免大量的重复信息占用数据库资源,影响数据库管理系统的效率。同时要对已经搜集过和将要搜集信息的链接进行分析,建立索引服务。进一步根据电子证据的特点,提供各种关键词的关联信息及多级的关联信息的关系图。 第三步是在获取到的信息数据库的基础上,对应用提供相关的检索服务,包括建立查询方式和对查询匹配结果的排序,提供用作电子证据需要的文档摘要等。通过犯罪嫌疑人的姓名、IM 信息、手机号、论坛账号、身份信息等,在本地信息数据库中查询是否存在司法实践中案件中的电子证据。 图 1 搜索机器人采集电子证据流程 五、搜索引擎的设计要求 效率高的搜索引擎,通常数据库容量,更新频率高、检索速度快,并支持多语言的搜索,

11、而且能在数据库容量的不断增大时能快速的从庞大的信息库库中精确地找到需要的信息。 1.提高搜索引擎对用户检索内容的理解。好的检索判断解析语言是提高搜索引擎对检索内容理解的关键。目前已经有自然语言智能答询方案在一定程度上克服了关键词检索和目录查询的缺点。用户可以输入简单的疑问句,如“查询 2013 年 11 月 20 日坐飞机到昆明的姓李的乘客” ,搜索引擎通过对提问的逻辑结构和内容关键词分析后直接给出查询结果,或引导用户进一步筛选信息。 2.采用垂直主题搜索模式。互联网的信息浩如烟海,网络资源一直以惊人的速度增长,单一模式的搜索引擎很难以集到全面的信息,即使信息主题收集得比较全面,由于主题范围太

12、宽、无法做到精确和专业,使得检索得到的信息无效的过多。垂直主题的搜索引擎凭借其高度的目标化、专业化针对性为信息的检索提供了有力的补充。如提供新闻、论坛、图片、视频等方面的专业搜索。 3.合并元搜索引擎功能。元搜索引擎能够提供全面而准确的查询结果。现在很多搜索引擎,其收集信息的范围、排名规则、索引方法等都不相同,平均只能检索到 Web 资源的 30-50%,导致检索到的信息不全面,甚至遗漏重要证据。元搜索引擎(METASearchEngine)是将用户提交的检索请求发送到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性化搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。 六、总结 在司法实践中,有很多的案件需要电子文件、图形、图像、视频等资料作为证据使用。很多证据是分散在互联网中,公安机关侦查网络犯罪时就需要采用一定的手段,搜集相关的电子证据。运用搜索机器人来获取提取有效的电子证据,是打击网络犯罪的一种有效手段。 参考文献: 1于艳东,姚玉阁,搜索引擎原理浅析.集宁师专学报.2007(4).

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。