1、数据库研究面临信息爆炸 关于信息爆炸的报道经常出现在流行的新闻媒体上,而在这个时期,出现的这些报道并不精确,提到不仅大量的有用信息以数字化形式增加,而且信息传播的广度也在增加。这种信息爆炸常被看做由这些原因引起: 便宜的计算和存贮设备不仅被使用在商业上 , 而且在私人家庭的使用也越来越普遍。 便宜的互联网接入服务,是所有的计算和存储设备被连接起来成为可能(甚至包括移动设备);并且简单的可用性,易使用的界面(例如万维网浏览器)。 当在复阅个人记录,使用知识产权,允许普遍存取,同时在数据存储、组织和存取方面引出复 杂的技术问题的时候,这些就增加了关于隐私权问题的重要意义。 虽然普遍的新闻媒体常常大
2、肆宣扬信息时代的开端,在这之前考虑更早的信息时代和学会从更加早期的挑战得到社会的反应,这都是富有启发性的。 可以思考下面三个例子: 超过 500 年以前, Johannes Guttenberg 发布了一个关于信息爆炸,均衡地,是当今时代的竞争对手。而在他的这个观点出版之前,这些信息是高智商精英的专属财产。 Guttenberg 打破了这个禁锢。 大约 120 年以前, Alexander Graham Bell 进入了电话时代。到 1915 年 , 有超过九百万个电话在全世界使用。但是最先的直接通信是一种本地现象 , 电话使在全世界的直接通信变为可能。 全球性的通信发生了从被制约到一个缓慢的
3、媒介 (硬拷贝邮件 )到一个直接媒介的改变。 大约 50 年以前,最近地在第二次世界大战, 科学研究的进度和结果的公开发布,就像 Vannevar Bush 在他的 1945 年的经典文章中说的那样,“就像我们也许认为,调查员常常感到惊讶要从数以万计的研究结果和结论中去发现,而这些结论在这段时间是很难去掌握的,即使是记住也很难,就像他们的出现那样。” 1 这些例子表明,今天 爆炸似的信息容量和传播的广度是历史先例的现象,并且显示了新信息时代的社会作用能导致剧烈的科学发现和文化改变。 当前的发展反映了许多这样的例子。计算机的增加和互联网的接入导致了许多公众能在世界各处公开自己的文档而不需要任何的
4、准备时间。就比如出版社,传播信息的能力更加民主化,甚至到了一个更高的程度。出版不再是一个公司的必要活动。信息的出现,改变,消失不再有任何一个总的认识或总的控制。新信息的创造和存取被电话的使用改变了。终于,这难于预测的信息量被布什引用与通过万维网进行联入有着微小的区别。 很显然,信息革命是早 于计算机时代的,而计算机对于一个对社会有强烈冲击影响的信息来讲并不是一个先决条件。在更加早点的时期,出现了一些庞大的组织来负责处理信息: 图书馆、目录系统和出版公司,它们一起按步骤查阅和审查信息 (例如,科学地同级评审 )。无论这些评审是否完善,错误渐渐增加并且有用的信息时常疏忽地 (或故意地 )不能被读取
5、,但出现的组织和程序步骤通常能帮助 (和继续帮助 ) 从信息的传播中得到好处的人。 今天,计算的基础设施硬件和软件是一个强有力的工具,虽然当前的信息时代的发展方向将由人类来确定和他们怎样使用那个工具。 信息、 计算、数据库系统 在计算机科学领域,数据库系统致力于研究管理大数据量的问题,而 “大 “则是不拘形式地定义了作为计算能力和存储容量功能而言可利用的极点。从它在商业数据处理的基础作用来看,数据库系统研究已经成了计算机科学中一个成功的伟大范例(例如关系模型和传输模型)和具有重大饿实用市场价值。这些成就被记录在 2, 4 和在未来数据库研究的技术介绍 3, 5。这里我们提供更多地关于数据库的概
6、念和他们在当前的信息革命中的作用。 数据库系统主要的功能是具有提供对信息的迅速存取的能力,同时能保证数据库准确地更新。速 度和准确性这两个虚拟的双胞胎能使巨大的财政系统保持发展,保留系统,并且还有其他的商业系统。他们由两个根本的假设支持: 封闭的世界。数据库需要假设能建立所有的被包含与模型域的相关事物。因而,精确反应能被提供关于正面的事实 (琼斯航班 703 上有预定 ) 和消极的事实(琼斯没有预定 )。 一致的和简单的数据结构和操作。在数据库中数据类型关系简单,在一个简单的数据结构中数据是规则的(例如,一个关系和一个表)。因而,高效率的存取方法能被使用以支持高质量地查询处理。 更多地努力是在
7、研究和操作支持上,寻求利用这些假定开发高质量 地传输处理系统,它能提供高程度的存取性和错误容错性。 数据库将越来越多地需要应付固有的不完美和不完整的数据。所以,数据库系统必须从他们的人为地简单的封闭世界摆脱出来并加入到信息更加宽广的世界中来。这样,查询处理,传输管理,容错性的数据库系统,能成为出现在全世界的信息社会管理和受益的工具。 当前的数据库系统的技术能力不应该被低估。在现在这个世界,大家都能成为桌面发布者并且信息可能迅速地改变,效率和传统数据库系统的优势被重视 ,特别在信息经纪或媒体服务。在信息基础设施对社会的运作是关键的世界里 ,可靠性和现有的数据库系统可用性两个技术特点越来越重要。
8、当他们进入逐渐类似的这些组织中,如图书馆 ,代理机构 ,经纪人等系统的时候,面对数据库研究员和从业者的挑战是保护数据库系统的现行能力 ,依次类推。 信息环境 万维网实际上就是一个分布的数据库,虽然查询语言和存取机构与那些传统上意义上的数据库系统不同。数据库系 统将变成更加灵活(更加适应复杂的用户)的信息环境,他们的本质需要指定的时刻,并且拥有优势 (或相对缺乏 )的计算环境。这些系统能提供近似 “最佳效果 “的反应 以在不同的标准之中的交易为基础 : 实时反应 数据解析度 (细微的 vs 粗糙的颗粒 ) 完整性 准确性 成本 基于系统操作的信息将不仅包括结构完整的传统数据而且还包括文本,图象,
9、音像,录影,地理空间数据,并且更多。比这些数据存储更重要的事实是这些系统需要足够灵活的容纳当时没人认为系统变得可使用的数据类型。此外,作为一种关键的社会资源,或信息公共事业,系统无法减少为 了适应需求的改变而带来的软件和硬件的更新。 未来 为了适应未来信息公共事业的需要,数据库系统必须同时在几个方向发展(详细谈论在 3, 5),有: 时间的合并作为系统第一等级的元素不仅只作为数据类型,而且实时作为一个为预订系统活动的标准。 对数据库模式变化的管理同当前系统处理对数据的改变是一样的功能。 同等的近似概念在系统查询处理过程中被建立,它们以搜索文本和持续的广告媒介为基础。 (例如 ,声音的,影音的和
10、笔迹的 ) 不一致的容错性起源于相同的信息交替来源 ,包括用工具来解决不一致的版本或协助人类进行如此的调节。 从多重数据格式,结构和接口出现的非均匀性容错性 ,也如同在系统或许通过媒介或信息代理商所得到的在高级语义上的区别。 传输模型是比较容易接近人类正常传输的类型,与假设传输的原子性,稳定性,独立性和耐久性的传统概念差异增大,代替传输异常结束,并且能支持合作的传输环境(例如,群组软件和工作流系统),而且在一个解析度提供数据的能力适于使用者的环境, (例如,无线和移动的用户和不对称的网络带宽连接到各个家庭里 )。 同时,数据库系统将持续演变 而且发展为逐步支持商业数据应用程序 , 实现以下作用
11、: 多字节数据窗口的管理 对形 式和趋向的分析通过统计和学习机器技术适应了基于第二和第三存储设备的巨型数据库;并且当提供通过合法的应用访问有级别要求的时候, 商业数据库中敏感的个人和财务数据需要安全保证 。 结论 计算机科学的许多问题已经在处理能力方面得到了显著的改善。然而对于数据库系统的挑战和机会比 CPU的处理速度更显著,它们更多地依赖于数据传输技术,硬盘、网络,大批量存储。他们更多地关联于不精确的人类世界而不是精确的计算。 未来数据库的研究将主要是对不精确的数据和对巨大的数据量的分析的管理。 参考文献: 1 Bush, V. As we may think. The Atlantic M
12、onthly (July 1945). 2 Gray, J. Evolution of data management. IEEE Comput. 29, 10 (Oct. 1996), 38-46. 3 Silberschatz, A., Stonebreaker, M., and Ullman, J.D. Database research: Achievements and opportunities in the 21st century. ACM SIGMOD Record (March 1996), 52-63. 4 Silberschatz, A., Stonebreaker, M., and Ullman, J.D. Database systems: Achievements and opportunities. Common. ACM 34, 10 (Oct. 1991), 110120. 5 Silberschatz, A., and Zdonik, S. Database systems -Breaking out of the box. ACM Comput. Surveys (Dec. 1996).