VC++程序设计.doc

上传人:创****公 文档编号:3708156 上传时间:2019-07-07 格式:DOC 页数:42 大小:1.18MB
下载 相关 举报
VC++程序设计.doc_第1页
第1页 / 共42页
VC++程序设计.doc_第2页
第2页 / 共42页
VC++程序设计.doc_第3页
第3页 / 共42页
VC++程序设计.doc_第4页
第4页 / 共42页
VC++程序设计.doc_第5页
第5页 / 共42页
点击查看更多>>
资源描述

1、第 1 章 中文信息处理技术概论1.1 信息处理的实质1.1.1 信息和信息技术1信息在信息技术领域,信息是指对事物之间相互联系、相互作用的状态的描述。信息的性质有普遍性、无限性、相对性、转移性、共享性、变换性、动态性、转换性。信息的传播及利用可以追溯到古代的烽火台、飞鸽传书,近代的邮政、电报、电话以及现代的计算机、计算机网络、互联网、无线通信等等。人类认识世界的过程,实际上就是获得外部世界信息并对这些信息进行加工的过程;而改造世界的过程,则是由认识主体把加工所形成的信息(目标和策略)反作用于外部世界、并不断按照策略信息来引导外部事物达到目标的过程。因此,人类认识世界和改造世界的过程本质上就是

2、一个信息处理过程。一个完备的控制系统必然也是一个完备的信息处理 过程。信息的基本功能是作为生存的要素、社会的资源、认识的向导、实践的指南、决策的依据、控制的基础、智慧的源流、系统的灵魂。2信息技术信息技术就是用以扩展人的信息器官功能的技术。人的信息器官及其功能分别是:感觉器官完成获取信息功能;传导神经网络完成传递信息功能;思维器官完成加工和再生信息功能;效应器官完成使用信息功能。信息技术的基本内容就是所谓的信息技术四基元,即感测技术、通信技术、智能技术及控制技术。信息系统的工作流程如图 1-1 所示。图 1-1 完备的信息系统的工作流程信息是自然环境和人类的一切活动所产生的各种状态和消息的总称

3、。人们很早就已知道信息这一概念。从定性的意义上说,人们在得知某个消息后,他在事前认为消息中所包含的事件发生的可能性愈小,则认为这个消息给他带来的信息量愈大。可见信息的量值与中文信息处理技术原理与应用2事件的随机性有关。信息在人类社会活动的各方面都很重要。但是,在科技不甚发达的时代,信息的作用及其利用价值被限制在较低的程度上。例如,信息技术的一种手段为传递,在电信技术发明以前,人们只能用人工通信,或者其他简单的表示方式或各种约定来传递信息。而电气通信技术的发展,从电话电报到传真、电视,从有线通信发展到无线通信,直到微波、光纤通信、卫星通信,信息的传输速率大大提高,性能也在改善,但只限于传输信息。

4、信息技术的另一方面为信息处理技术。20 世纪 40 年代发明了电子计算机,开始只是利用它处理数值运算,但是很快就意识到可以利用数据代表广义的信息,从而发展了数据信息处理这一意义深远的应用技术。利用计算机处理数据信息,不只是作单纯的信息传输,而主要是对信息按某种规律做某种意义的加工,使它适应某种特定目的的需要。例如,气象预报中的信息处理,结合信息传感技术,对采集到的原始信息按预先设计的数学模型进行处理,得出的结果可以作为气象预报的资料。对信息进行加工处理离不开计算机技术,所以信息处理这一术语就和计算机技术联系在了一起。用计算机处理或加工信息,扩大了信息的利用范围,使信息的利用价值也大为提高。这一

5、意义深远的科技成果的应用,使信息日益成为现代社会科技进步、经济发展、人类文明进程所不可缺少的社会财富。它和物质、能源被列于同等重要的地位,被看作现代人类社会生存和发展的三大要素。科技进步的国家已经建立起强大的信息产业,并仍在高速发展,在整个国民经济中的份额日益增大。信息处理技术在人类文明和科学技术现代化的进程中正在发挥重要的作用。广义的信息涉及多种范畴。例如,一些自然现象所包含的各种信息;人类社会活动,如政治、经济、军事、文化、商业等活动所产生的各种信息;科学技术和生产活动,如揭示自然和物质结构的奥秘,从事地质研究、探矿等产生的各种信息。它们涉及人们生存的环境和从事科研、生产、生活等活动的一切

6、方面。在这些含义丰富的信息中,信息的表示形式又是多样性的。例如,信息可以有数据、文字、声音、图形等多种形式,这称为信息的多元化表示。用计算机处理多元化信息,是信息处理技术的范畴。根据信息处理技术的发展情况,可以分为传统的信息处理和通信技术,以及现代的信息处理技术。传统的信息处理指狭义的信息处理,如信息的存储和检索;传统的通信技术只是完成信息的传输或转移;而现代化的通信技术(即广义的信息处理技术)则兼有信息处理和信息传输的功能。传统的信息处理技术在近十多年来有了很大的发展。这要归功于微电子技术和计算机技术的飞速进步。微电子技术的进步体现在超大规模集成电路的技术水平日益提高,各种大容量存储器芯片和

7、具有复杂逻辑运算功能的集成电路芯片日益增多,并迅速推广使用。计算机技术的进步体现在计算机硬件性能价格比的大幅度提高,微型机和以微型机技术为基础的各种终端设备的日益普及。这些因素大大推进了信息处理技术的实用化进程。另一方面,计算机软件技术也有很大进步,例如,软件工程、第四代程序设计语言和各种先进的软件工具的实用化,数据库管理系统等各种公共支持软件技术的进步和普及。人工智能软件技术的发展以及各种应用软件的开发和利用,不仅使数据和文字信息处理技术更加完善,应用更为广泛,而且开拓了信息处理技术的新的应用领域,如图像信息处理、模式识别、语音识别和语音合成、自然语言处理、语言的翻译等高技术领域。传统的通信

8、技术以传输模拟信号为主,自从数据通信技术出现之后,经计算机存储和第 1 章 中文信息处理技术概论 3处理的信息可以在两台或多台计算机或数据处理设备之间互相传输,从而增强了信息处理和传输的能力,特别是互联网时代的到来,更扩展了信息处理技术的范畴。1.1.2 文字信息处理信息的表示形式是多样的。那么,当前人们最关心什么形式的信息?根据 IBM 公司的调查,当前人们最关心的仍是文本信息。在多元化的信息中,文字信息是一种最通用、最普遍的表示形式。各种信息的特点如何?各种信息的表现形式如何?各有什么特点? 视频、音频的特点是表现形式直观,表达的信息易于被不同层次的对象接受。超视声频和其他形式的信息现在还

9、鲜有用于计算机处理的例子。其中,文本信息的特点是易于传播、所需存储空间小。但是由于世界各国语言文字存在较大差异,交流的群体受到限制。现在的公文、文件、信函、报表、各种印刷出版物等绝大多数都使用文字的形式来记录。文字也是一个国家或民族文化的象征,在社会和历史的发展中有着特殊的地位。计算机从处理数据发展到处理文字信息,代表了应用技术上的一个重大进展,否则计算机的应用将局限在一个较狭小的范围内。文字信息处理的应用范围非常广泛,从编辑文稿、建立文件档案资料、排版印刷到行政管理、办公室自动化,凡是需要用文字表达信息的应用场合,都可以利用文字信息处理技术。随着个人计算机应用的普及,以这类计算机为基础构成的

10、文字处理机目前已有了很大的发展。文字处理机依据其应用的不同要求,可以设计成不同的档次。使用最为普遍的一种是便携式的文字处理机,或称为电子打字机,其使用范围正在日益扩大。和传统的机械式打字机相比,电子打字机具有编辑功能丰富、灵活的独特优点,并且可以提供一定数量的文件存档,价格也在逐渐降低,今后有望能逐步取代机械式打字机。高档次的文字处理机更具有传统的机械式打字机无法比拟的优点。随着微型机性能和软件技术水平的不断提高,文字处理机的功能也会不断扩展。如高级的文字处理机可以利用计算机人工智能,在字、词处理的基础上增添语法和句法处理、书面和自然语言处理等新功能。随着高技术的开发和工业生产的发展,文字处理

11、技术的推广应用前景是乐 观的。文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字。例如,在英文信息中,以 26 个字母作为文字信息处理的单位,因此要对 26 个字母逐个地确定代替它的数码。在汉字的情况下,一般是以一个整字作为文字信息处理的单位,因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码(code )。在计算机内部处理文字信息时,就像处理数据一样对待。处理完毕后,再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化。计算机之所以能有较高的运算和处理能力,

12、是由于它利用了电子处理技术以及二进制数运算这一法则。计算机中的运算器,利用半导体器件的两个状态(通和断)的变化,代表二进制数字串中的一个二进制数位上的“1”或“0”的变化,从而能够高速地执行二进制数的数值或逻辑运算。实际上,计算机无论做数值的或任何种类信息的运算或处理,最基本的运算操作就是这种二进制数的演算。中文信息处理技术原理与应用4在本节中先讨论英文信息的处理。英文信息处理技术中,要考虑以下各种字母、数字和一些必需的符号: A,B ,C, ,X,Y, Z,共 26 个字母,包括大写和小写形式,共 52 个字母。 0,1,2,9,共 10 个阿拉伯数字。 +,= , ,!,?, ,( , ,

13、共 32 个图形符号。 用于计算机动作控制的控制符号,共 34 个。以上共计 128 个字母、数字、符号统称为字符。对于这些字符,应制定统一的字符代码标准,以便各种不同型号的计算机系统都遵守这一标准,从而使各个计算机系统之间能够互相交换信息。对于字符代码的标准,在 20 世纪 60 年代已由美国国家标准局制定了美国国家标准信息交换码(英文缩写为 ASCII,这是一种用 7 位二进制数表示的代码,7 位二进制数共可得到 128 种编码即 27=128,正好分配给 128 个字符)。实际上每个字符使用一个字节(byte)的信息量,而一个字节包含 8 位二进制数,实际使用其中的 7 位,尚留出一位,

14、作为每个字符信息的奇偶校验位。国际标准组织(ISO)依据美国标准的 ASCII 码,制定了英文字符编码的国际标准,即ISO 646,为世界各国的计算机产业界从事计算机设备的工业生产以及信息处理技术的国际化、通用化提供了依据。中国在 1975 年由当时的第四机械工业部颁布了依据 ISO 646制定的 7 位字符的编码标准(代号为 GB1988),其中除了个别货币符号有改动外,其余内容完全相同。文字信息处理的全过程大致包含如下三个环节:(1)文字信息的输入。通常是通过键盘把组成英文词汇的各个英文字母逐个地输入。这一过程中,键盘的作用是把输入的每个字母、数字或符号转换成它们所对应的代码,供下一步信息

15、处理用。键盘同时也是使用或操作计算机的人和计算机系统之间的界面。因此,键盘要设计得方便人们的使用和操作,以提供良好的人机界面。(2)文字信息的处理。文字信息处理包括多种不同的处理要求。例如,在文稿的编辑操作中有对文字(或文字中包含的字母)的增、删、改操作;有对若干个字、整个句子或整段文字的增、删、改操作。在对文字串的处理中,有分类、合并、比较、排序、检索以及对齐等操作。这些种类的操作都可以通过预先编制相应的处理程序来实现。(3)文字信息的输出。文字信息处理完毕后,要把处理结果的代码信息转换成文字的形式输出,输出方式包括显示和打印。为此,在计算机系统中要存储有关文字的字形信息。计算机中存储的文字

16、字形,是以点阵式字形的形式表示的。通常,英文字符信息用 57或 79 的点阵表示,如图 1-2 所示。这样的字形点阵信息和计算机中二进制数的存储相对应,即有笔画经过的点用二进制数 1 表示,无笔画的点用二进制数 0 表示。因此,在计算机中存储的字形信息实际上也是一串二进制数。在英文信息处理系统中,字形信息的存储问题比较容易解决。因为只需存储大、小写 52 个字母,10 个阿拉伯数字,加上一些图形符号,共 94 个字符。用容量不大的存储器芯片,即可解决全部字符点阵信息的存储。计算机输出处理结果时,根据每个字符的代码计算字形信息在存储器中的存储地址,按照这一地址读出字符的点阵信息,供显示器或打印机

17、输出。显示器和打印机是用于输出信息处理结果的设备,输出的结果应符合人类的需要和习第 1 章 中文信息处理技术概论 5惯。对于字符显示器,标准的显示格式是每帧显示 24 行,每行 80 个字符。打印机的种类图 1-2 英文字符的点阵表示较多,目前使用较普遍的有针式打印机、喷墨打印机和激光打印机。针式打印机是一种普及型的打印机,现在主要用于票据打印。喷墨和激光打印机比较常见,并具有较高的打印质量。关于显示器和打印机的技术特性,将在第 5 章中做详细介绍。1.1.3 中文的文字信息处理的特点中文是联合国六种工作语言之一,是中国 56 个民族所使用的主语言,也是世界上 1/5以上人口的主语言。汉字是中

18、国 30 种文字中使用最广的文字,方块汉字是其基本表现形式。与英文相比较,中文的特点表现在字、词、语块、句子、句模和篇章等以下七个方面。(1)中文字的特点:字多。一级汉字有 3755 个,可覆盖现代所用汉字的 99.9%,二级汉字有 3008 个,一、二级汉字可覆盖现代所用汉字的 99.99%以上,最常用的汉字有560 个,940 个常用字,700 个次常用字,扫盲标准有 1500 个字,占现代常用字使用频度(参见王 还 , 常 宝 儒 现 代 汉 语 频 率 词 典 16)的 95%, 一 般 用 字 形 20 902 个 (ISO/IEC 10646(UCS),汉字字模已有 10 万字头,

19、但人们估计现代有 15 万字头。大学毕业生一般可认识 4 千汉字,中文系毕业生可认识 5 千字左右,极少数专家可认识 9 千字。形美。中文字由象形字变化而来,是一个二维结构图形,形态多样、美观、自然。音少。不同的发音只有 410 余种,加上四声变化,总共 1295 种。义众。每个字常有 25 种意义,多的达 69 种意义。同一个汉字在不同情况下使用,可以代表多种含义。类难。同样的字在不同情况下用作不同类型。序隐。字的排列顺序不如英文字母确定、明显。(2)中文词的特点:定义糊。能够独立运用的有特定的音、形、义的最小句法单位(印欧语系中最小的句法单位是语素morpheme)(参见高家莺、范可育、费

20、锦昌现代汉字学 18)。 词类混。中文词在不同用法中类型变化较多,相对西文词来说,词类容易混。切分难。中文句子、词是由中文单字所组成的,而字与字,词与词之间并无分隔符,不容易进行字与词的切分。词频集中。常用词,包括常用单字词的使用频度很高,覆盖面较大,相对集中。词长短。中文词含义丰富,但比较简练,长度相对英文词较短。词义众。中文词的含义较多,一词多义比较普遍。识别易。常用词的构成比较有规律,中文信息处理技术原理与应用6相对容易识别出。如四字词(例如成语),两字词,单字词等。构成与复合便。中文词可以通过中文单字进行灵活地组合,组词方便。组句活。中文词可以通过灵活组合形成中文句子。词库多。中文词量

21、大,不同行业有不同词库。(3)中文语块(即语义块)乃是能够自由造句的基本语义构成单位。语义块是句子的语义构成成分和单位,它不同于传统语言学的短语。语义块是语义,即语言深层的定义,而短语是语法,即语言表层的定义。语义块这一概念的提出便于描述句子的构成。语义块分为主语义块和辅语义块两大类,前者是句义的“必不可少”的成分,后者是句义的“可有可无”的成分。主语义块有 4 种:特征 E、作用者 A、对象 B 和内容 C,其中特征语义块E 决定句类。辅语义块有 7 种:方式 Ms(Means)、工具 In(Instrument)、途径 Wy(Way)、比照 Re(Refer)、条件 Cn(Conditio

22、n)、因 Pr(Premise)、果 Rt(Result) (参见苗传江著HNC 理论的句类 21 )。(4)中文句的特点:切分难。句乃能独立交际的最小完整语法单位,要完整切分出来有一定难度。句型多。句子的句法结构模式称为“句型”,这是从句法的平面对句子进行分类。中文句子的句型变化较多,可以达到不同的语言效果。简练。相对于英文,在中文句子中不需要用冠词等来进行修饰,比较简练。重意合。中文句子的组句比较重视字、词在意义上的合适搭配。(5)句模:句子的语义结构模式称为“句模”,这是从句子的语义平面对句子进行分类。句模的特点是数量不多,不足 200 个(参见胡裕树著试论句子类型的研究 22、杨成凯著

23、句法、语义、语用三平面说的方法论分析 23)。(6)中文篇章的特点:简练。构成中文篇章有不同语言单位,其语言描述精炼,表达力强。文体众多。中文发展历史悠久,有诗歌、散文等多种文体形式。(7)中文与英文最大的不同在于中文表述较为简练,节省了词的分隔符、性、数、格、时态、形态等的变化,动词可省掉语句的安排,省音节。中文语序多为聚焦型,英语 1/2为发散型。国内有一种观点,认为中文的特点可用 3S 表示,即简(Simple)、短(Short)、直(Straight)。但又有三大问题:同音字太多,四声变化与南腔北调。一般情况下,中文文字指在中国广泛使用的汉字。要用计算机处理汉字信息,必须对汉字的特点进

24、行更加详细的分析。1汉字的特点汉字的主要特点是它属于象形文字,字量大,字形复杂,和西文国家广泛使用的拼音文字有显著的区别。西文的特点是用少数结构简单的字母用线性规则排列组成单词。汉字不仅构成的笔画多,而且它是一种二维结构的图形,比起西文单词的线性排列结构要复杂得多。由于这些特点,在汉字编码方法输入计算机的问题上造成不少困难。国内外有不少学者从研究汉字编码的角度出发,致力于把汉字拆分成基本笔画、字根或字元,希望从这些分析中找出汉字结构的规律性,从而归纳出一套简明而容易掌握的组字规则或编码规则。这些工作虽然已得出一些成果,但未能达到令人满意的程度。也就是说,由于汉字独特的字形结构,不容易把它们拆分

25、成一些基本笔画、字根或字元的简单(线性)组合,因而也不易得到简明的编码规则。这就是汉字输入编码问题难度大的根源所在。汉字的字量大,据统计,中国的汉字总数超出六万个。但是,不同的汉字在不同历史时期、不同的专业领域第 1 章 中文信息处理技术概论 7中使用时,其频度的差别是很大的。按照中国在 1974 年对国内使用的现代汉字综合使用频度的统计,要求覆盖率达到 99.99%的情况,所需要的汉字量约在六七千个左右。中国在 1979 年制订颁布的信息交换用汉字编码字符集 基本集 (GB 23121980)中,共收入了 6763 个汉字。这个数量就是根据上述对现代汉字综合使用频度的统计资料作为依据而定的。

26、这 6763 个汉字又分成两级,第一级为常用汉字,共 3755 个;第二级为次常用汉字,共 3008 个,对这 6763 个汉字用计算机技术加以区分,按最小信息冗余的原则,每个汉字至少需要用 13 位二进制数来表示(2 13=8192),由于目前的计算机系统一般以字节为单位进行空间的分配和管理,实际上是用两个字节(即 16 位二进制数)表示一个汉字信息交换码,或简称汉字交换码。2汉字输入技术由于汉字字量大、字形复杂等特点,汉字输入技术成为中文信息处理上的一个主要难题。把汉字输入计算机的主要方法目前仍是利用键盘、通过汉字编码方法输入。汉字编码输入方法有两大类,一类是整字编码法,把六千多个汉字,采

27、用某些规则排出它们的流水号,顺次排列在键盘上。使用整字编码的键盘是一种专门设计的汉字(整字)键盘,造价较高,因此这种输入方法不易推广。另一类是按汉字的字形或发音特征,或利用汉字的形、音特征相结合的编码方法。由于把汉字拆分成笔画、字根或字元,或按发音的音、韵、调等作为编码的依据,所使用的码元较少(和汉字的字数相比),因此这类编码方法绝大多数就利用英文字符系统的通用字符键盘作为输入工具,这种键盘不仅造价低,而且和字符系统在输入设备上的通用性好。因此,这种编码方法目前得到广泛的应用。目前,汉字编码方法的种类很多,仅是国内提出的汉字编码方案就有 500 种之多。然而,真正得到用户接受并能推广应用的尚不

28、到其中的 1/10。汉字编码输入方法是类主要的人机界面,所以要经过认真考查和评测,优选出技术指标较高、并且能为广大用户接受的汉字编码输入方法。利用字符键盘通过汉字编码的输入方法,不论编码方案的技术指标有多高,一般来说,其输入速度和计算机的信息处理速度相比,总是很低的,因此,用键盘输入汉字的环节,过去有“瓶颈”之称。除了利用键盘输入汉字的方法外,近几年来,由于计算机硬、软件技术的进步,若干种智能化的输入方法开始得出研究成果,有的已开始走向实用化,例如,联机手写汉字识别输入,在图形输入板上写汉字,可以不按严格的笔顺次序,计算机可以对输入的汉字加以识别,给出它的标准代码。但这种输入方法的速度决定于手

29、写汉字的快慢,并且不能潦草,因此速度并不快。另一种智能化的汉字输入方法是光学汉字识别(OCR),目前主要是对印刷体汉字进行识别,原稿上的印刷体汉字经光学扫描后,通过二值化处理(即摸数转换行字切分等预处理过程)送入计算机,由程序把送入计算机的字模信息和原先存在计算机中的标准字模信息进行比较,判定和识别输入的汉字,这种方法的识别速度较高。对于一般质量的文稿,目前 OCR 产品的汉字识别准确率已达 95%以上,个别系统可达 98%以上,并可实现对中文、英文和数字符号的混合识别,基本进入实用阶段,并在不断发展之中。另一种智能化的输入方法是汉语语音识别输入。用标准普通话的汉字发音,结合词汇输入,经计算机

30、识别后,给出相应汉字的代码。目前普通微型机能识别的测评词汇量达 1000 个以上,经改进可望在若干年后开发出声控打字机、能接受汉语输入中文信息处理技术原理与应用8的汉字终端等产品。因而,在中文信息的输入技术上可以有多种选择,相互配合形成一套较完整的输入体系。第 1 章 中文信息处理技术概论 93汉字字形的存储前面已经指出,汉字结构不仅笔画多,而且是基本笔画或字根的二维空间组合,除了对汉字编码造成困难外,也对汉字字形的存储提出较高的要求。计算机中存储汉字字形,也是用点阵方式来表示。和结构简单的英文字符相比,点阵式汉字字模要求用较高的点阵密度来表示。最小的汉字字模点阵表示要求用 1516 点阵,字

31、形质量稍好些的要 2424 点阵。这样的点阵密度,一个汉字字模便要占用较大的存储量,总数为六、七千个汉字要求有很大的字模库存储容量。在发展汉字信息处理技术的早期(20 世纪 70 年代中、后期),由于当时集成电路存储器芯片的容量较小,价格也贵,汉字字模的存储曾经是中文信息处理技术的一个棘手问题,当时也曾设法采用过存储字根或字元、用软件方法来组成完整汉字的方法,以节省汉字库的存储容量;还曾一度广泛使用磁盘等软字库方法存储汉字。这些方法虽然局部地解决了存储的问题,但在汉字字形质量和汉字输出速度等方面都受到影响和限制。20 世纪 80 年代以来,特别是近几年内,由于半导体超大规模集成电路存储芯片的存

32、储容量迅速提高,单位存储容量的价格下降,使汉字字形信息的存储问题得到基本解决。例如,用于存储汉字字形信息的 ROM(只读存储器)芯片,目前常用的有 1 兆位、2 兆位、4 兆位等几种。对于 1516 点阵的汉字,存储全部国家标准基本集(GB 23121980)两级汉字只需一片 2 兆位的 ROM 芯片。这样的汉字字模库不仅成本低,容易制作,而且体积小,使用、安装方便,容易普及应用。对于不同的使用条件,汉字字模的质量规格也有不同的要求。上述 1516、2424 点阵的汉字,属于目前常用的针式打印机(分辨率为 79 点/ 毫米)印出的较低质量的字模规格。若使用较高分辨率的打印机,印出同样大小的汉字

33、,则点阵规格必须相应地提高。因此,需要设计 3232、4040、4848 等点阵规格的字模。此外,若考虑要求印出大小尺寸不同的汉字,则对于同一种分辨率规格的打印机,也要配备几种不同点阵规格的字模。以上介绍的是通用型的汉字字模,主要用于印制一般的中文文件、报表。除了通用型的汉字字模外,尚须考虑文字质量很高的精密型汉字字模,它们的用途是利用计算机技术排版印刷。两种字模的主要差别在于它们的点阵规格。通用型字模要求的分辨率一般在7.0811.8 点/毫米的范围内;而精密型字模的分辨率则要求在 27.440 点/ 毫米的范围内。两者差别很大。对于通用型字模,目前一般采用逐点存储的方法;而精密型字模,由于

34、其信息量太大,即使目前存储器芯片的应用已较普及,但是仍有必要采用压缩信息的技术,以减小字模信息所需的存储空间。4汉字的输出技术和字符的输出要求相比,输出汉字字形要求输出设备的分辨率较高。对于汉字显示规格,目前最常用的是 1516 点阵的汉字字模。为了和英文字符的显示格式相兼容,每行显示 40 个汉字,一帧 24 行汉字,若加上 12 行提示信息,一帧的总行数为 2526 行。因此,要求显示屏的分辨率为 640420 像素以上。若要显示 2424 点阵的字模,则显示屏的分辨率必须达到 1000700 像素。对于汉字打印设备,常用的分辨率有 7.1、9.4、11.8、15.7 点/毫米(180、2

35、40、300、400 点/英寸 )。通常,7.1、9.4 点/ 毫米属于低档打印机品种,如针式汉中文信息处理技术原理与应用10字打印机,热感式汉字打印机;11.8、15.7 点/毫米属中、高档打印机,如简易激光打印机,液晶开关式汉字打印机等。1.2 汉 字 编 码 的 种 类 与 中 文 信 息 处 理 过 程 中 汉 字 编 码 的 变 换和英文字符系统相比,中文系统内汉字代码的种类较多,可以归纳出以下若干种类的汉字代码。1汉字键盘码利用汉字编码方法,从键盘上产生的汉字代码称为汉字键盘码。例如,用汉字整字输入方法,所产生的是汉字键盘上某个汉字所对应的坐标码。一般这一坐标码虽然也由两个字节表示

36、,分别代表 X 和 Y 的坐标值,但并非两个字节的汉字信息交换码。必须用译码的方法把它变换成汉字信息交换码。若是用各种汉字编码方案产生的汉字键盘码,由于所用的码元数较少,一般每个汉字平均须击键 3.54 次以上,所得键盘码长度就大,而且一般情况下,不同汉字的键盘码是不定长的,信息冗余度也大,更有必要把它们压缩和译码,变换成双字节的汉字信息交换码,以便进入计算机系统。2汉字交换码汉字交换码是一种用于系统间或计算机通信的汉字信息交换码,它是中文信息处理技术的基础标准,有关它的来源及其和 ASCII 码的关系已在前面提及。另外,也可采用近年来开始流行的 Unicode(即通用单一编码或国际通用码)代

37、码。关于 Unicode 与 Unicode 汉字代码将在 1.5 节详细介绍。3汉字内部码由汉字交换码加上标识信息后形成。根据不同的使用环境和条件,汉字内部码的形式有多种。之所以有汉字内部码这一代码形式,是由中英文兼容技术的要求所引起的。同样,根据不同的标准,如 GB 23121980 或 GB 180302000、ISO 10646、GB 13000 或Unicode 工业标准,具体汉字的内部码可以有不同的代码定义,但目前,系统中汉字内部码一般采用流行的双字节代码形式。4汉字地址码中文计算机中汉字字形信息一般存放在称为汉字字模库的存储器内。这一存储器实际上是一种单元号连续的存储介质,每个汉字字模存放在字库中某一确定的地址,这一地址信息就称为地址码。输出汉字时,先要把汉字内部码变换成相应汉字的地址码,再由地址码交换成该汉字的字形信息。5汉字字形码中文计算机系统中,存储在系统内的汉字字形信息提供汉字字形码,由它通过输出设

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。