1、第 5章 数字媒体及应用5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用5.4 数字视频及应用2 5.1 文本与文本处理5.1 文本与文本处理 5.1.1 字符的编码5.1.2 文本准备5.1.4 文本编辑、排版与处理5.1.3 文本的分类5.1.5 文本的展现 3 5.1 文本与文本处理文字处理是计算机应用的基础n计算机应用使用计算机进行信息处理n其中, 文字处理是涉及面最广的一种计算机应用,几乎与任何领域任何人都有关。文字数值语言音乐图像信息的形态有多种4 5.1 文本与文本处理写作 编辑排版印刷发行写作传统的文字处理过程5 5.1 文本与文本处理计算机文字处理过程n 文
2、字信息在计算机中称为 “文本 ”( text),文本是计算机中最常用的一种数字媒体n 文本由一系列 “字符 ”( character)组成,每个字符均使用二进制编码表示n 文本在计算机中的处理过程是:( 文本编辑器 )文本编辑与排版格式化的电子文本( 2)文本展现( 文本阅读器 )( 5)文本处理( 文本处理 )( 3)文本准备电子文本( 1)( 文字与图表的输入 )文本存储与传输( 4)(存档 /通信软件)6 5.1 文本与文本处理5.1.1. 字符在计算机中的表示 7 5.1 文本与文本处理字符、字符集及其编码表 n 文字的基本元素是字母和符号,统称为 “字符 ” (character),
3、它包括:字母、数字、标点、符号等n 字符集:一组特定字符的集合n 不同的字符集包含的字符数目与内容不同,如:中文字符集、西文字符集、日文字符集等n 字符的编码:n 字符集中每个字符的二进位表示,称为该字符的编码或代码 (code) n 不同的字符其编码各不相同8 5.1 文本与文本处理复习: 西文字符的编码 ASCII 码n 西文是表音文字 (拼音文字 ),它由拉丁字母、数字、标点符号以及一些特殊符号所组成n 美国标准信息交换码 (ASCII码 ):n ASCII字符集包含 96个可打印字符和 32个控制字符n 采用 7个二进位进行编码n 计算机中使用 1个字节存储 1个 ASCII 字符n
4、存在问题:n 字符集太小(只有 128个字符)n 不同国家和地区使用不同的字符集及其编码,互不兼容0 X X X X X X X9 5.1 文本与文本处理汉字如何编码?n汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素,有多个国家和地区使用(中、日、韩、新、马 )n汉字的特点n 数量大;字形复杂,同音字多,异体字多n如何编码?n 确定收入多少字、哪些字?n 在字符集中如何排列?n 使用多少个二进位进行编码?10 5.1 文本与文本处理常用的汉字编码字符集n国家标准 GB2312-1980n汉字扩充规范 GBK (已被 GB 18030取代 )n国家标准 GB18030-2005n港澳台使用的汉字编码字符集 CNS 11643 (BIG 5,俗称 “大五码 ”)nUCS/Unicode多文种大字符集n Unicode的 UTF-8n Unicode的 UTF-16