1、语言文字标准化、信息化30年,教育部语言文字信息管理司司长 李宇明,周恩来总理1958年当前文字改革的任务:“简化汉字,推广普通话,制定和推行汉语拼音方案。”这一阶段语言文字工作,是为了建设国家的文化基础,促进国家的富裕发展。,周恩来总理,改革开放面临的形势,汉字的前途:简化?拼音化?计算机及之后的网络:输入、显示、存储、传输、输出(语言文字标准化、信息化)语言资源的大量流失(用现代信息手段保存、保护语言资源),1986年全国语言文字工作会议,“二简”(1977年发布)方案正式收回保持汉字稳定,实现标准化:定量、定形、定音、定序汉字拼音化不是当前的任务,但要充分发挥汉语拼音在信息化时代的作用语
2、言文字信息化也是国家语言文字工作,新时期工作思路,以语言文字规范标准制定为核心,以信息化为主线,以科学研究和语言工程建设为基础,以评测认证为抓手,促进社会语言生活和谐。,国家通用语言文字规范化信息化,现代汉字有了基本标准(简化字总表、常用字表、通用字表、规范汉字表)信息化:机器有了7万多汉字的编码并且国际化,正向古代汉字信息化、字体个性化的方向发展。中华大字符集正在建设汉语拼音成为国际标准术语规范工作成绩突出。语言信息化提到了日程已发布160多项标准,1966前 19671985 19861990 19911995 19962000 20012005 2006 时期,通用语言文字规范标准发布状
3、况,发布数量, 建国初期奠定基础九五、十五期间出现新高峰: 新时期语文政策 信息化的需要 机构逐渐健全未来的发展: 重在应用领域 重视标准修订,语言文字规范标准发布分领域状况,通用类 信息处理类 术语类 文献类 地名类 其他, 信息化是主导 通用类要加强 重视领域类标准建设,通用类,其他领域,信息处理类,(注:此处少数民族标准只包括国家标准),汉语和少数民族语规范标准,1993 年 2000年 2001年 2006年,字量,国际标准中日韩统一编码汉字字量, 由规范向整理发展 由今向古发展 重视民文的编码,语言文字规范标准,汉语拼音方案 宋/楷/仿宋/黑体印刷字形标准 现代汉语常用字表/现代汉语
4、通用字表 GB2312-80 / GB13000.1 / ISO16646 汉字字符集 现代汉语语料库建设 国家语言资源监测与研究,语言文字信息处理简介,我国从1979年才起步开始进行机读语料库的建设,目前无论在广度上(即跨语言的多语对齐语料库建设)还是深度上(各级深加工的语料库建设),均取得可喜的成果。汉语语料库从最初的1个专用文学作品语料库发展为多个大规模的通用平衡语料库;语料规模从百万词级发展为上亿词级;语料的语种从单纯的汉语或英语发展为双语甚至多语;语料的加工深度从最初的生语料发展为包括分词与词性标注、句法结构标注及部分语义标注的熟语料。与欧美等发达国家相比,在语料库的建设方面,我国尚
5、存在广度、宽度及深度层面上的不足;在语料库的利用方面,其共享程度还有待提高。,规范建设与资源共享,我国语料库建设现状,国家通用语言主要语料库,全国语言文字标准化技术委员会,中国文字规范研究与字体设计中心,中国文字规范研究与字体设计研究中心,少数民族语言文字规范化信息化,一些有传统文字的语言(蒙古语、藏语、维吾尔语、哈萨克语、朝鲜语、彝语、傣语等)都可以进入计算机;古代文字也在逐步进入;多数有自己的网络和办公、出版等软件;有些还有自己语言的手机民族语言术语标准化步伐匆匆建立统一的语言文字平台和软件平台,促进内容的数字化,汉字 82%,民族文字 18%,汉字与少数民族文字计算机字库产品状况,藏文编
6、码及计算机应用平台的开发,藏语文语料库建设、词典构建和文本统计分析,蒙古文信息处理数据资源概况,语言生活的监测与研究,建立了语言生活监测与研究中心发布中国语言生活状况年度报告开展“中国语言资源有声数据库”的建设:推广普通话,促进信息化,保存和开发语言资源,国家语言监测与研究中心,语言生活监测与研究,语言文字应用研究近期规划,(1)国家语言战略研究。 (2)语言文字规范标准的研制。 (3)建立符合时代需求的语言能力评测体系。 (4)加强面向信息处理的语言文字基础工程建设。 (5)加强对社会语言生活的监测和研究。 (6)建设中国语言资源(普通话、方言、民族语言)有声数据库。 (7)促进汉语走向世界。 (8)加强应用语言学学科建设。,语言规范标准和信息化管理工作,由“人”的规范向“人和机器”的规范发展由现代应用向历史文化发展由大陆标准向国际化发展由强制规定向主动引导发展由行政管理向社会服务发展,珍爱中华语言资源构建和谐语言生活2008. 10. 10.,