1、自然语言理解大作业指南中文的分词 -词性标注系统赵海上海交通大学 计算机科学与工程系1目标 根据提供的训练语料,训练一个或两个模型 在此获得的模型下,依据某个解码算法能对于输入的中文文本进行词切分和词性标注2格式 输入的训练文件格式举例,由以下类似格式的各行构成的文本文件: 中国 /NR 进出口 /NN 银行 /NN 与 /CC 中国 /NR 银行 /NN 加强 /VV 合作 /NN 输入的测试文件格式 中国进出口银行与中国银行加强合作 要求训练出的模型能够在适当的算法支撑下对以上的测试输入进行切分并且标注词性,输出的各式和训练文件相同 所有提交的系统只接受 命令行格式 的输入和输入,推荐命令
2、行格式: Training: Your_program_train input.train.file output.model Test Your_program_test output.model input.test output.test3评估度量 使用比较标准答案和测试输出的 f-score判定你的输出成绩F=2RP/(R+P)R=测试输出中正确的词次数 /正确答案中的词次数P=测试输出中正确的词次数 /测试输出中的词次数只有切分和词性都对才能算完全正确一次如果切分对,但是词性错,算正确 0.5次只要切分错,则完全干不能得分4评估度量 假设我们拥有一个标准答案的句子 中国 /NR 进出
3、口 /NN 银行 /NN 与 /CC 中国 /NR 银行 /NN 加强 /VV 合作 /NN 你的程序对应输出 中国 /NR 进出 /NN 口 /NN 银行 /NN 与 /CC 中国 /NN 银行 /NN 加强/VV 合作 /NN 则 测试输出中正确的词个数 =6.5 (第二个 中国 切分正确,但是词性错误 ) 测试输出中的词个数 =9 正确答案中的词个数 =8 所以 R=6.5/8 P=6.5/9 F=2RP/(R+P)=76.47%5日程表 本指南发布的同时,训练集提供下载 在本指南发布 1个月内,各组完成模型的训练和解码器的编写调试 在提交截止时间前 3天内提供测试文件6提交 至少需要提
4、交如下 4部分内容(请压缩打包上传,并命名为提交组编号):你的系统的完整源代码,和至少一个平台的可执行文件文档 1:说明你的代码结构、编译选项、环境设置以及运行设置文档 2:说明的系统的工作原理,包括分类器或者其他机器学习工具的选择、特征选取,解码算法等等处理好的测试文件,遵循和训练集同样的格式7分组和评分 自由分组,每组限 1-6人 1-2人将获得 110%的得分 2-5人将获得 100%的得分 6人将获得 90%的得分 不能在规定时间前提供分组信息的同学将由助教分配 每组的贡献分配由组员协商决定,出现争议的时候由助教裁判。 不提供贡献比例的分组视同该组每位成员贡献相同。8分组和评分 给出最高 f-score得分的组将获得本项作业满分 100,最低分的组将获得 60分。其它组按照一个线性插值得到相应的分数。 可以使用其它的开源工具(但是要在文档中注明!),不影响你的评分 编译错误或者不能通过、文档不完整不清晰和格式错误将导致额外的分数损失9注意 所提供的输出的测试文件和所提供的程序输出不匹配的小组成绩为 0分10