自然语言理解大作业指南中文的分词-词性标注系统.ppt

上传人:da****u 文档编号:1194715 上传时间:2018-12-18 格式:PPT 页数:15 大小:68.50KB
下载 相关 举报
自然语言理解大作业指南中文的分词-词性标注系统.ppt_第1页
第1页 / 共15页
自然语言理解大作业指南中文的分词-词性标注系统.ppt_第2页
第2页 / 共15页
自然语言理解大作业指南中文的分词-词性标注系统.ppt_第3页
第3页 / 共15页
自然语言理解大作业指南中文的分词-词性标注系统.ppt_第4页
第4页 / 共15页
自然语言理解大作业指南中文的分词-词性标注系统.ppt_第5页
第5页 / 共15页
点击查看更多>>
资源描述

1、自然语言理解大作业指南中文的分词 -词性标注系统赵海上海交通大学 计算机科学与工程系1目标 根据提供的训练语料,训练一个或两个模型 在此获得的模型下,依据某个解码算法能对于输入的中文文本进行词切分和词性标注2格式 输入的训练文件格式举例,由以下类似格式的各行构成的文本文件: 中国 /NR 进出口 /NN 银行 /NN 与 /CC 中国 /NR 银行 /NN 加强 /VV 合作 /NN 输入的测试文件格式 中国进出口银行与中国银行加强合作 要求训练出的模型能够在适当的算法支撑下对以上的测试输入进行切分并且标注词性,输出的各式和训练文件相同 所有提交的系统只接受 命令行格式 的输入和输入,推荐命令

2、行格式: Training: Your_program_train input.train.file output.model Test Your_program_test output.model input.test output.test3评估度量 使用比较标准答案和测试输出的 f-score判定你的输出成绩F=2RP/(R+P)R=测试输出中正确的词次数 /正确答案中的词次数P=测试输出中正确的词次数 /测试输出中的词次数只有切分和词性都对才能算完全正确一次如果切分对,但是词性错,算正确 0.5次只要切分错,则完全干不能得分4评估度量 假设我们拥有一个标准答案的句子 中国 /NR 进出

3、口 /NN 银行 /NN 与 /CC 中国 /NR 银行 /NN 加强 /VV 合作 /NN 你的程序对应输出 中国 /NR 进出 /NN 口 /NN 银行 /NN 与 /CC 中国 /NN 银行 /NN 加强/VV 合作 /NN 则 测试输出中正确的词个数 =6.5 (第二个 中国 切分正确,但是词性错误 ) 测试输出中的词个数 =9 正确答案中的词个数 =8 所以 R=6.5/8 P=6.5/9 F=2RP/(R+P)=76.47%5日程表 本指南发布的同时,训练集提供下载 在本指南发布 1个月内,各组完成模型的训练和解码器的编写调试 在提交截止时间前 3天内提供测试文件6提交 至少需要提

4、交如下 4部分内容(请压缩打包上传,并命名为提交组编号):你的系统的完整源代码,和至少一个平台的可执行文件文档 1:说明你的代码结构、编译选项、环境设置以及运行设置文档 2:说明的系统的工作原理,包括分类器或者其他机器学习工具的选择、特征选取,解码算法等等处理好的测试文件,遵循和训练集同样的格式7分组和评分 自由分组,每组限 1-6人 1-2人将获得 110%的得分 2-5人将获得 100%的得分 6人将获得 90%的得分 不能在规定时间前提供分组信息的同学将由助教分配 每组的贡献分配由组员协商决定,出现争议的时候由助教裁判。 不提供贡献比例的分组视同该组每位成员贡献相同。8分组和评分 给出最高 f-score得分的组将获得本项作业满分 100,最低分的组将获得 60分。其它组按照一个线性插值得到相应的分数。 可以使用其它的开源工具(但是要在文档中注明!),不影响你的评分 编译错误或者不能通过、文档不完整不清晰和格式错误将导致额外的分数损失9注意 所提供的输出的测试文件和所提供的程序输出不匹配的小组成绩为 0分10

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。