ImageVerifierCode 换一换
格式:PPT , 页数:39 ,大小:2.34MB ,
资源ID:362671      下载积分:100 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-362671.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(面向中文电子病历的NLP关键技术研究.ppt)为本站会员(ga****84)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

面向中文电子病历的NLP关键技术研究.ppt

1、面向中文电子病历的NLP关键技术研究,2014年4月13日Copyrights 2014 HITAll Rights Reserved,蒋志鹏 关毅哈尔滨工业大学计算机学院xyf-,电子病历(EMR),医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录,2014年4月13日Copyrights 2014HITAll Rights Reserved,中文电子病历(CEMR),对患者身体状况的半结构化专业描述,2014年4月13日Copyrights 2014HITAll Rights Reserved,中文

2、电子病历(CEMR),医疗大数据每天约800份每月约15000份每年约15万份,2014年4月13日Copyrights 2014HITAll Rights Reserved,中文电子病历(CEMR),2014年4月13日Copyrights 2014HITAll Rights Reserved,目前在CEMR方面展开的研究工作,CEMR句法树库构建,2014年4月13日Copyrights 2014 HITAll Rights Reserved,语法标注规范制定 语法标注结果及分析 高精度词性标注系统,语法标注规范制定,2014年4月13日Copyrights 2014HITAll Righ

3、ts Reserved,基于PCTB规范进行迭代修订人机互助医生协助一致性评价,语法标注规范制定,2014年4月13日Copyrights 2014HITAll Rights Reserved,规范中一些重要修订 筛选、补充、细化PCTB词性标注规范 例如,“伴有视物模糊”中的“视物” 提出适用于CEMR的术语切分方案 PCTB:“吃饭”不切分,“吃梨”“吃桃”切分 CEMR:“持物”“抗凝”是否切分?,以“抗凝”为例:,语法标注规范制定,2014年4月13日Copyrights 2014HITAll Rights Reserved,标注质量控制表1 规范修订前后主要词性歧义项分布表2 前3次

4、迭代分词和词性标注准确率及一致性,语法标注规范制定,2014年4月13日Copyrights 2014HITAll Rights Reserved,分词、词性标注、句法标注规范,语法标注规范制定,2014年4月13日Copyrights 2014HITAll Rights Reserved,标注结果 138份带有词性、句法标签的电子病历 来自神经内科和普通外科 包括出院小结和首次病程记录,语法标注规范制定,2014年4月13日Copyrights 2014HITAll Rights Reserved,CEMR句法树库构建的主要困难:目前没有任何基于CEMR的标注语料各级标注均需要医生的参与不同

5、医疗机构、不同科室病历差异较大,CEMR句法树库构建,2014年4月13日Copyrights 2014 HITAll Rights Reserved,语法标注规范制定 语法标注结果分析 高精度词性标注系统,语法标注结果分析,2014年4月13日Copyrights 2014HITAll Rights Reserved,CEMR文本语言的特点:包含大量专业术语(如“共济运动”、 “脑梗死”)、习惯用语(如“伴”、“否认”)及缩略词(如“CT”、“MMR”)常用数字、量词和形容词表示检查结果(如“100/70mmHg”)句子结构不完整,但规律性较强频繁使用并列长句,导致句法结构趋于扁平,语法标注

6、结果分析,2014年4月13日Copyrights 2014HITAll Rights Reserved,通用标注模型效果 词性标注 平均准确率仅为 82.35%,Fig.2a 出院小结各部分标注效果 Fig.2b 首次病程记录各部分标注效果,语法标注结果分析,2014年4月13日Copyrights 2014HITAll Rights Reserved,通用标注模型效果句法分析 F1(auto pos) :53.58% F1(gold pos) :73.19%,Fig.3a 出院小结各部分标注效果 Fig.3b 首次病程记录各部分标注效果,语法标注结果分析,2014年4月13日Copyrig

7、hts 2014HITAll Rights Reserved,实验数据:训练集:56份中文电子病历调试集:14份中文电子病历实验结果:,CEMR句法树库构建,2014年4月13日Copyrights 2014 HITAll Rights Reserved,语法标注规范制定 语法标注结果及分析 高精度词性标注系统,系统处理流程,2014年4月13日Copyrights 2014HITAll Rights Reserved111,中文分词与词性标注的联合模型,2014年4月13日Copyrights 2014HITAll Rights Reserved,感知器算法,输入:,训练样本;迭代次数T,初

8、始化:,参数向量,训练过程:,for t = 1.T, i = 1.n,使用beam search 算法找到当前参数下满足下面条件的标注序列,如果,则更新参数向量,输出:,参数向量,基于转移的错误驱动模型,2014年4月13日Copyrights 2014HITAll Rights Reserved,提出适用于CEMR的转移模板扩展经典的训练算法: 1. 以转换前为当前词的规则 2. 以转换前为条件的规则 3. 以转换后为当前词的规则 4. 以转换后为条件的规则,实验结果及分析,2014年4月13日Copyrights 2014HITAll Rights Reserved,实验数据:训练集:P

9、CTB语料+110份中文电子病历调试集:14份中文电子病历测试集:14份中文电子病历实验结果,CEMR实体和实体关系语料构建,2014年4月13日Copyrights 2014 HITAll Rights Reserved,实体标注语料规模和科室分布标注语料中实体的统计分析实体标注规范制定实体标注结果及评价,实体标注语料规模,2014年4月13日Copyrights 2014HITAll Rights Reserved,CEMR实体标注语料规模原始语料:2012全年的电子病历,共144230份,来自35个科室,87个子科室已校对语料:3085份中文电子病历,按照上述子科室平均抽取已标注语料:9

10、91份中文电子病历,包含为479420个字符,35327个实体,实体标注语料科室分布,2014年4月13日Copyrights 2014HITAll Rights Reserved,CEMR实体标注语料分布,CEMR实体和实体关系语料构建,2014年4月13日Copyrights 2014 HITAll Rights Reserved,实体标注语料规模和科室分布标注语料中实体的统计分析实体标注规范制定实体标注结果及评价,标注语料中实体的统计分析,2014年4月13日Copyrights 2014HITAll Rights Reserved,对比CEMR和开放领域语料的实体密集度开放领域语料:M

11、ET-2中的中文新闻语料,共104个文档,CEMR实体和实体关系语料构建,2014年4月13日Copyrights 2014 HITAll Rights Reserved,实体标注语料规模和科室分布标注语料中实体的统计分析实体标注规范制定实体标注结果及评价,实体标注语料构建团队,2014年4月13日Copyrights 2014HITAll Rights Reserved,语料构建团队研究室成员:2名博士生,1名硕士生主要负责标注规范初步制定、实体关系标注参与标注的医生:哈医大四院神经内科医生(硕士)哈医大二院呼吸内科医生(博士)主要负责标注规范修订、实体标注和标注人员培训,实体标注规范制定,

12、2014年4月13日Copyrights 2014HITAll Rights Reserved,实体标注规范制定 实体标注培训,The realization of Chinese interface for UMLS,2018/9/27,2014年4月13日Copyrights 2014HITAll Rights Reserved,实体标注规范制定,CEMR实体和实体关系标注规范,CEMR实体和实体关系语料构建,2014年4月13日Copyrights 2014 HITAll Rights Reserved,实体标注语料规模和科室分布标注语料中实体的统计分析实体标注规范制定实体标注结果及评价

13、,The realization of Chinese interface for UMLS,2018/9/27,2014年4月13日Copyrights 2014HITAll Rights Reserved,实体标注结果,CEMR实体标注样例,The realization of Chinese interface for UMLS,2018/9/27,2014年4月13日Copyrights 2014HITAll Rights Reserved,实体标注结果,CEMR实体关系标注样例,实体标注语料一致性评价,2014年4月13日Copyrights 2014HITAll Rights Re

14、served,正式标注质量控制,实体标注语料一致性评价,2014年4月13日Copyrights 2014HITAll Rights Reserved,评价标准实体边界匹配实体边界、实体类型匹配实体边界、实体类型、实体修饰类型匹配,其他研究工作,2014年4月13日Copyrights 2014HITAll Rights Reserved,CEMR,PHK,UMLS,个性化健康信息抽取,个性化健康知识表示,个性化健康知识维护,已录用文章,2014年4月13日Copyrights 2014HITAll Rights Reserved,Xinbo Lv, Yi Guan, Benyang Deng

15、. Transfer Learning based Clinical Concept Extraction on Data from Multiple Sources. Journal of Biomedical Informations,2014 (SCI 2.131)杨锦锋, 于秋滨, 关毅, 蒋志鹏. 电子病历命名实体识别和实体关系抽取研究综述,自动化学报,2014 (long)蒋志鹏, 赵芳芳, 关毅, 杨锦锋. 面向中文电子病历的词法语料标注研究. 高技术通讯, 2014,6,谢谢!,2014年4月13日Copyrights 2014 HITAll Rights Reserved,Q&A,

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。