1、1,第十章 信息分析与信息利用,学习本章的意义,如何分析和管理文献信息?如何按照你自己的兴趣对大量文献信息做进一步的分类和统计?如何在短时间内抽取出大量文章的主要内容并加以分析?如何用计算机软件管理你检索到的论文?,本 章 目 录,第一节 医学文献信息分析文献信息分析的相关概念、理论和技术第二节 文献信息管理重要的文献管理软件第三节 项目申报与科技查新申请科技查新的基本要求,第一节目录,文献信息分析的目的和意义文献信息分析的指标及其含义发表论文的期刊与核心期刊论文的作者与核心作者引文分析指标与科学评价文献内容指标与热点分析文献信息分析的专门方法频次排序共现分析聚类分析基于文献的知识发现基于文献
2、的知识发现工具展现研究领域的结构发现潜在的联系,一.文献信息的目的和意义,文献信息分析的概念文献信息分析主要是指以对大量已知文献信息的内容进行整理和科学抽象为主要特征的信息深加工活动。在此过程中,要对文献信息的价值进行评估,然后选取可靠的、先进的、实用的信息进行信息的整序甚至统计,提取信息中隐含的知识,从而获得增值的信息产品。,一.文献信息的目的和意义,2. 文献信息分析的意义信息快速增长的现状要求生物医学专业人员的整体素质要求 信息素质的提出,二、文献信息分析的指标及其含义,文献的特征外表特征内容特征两种特征可以用于文献信息分析的对象书目数据库中提供文献信息分析的功能CNKIWeb of S
3、cience,中国知网中的学术趋势搜索,二、文献信息分析的指标及其含义,文献的特征外部特征:题目、作者、作者工作单位、出版者、出版地、版次、期刊名称、引文,专利和科技报告还有专利号或报告号等。内容特征:在文献数据库中,每一条文献记录中一般有分类号和主题词、关键词的字段,用以表示文献的内容。,二、文献信息分析的指标及其含义,文献特征的分析及其意义发表论文的期刊与核心期刊论文的作者与核心作者引文及引文分析指标与科研评价分类号、主题词和关键词与研究热点,二、文献信息分析的指标及其含义,发表论文的期刊与核心期刊布拉德福定律如果将科学期刊按其刊载某个学科领域的论文数量以递减顺序排列起来,就可以在所有这些
4、期刊中区分出载文量最多的核心区和包含着与核心区同等数量论文的随后几个区,这时核心区和后继各区中所含的期刊数成 1:a:a 2 的关系( a1 )。核心期刊的含义,二、文献信息分析的指标及其含义,论文的作者与核心作者洛特卡的平方反比定律检验发现,生产2篇文章的作者大约是生产一篇文章作者数的1/4,生产3篇文章的作者数是生产1篇文章作者数的1/9,写1篇文章的作者数是全体作者的60%左右。核心作者,二、文献信息分析的指标及其含义,引文及引文分析指标与科研评价引文的定义和作用基本科学指标(Essential Science Indicators,ESI)ESI的主要模块引文排位(Citation R
5、ankings)高被引论文(Most Cited Paper)引文分析(Citation Analysis) 影响因子(Impact Factor,IF)即时指标(Immediacy Index,II),二、文献信息分析的指标及其含义,分类号、主题词和关键词与研究热点分类号、主题词和关键词的概念主题词和关键词的统计分析可以直接反映出研究的结构和趋势频次排序方法的使用,胃癌/治疗高频主题词列表,三、文献信息分析的专门方法,基于共现的文献信息分析的基本步骤:获取数据:确定研究主题的范围,检索相关文献的记录,下载相关文献记录。抽取字段:抽取相关指标(如期刊、作者、引文等)进行频次统计。统计条目:将统
6、计指标按照出现频次由高到低排列,截取其中高于某个阈值的部分,如高频主题词、高频期刊、高产作者等等,作为进一步分析的样本。共现分析:统计这些高频指标在同一个文献记录中共同出现的频次,形成共现矩阵。聚类分析:利用统计分析软件,根据共现矩阵,采用聚类分析、社会网络分析等方法对相关指标进行分类。结果判读:对形成的类别进行内容分析,以此说明该领域的科学研究活动的基本状况,如研究热点、核心期刊等等。,三、文献信息分析的专门方法,频次排序共现分析聚类分析基于文献的知识发现,3.2 共现分析,共现分析的含义共现分析的作用主题词共现分析的例子,主题词共现矩阵,3.3 聚类分析,聚类分析的含义SPSS中聚类分析的
7、操作SPSS中聚类分析结果的解释,聚类分析结果的解释,3.4 基于文献的知识发现,基于文献发现的含义基于文献发现出现的原因Swanson知识发现的过程开放式与闭合式的发现,四、基于文献的知识发现工具,展现研究领域的结构的工具CiteSpaceHistCiteBibexcel发现潜在的联系的工具ArrowsmithBITOLAMedlineRGenClip,4.1 Citespace,研究领域研究前沿:Research Fronts,某个研究课题及其基础研究问题的概念组合知识基础:Intellective Base,研究前沿的概念和问题在科学文献中的引文及其同被引的轨迹。一组被研究前沿所引用的科
8、学出版物的演进网络。使用步骤:从Web of Science中检索并以固定格式下载某一主题的文献记录,包括作者、题目、摘要和文献的引文。将检索到的记录输入系统,系统会生成对文章标题、文摘、表述词汇的频率统计,根据这些词汇频率的增长率确定研究前沿的热点词汇。设置总时间段范围以及每一个时间片段,获得该研究领域研究前沿的术语和知识基础的文章的对应的网络。研究前沿术语的共现知识基础文章的同被引研究前沿术语引用知识基础文章,4.1 Citespace,禽流感研究前沿术语的共现网络图,4.1 HistCite,引文分析可视化系统,尤金加菲尔德(E. Garfield)于2001年推出。网址为,可下载30天
9、免费试用版。主要功能将某个领域的高被引论文按照发表时间先后顺序自动生成引文时序网络图。主要步骤从ISI Web of Science(WOS)上检索并下载的某一专题方面的文献记录(包括其引文信息)将高于一定阈值的引文列出,按照被引论文发表年份顺序,绘制出网络图。意义引文时序网络图展示某个研究主题的论文源流、最初著者以及该研究主题发展的来龙去脉,迅速对某一专题研究历史进行回顾,指导自己的研究工作。此外,该软件可以把检索到的来源文献按照期刊名称、著者、年份分别进行排序。对于被引文献,还按照被引频次的高低进行排序,同时,点击引文时序网络图中的结点,可以看到引用该文献的所有文献以及被该文献引用的所有文
10、献。加菲尔德等人应用这一软件已经先后对有关数字图书馆、情报科学、信息计量学、共焦显微镜、实验胚胎学、基因组测序等专题研究以及某一段时期有关某一专题研究的杂志的发文情况进行了引文时序分析,分别生成了引文编年图。,4.1 HistCite,PBL的引文时序列网络,4.1 Bibexcel,由瑞典的于默奥大学(Ume University)社会学系的Olle Persson开发,可以在www.umu.se/inforsk网站上免费下载。主要功能抽取文件中的字段,统计其出现的频次并生成共现矩阵。主要步骤从Web of Science等书目数据库中下载记录从下载的文件中抽取用户指定字段,如标题中的词、作
11、者、期刊、引文、被引作者、被引期刊等等统计其出现的频次,进行共现统计,最后生成共现矩阵。特点其结果可以输入到其他软件(如Pajek,Excel,SPSS等)做进一步分析用户还可以自定义输入记录的字段标识和分隔符,具有更大的灵活性。,4.1 Bibexcel,Bibexcel用户界面,4.2 Arrowsmith,由D. Swanson等开发的可以在网上免费运行的软件, 网址为kiwi.Uchicago.edu。主要功能反映两个表面上无联系的事件或者联系微弱的事件之间的潜在的联系。 主要步骤分别用A和C两个词进行MEDLINE的标题词检索,将检索到的文献标题分别存储到ARROWSMITH的网页,
12、将得到的两个文件上传系统会产生一个列表(BLIST),表中列出了这两个文件所存储的标题中同时出现的重要单词或者词组。用户根据自己的经验把一些没有意义的、含糊的单词去掉点击BLIST中任何一个单词x都会显示出相应的同时包含A和x的标题,下面一行会显示出同时含有x和c的标题。从这些标题中,用户结合自己的专业知识就可以从中发现主题之间的潜在的联系。意义帮助生物医学者发现新的、有用的联系,可以把它当作一种扩展MEDLINE搜索能力的软件,但不能替代传统的文献检索,因为它还必须在传统的文献检索的基础上开展工作。,4.2 Arrowsmith Arrowsmith交互界面,4.2 BITOLA,由斯洛文尼
13、亚的生物统计与医学信息研究所的Dimitar Hristovski与Borut Peterlin研制开发。网址为www.mf.uni-lj.si/bitola。主要功能帮助生物医学研究人员发现生物医学概念之间的潜在联系。特点采用MeSH表中的主题词来表达概念,同时还包括了来自人类基因组组织(Human Genome Organisation,HUGO)的人类基因名称采用闭合式和开放式两种发现模式。,4.2 BITOLA BITOLA挖掘结果界面,4.2 MedlineR,由Simon M. Lin等人开发,在R编程环境下运行,可从网上免费获得源代码(dbsr.duke.edu/pub/medl
14、ineR),并可以根据需要修改源代码。主要原理依据词共现分析原理寻找与某特定基因有生物学关系的其他基因,两两统计一组基因、基因关键词对在同一篇文献中出现的次数,并以此为基础对这些基因、关键词建立共词矩阵,最后以Pajek可识别形式(.net格式)输出意义用户通过该系统可以获得与某一疾病相关联的基因关系网络图对于生物信息学家和统计学家来说,MedlineR是建立更加复杂的文献数据挖掘应用的基础,是对实验方法的一个重要的补充可以帮助医学科研人员所感兴趣的论题形成假设,得到相关因素的可视化图谱,其研究结果要在相关领域专家的指导下进行解释与评估并需要在实践中予以验证。,4.2 MedlineRMedl
15、ineR工作流程图,4.2 MedlineRMedlineR共现分析结果,4.2 MedlineR鼻咽癌几种相关候选基因可视化结果,4.2 GenCLiP,主要功能用于发现基因之间的关联及构建基因关系网络图。主要特点所挖掘出来的疾病机理永远是最新的所挖掘出来的信号通路(网络)是基于待分析基因和指定关键词的。主要步骤从PubMed下载与基因有关的文摘,并提取出超过设定滤过阈值的关键词。对这些基因、关键词建立共词矩阵,通过平均连锁等级聚类算法进行聚类分析,并得到聚类分析点阵图。利用GenCLiP的搜索功能,可以得到一个基于特定关键词的与某一基因相关联的基因关系网络图,还可以查阅到该基因涉及的相关文
16、献。,4.2 GenCLiPGenClip的检索界面,4.2 GenCLiPGenClip分析结果界面,第二节目录,文献信息管理概述文献信息管理软件EndNoteRefVizQuosa医学文献王,一.文献信息管理概述,科研工作者对收集到个人专题文献予以阅读、标记、做笔记并加以科学的卡片编排以便查找,一直是科学研究和个人文献组织和管理的最经典方法。现代的文献积累、组织和管理的方法是在继承传统的文献积累、组织和管理的基础上,与计算机技术、电子文献和网络技术相结合发展而来,其收集、积累、组织和管理文献的手段更加丰富多样。,一.文献信息管理概述,现代文献信息管理主要体现在电子全文阅览器和个人文献管理软
17、件二种软件上,功能表现在以下几个方面。(一)电子阅览器的功能 (二)文献收集高效化(三)文献管理智能化 (四)引文写作一体化(五)资源中心化、交流、共享网络化,二.文献管理软件,(一)EndNote EndNote(http:/ ResearchSoft公司开发的文献管理软件,现为Thomson Reuters集团旗下产品。该软件为收费软件,有个人版和大客户版。在其主页有30天全功能试用版下载。它与Reference Manager和ProCite被认为是当今世界上最优秀的三个文献管理软件。,二.文献管理软件,(一)EndNote 主要功能 : (1)建立个人专题数据库 直接联网检索并下载相关
18、信息 网上数据库检索结果导入 格式转换 手工录入,二.文献管理软件,(一)EndNote 主要功能 : (2)文献附件的管理 一条文献可通过其他途径获得了PDF全文,或者相关图表、网络链接等等。文献可能有读者自己的笔记,这些内容EndNote可以用来作为文献条目的附件进行管理。,二.文献管理软件,(一)EndNote 主要功能 : (3)个人数据库的管理 1)群组管理(Using Groups) 2)排序(Sorting the Library) 3)去重(Finding and Deleting Duplicate Reference) 4)检索(Search for References)
19、 5)压缩(Compress) 6)与 EndNote Web协同工作,二.文献管理软件,(一)EndNote 主要功能 : (4)个人数据库的应用 1)与Word整合利用数据库撰写论文 2)利用论文模板撰写论文 3)统计分析,二.文献管理软件,(二)RefViz RefViz 是由Thomson公司和Ominiviz 公司合作开发用于文献信息分析的收费软件。 安装此工具后,就可以借助EndNote菜单的ToolsData Visualization调用它提供可视化文本分析。 RefViz 会根据用户建立的数据库资源自动创建Galaxy视图和Matrix视图,提供可视化文本分析。,二.文献管理
20、软件,(二)RefViz (1)Galaxy视图 Galaxy 是相似性视图,文献或文献组越相似在图中分布的位置越靠近。视图的布局仅由分析结果决定,同一篇文献,与不同的文献在一起分析,结果会不同。通过对Galaxy 视图的形状、分布等整体布局分析,可以快速大致了解文献的主体信息。,二.文献管理软件,(二)RefViz (2)Matrix视图 Matrix 视图为表格样式,显示的是文献组与关键词之间的相互关系。在matrix 视图中,列标签总是代表文献关键词,而行标签默认代表文献组的主词,也可以通过视图下方的Rows选项将行标签设置由Goups(文献组)改为文献的Major Topic(主词表)
21、。单元格的颜色表示行标签和列标签的相关性,红色越深表示相关性越强,蓝色越深表示两者相关性越弱。,二.文献管理软件,(三)Quosa QUOSA是查询(Query)、组织(Organize)、储存和共享(Save & Share)以及分析(Analysis)这几个英文单词首字母的组合,说明其主要承担这四种角色与功能。 Quosa主要特色是可以自动查找网络数据库及其相关网络资源,并自动选择要下载的PDF、HTML等全文资料建立数据库。,二.文献管理软件,(四)医学文献王 医学文献王是北京金叶天盛科技有限公司研制的收费软件。全中文操作界面。 特色:支持PubMed、Cnki、万方、中华医学会数字期刊
22、、维普等直接检索和数据批量下载导入。 对外文数据医学文献王以新编全医药学大词典的英汉医学词典为基础,采用英汉对照的翻译技术,在保留原文风格的同时,可以对标题、摘要、关键词、主题词四个字段进行瞬间汉化,方便读者快速阅读英文文摘。,第三节 目录,一. 科研项目申报 (一)科研项目申报概述 (二)科研项目申报书的撰写 二. 科技查新 (一)科技查新概述 (二)科技查新流程,一. 科研项目申报,(一)科研项目申报概述 科研项目申报 是指申报者根据科研项目申报渠道发布的科研项目指南或通知,撰写和提交项目申请书。 科研项目申报的目的和意义 目的是使科研项目实行制度化和科学化的管理,促进了科研人员获取信息、
23、管理信息、分析信息和利用信息的能力,保证科研计划圆满完成,出成果、出人才、出效益,提高竞争力。意义就是鼓励创新。,一. 科研项目申报,(一)科研项目申报概述 科研项目的种类 科研的类型有许多,分类的方法也不尽相同。联合国教科文组织对科技活动中研究与发展的定义与分类为三大类:基础研究、应用研究和试验发展。,一. 科研项目申报,主要科研项目介绍 了解科研项目申报的主要渠道,为科技项目申报做好准备。 (1)国家自然科学基金 (2)国家社会科学基金 (3)高技术研究发展计划(863计划) (4)国家重点基础研究发展计划(973计划) (5)国家科技支撑计划 (6)教育部科研项目 (7)卫生部科研基金资
24、助项目,一. 科研项目申报,(二)科研项目申报书的撰写 高质量的项目申报书是项目申报成功的前提。可以国家自然科学基金项目2010年申请书为例,简述申报书的撰写。,二、科技查新,科技查新概念 2000年12月科技部发布的科技查新规范对“查新”定义作了原则性的规定:“查新是科技查新的简称,是指查新机构根据查新委托人提供的需要查证其新颖性的科学技术内容,按照本规范操作,并做出结论。”,二、科技查新,查新机构的资质认定 根据科学技术部于2000年12 月发布的科技查新机构管理办法规定确认。 科技部(原国家科委) 于1990、1994和1997年在全国范围内共授权了38 家一级查新单位(也称国家级查新单
25、位) ,中国医学科学院医学信息研究所和各省科技情报所都是一级查新单位。卫生部于1993、1998和1999年分别确认中国医学科学院医学信息研究所、湖南医科大学图书馆(现中南大学医学图书馆)等26个单位为卫生部医药卫生科技项目查新咨询单位。,二、科技查新,查新机构的资质认定 根据科学技术部于2000年12 月发布的科技查新机构管理办法规定确认。 教育部于1992、1995、2003、2004、2007和2009在全国设立教育部部级科技查新工作站67所,细分综合类、理工类、农学类和医学类工作站。,二、科技查新,查新委托 查新委托人在申请科技查新前,可根据科研主管部门的要求判断是否需要查新,再选择相
26、应资质的查新机构,并可在网络查找、下载科技部科技查新合同样本,仔细阅读科技查新规范的第3、4、5、10部分内容,做好科技查新前的准备工作。另外,查新一般需要12个工作日(节假日顺延)完成,所以委托人要做好委托时间的安排。,二、科技查新,查新委托 填写查新合同时,查新委托人应该特别注意以下三点:查新目的 、查新点与查新要求和查新项目的科学技术要点。,二、科技查新,(二)科技查新流程 科技查新工作的基本流程是接待查新委托人查新受理根据查新课题的专业特点安排查新员查新员检索文献撰写查新报告审核员审核查新报告出具正式查新报告。 查新委托人对查新流程的了解,有助于进一步理解科技查新在项目评审中的作用,有助于查新委托人进一步填写好查新委托合同。,