1、智能信息处理实验室研究生论文开题准备报告研 究 生 时 间指导老师 研究方向论文题目1. 问题的提出和研究目标注:介绍论文所研究问题的背景,现有工作存在不足之处,特别是自己工作所针对的部分。2. 问题的描述注:要求对所研究的问题不仅要用文字给出详细准确的描述,而且要给出以符号为主的形式化描述。3. 解决方案步骤 1:要解决的关键问题 1解决问题的方法 1:解决问题的方法 2:解决问题的方法 k:要解决的关键问题 2解决问题的方法 1:解决问题的方法 2:解决问题的方法 m:要解决的关键问题 2步骤 2:注:解决方案如果包含多个步骤的话,需要将每个步骤的描述,以及每个步骤所遇到的问题都分析清楚,
2、 进而对每个问题给出可能的解决方法(需要注意的是,这里的解决方法可以是目前已有的工作,无需所有的解决方法都是自己提出的,要求对每种解决方法都有一个清楚的分析,为最 终选择 何种方法提供依据)。4. 实验设计 实验目标注:明确实验的目标和目的,有时不仅是要证明我们自己方法比别人的好,更要关注各个对比方法之间的差别和适用情况,还要考虑验证自己方法的缺点。 实验数据准备注:实验数据的来源,以及目前准备的情况。如果是自己抓取或生成的,那么要详细说明抓取的过程或生成的原则,以及当前的数据量和质量如何;如果是采用现有的公共数据集,则要说明数据的来源,以及获取的手段。 度量标准描述注:对实验中所采用的度量要
3、给出介绍,如果是自己提出的新度量,则要给出详细的介绍;如果是采用通用的度量手段,原则上可简单描述即可,当然也可给出详细说明。 实验方案介绍 步骤 1: 步骤 2:注:主要是描述论文拟采用的实验方案,不能只是简单的说一下,而是要对实验的各个步骤和环节,以及可能遇到的问题和可能采用的解决方案都要给出详细的说明。补充说明:该报告不是要求大家一次性就填写的很完整,可以按照这个提纲来逐步的补充和完善起来。先将整个工作的大概框架确定下来,然后逐步针对每项进行细化,然后补充到报告中,最后得到完整详细的报告。 这个报告可以作为开题报告的核心部分,同时也是指导下面工作的重要依据。样 例研 究 生 刘春双 时 间
4、 2009.1.22指导老师 张志强 研究方向 信息检索论文题目 检索结果集选取算法研究1. 问题的提出和研究目标本课题主要针对如何从候选结果集合中选取相关度高且信息含量大,冗余度小且新颖性大的结果组合返回给用户查看,这里不仅 考虑了查询词和返回结果之间的相关性,同时也考 虑了结果与结果之间所含相关信息的冗余关系,将 结果间的新颖性也作为一个考虑因素,那么我 们把将冗余小新 颖性大的结果组合排序靠前,这样用户不用点 击大量冗余信息就能尽量在靠前位置快速得到有用的信息,节省了时间。故本 论文主要对如何进行新颖 性判断和如何 进行结果组合进行讨论。如何从候选结果集合中选取相关度高且信息含量大,冗余
5、度小且新颖性大的结果组合返回给用户。 既保证了满足用户的查询需求,又能给用户尽量提供比较大的信息量。2. 问题的描述设 Q(q1,q2,.qi)为查询向量,Si(s1,s2,.si)为结果向量,Ci(c1,c2,.ci)为组合向量,Sim 为 Ci 与 Q 相关度,Cont 为并集度,Nov 为每个组合的新颖度,Weight 为最后结果组合的权值。我们计算 Weight=a*Sim+b*Cont+c*Nov,其中,a b c 为线 性因子。 a+b+c=1.然后我们按照每个组合的 Weight 从大到小进行排序,实际上就是我们把每个组合 Ci 按照权值由大到小返回给用户。这样保证了:在每个 C
6、i 内,S1S2Si 尽量最小(冗余度最小,也就是新颖性最大),每个 Ci与 Q 相关度 Sim 尽量最大,同时 Cont=S1S2Si(组合内结果的并集度)也尽量最大。3. 解决方案步骤 1:找出相关结果。与传统查找相关结果相同,如果使用 trec 测试集,此项已经给出。这里关于相关结 果的选择问题,可以直接利用现有的信息检索系统或方法来得到,例如直接利用搜索引擎的前 100 条返回结果等。步骤 2:将结果进行组合。按照 C(m,n)进行组合, m 为总结果数, n 为组合内的结果数。一般情况下,为保证复杂度不至于太大,又能找到最大并集,m,n 选择要进行尝试,但也不能太大。当然,如何选择
7、n 也是一个可以研究的问题。但是这里暂且不用考虑,先可以用 2 或 3 做做实验看看。步骤 3:新颖性的计算。(3.1)将查询词提交后,我们将查询词进行扩展,即把查询词扩展为查询描述。再从查询描述中提取关键词,此关键词与初始查询词一起组成新的扩展后的查询词,然后我们或以向量形式表示查询词,或以其他方式表示。在 这里,我们拟采用向量方式表示查询词。问题 3.1.1:如何把查询词扩展。解决方法:如果用 trec 测试集,可以得到 查询描述,进而得到扩展的查询词。如果在搜索引擎中,得到查询 描述可能有点困难,可能需要打标记,来 记载用户的查询需求和描述。问题 3.1.2:如何以向量方式表示查询词。解
8、决方法:这个问题可以采用普通方法,即很多研究都使用的方法,就是用查询词在所有语句中出现的次数并把次数进行标准化之后作为权值,这里最好与结果的向量描述一致,有利于计算他们之间的相似度。(3.2)计算组合内语句间的新颖性,每个组合的并集度,以及组合和查询的相关度。以下分别以提出问题的形式来说明实现步骤。问题 3.2.1:计算组合内两个语句之间的新颖性,相似度越小,新颖性越大。进而计算整个组合的新颖性。解决方法 1:新词数量度量(New Word Count Measure)14。解决方法 2:新信息度度量(New Information Degree (NID))15。解决方法 3:基于重叠度的冗
9、余方法16。这三种方法虽然对于两个语句之间的新颖性计算很好,因为可以不用将语句进行向量化,就能进行新 颖性度量,但是不利于后续计算。解决方法 4:使用相似度函数计算新颖性17-19。常用的就是 cosine 相似度函数。问题 3.2.2:这里就涉及如何将语句向量化。解决方法可以为:解决方法(1):简单的用词出现的次数作为向量值,或者把次数进行标准化之后作为向量值。解决方法(2):每个向量值为 文档里的每个 word 的词频点积 TF*IDF,然后,用下面五个参数减少向量里的词的数量DECAY THRESHOLD 使用它来减少文档向量里的词,保证是 50-200 个IDF _THRESHOLD
10、文档里IDF 少于这个界值的词都忽略,一般取 3。KEEP _WORDS 质心里保留词的最大数量,每次从文档里都取 TF*IDF 值最大的作 为质心 KEEP _THRESHOLD 质心里打于这个界值的词保留,一般取 3,最后保留 10 到 20个单词SIM_ THRESHOLD 文档和质心进行相似度比较时,用这个值进行限定37。解决方法(3):如果使用 trec 测试集,考 虑使用24 中的思想,将指定实体概念引用进来,并在语句向量描述中考虑那些指定实体8。问题 3.2.3:计算每个组合的并集度。这里是个难点,通过怎么样的数学描述将组合内结果间的包含表示出来,进而算得并集度。解决方法 1:我
11、们将返回的前 100 条结果作为一个基本集,并集度可以考虑为组合所包含的结果信息在基本集所有的信息中所占的比例。可以将基本集用一个单词列表进行描述,每个 单词赋予一个数值, 为 基本集里每个有实际意义的单词出现的次数的标准化值,然后还得考虑里面的查询词出现,凡是查询词还要再加上一定的权重。同样,将组合也进行如上刻画,即把信息刻画成一系列 单词以及相应的权重。然后分别计 算组合内每个单词和基本集里相应单词的比值。这是很简单的方法考虑,后续还 会相应调整。问题 3.2.4:形成整个组合的向量空间,解决方法:将组合内的几个结果语句合并成一个大的语句,再计算里面单词的权重, 进而形成向量空间 。问题
12、3.2.5:然后计算组合和查询的相关度。解决方法:用组合的向量空间和查询词的向量空间进行 cosine 相似度度量。问题 3.2.6:对相关度和并集度和整个组合的新颖性进行线性组合,这里要考虑的是哪个因子占有较大的分量,即 a b c 的取值。解决方法:通过实验来确定。步骤 4:按照线性组合值对组合进行排序,而组合内的结果排序尊重组合内结果的原来顺序。4. 实验设计 实验目标实验的目标:第一,通过实验确定排序几个因子的权重,相关性、并集度和新颖度;第二,通过实验来验证我们所提方法在新的并集度和新颖度两个度量下具有较好的表现。 实验数据准备实验数据的来源:TREC 数据集,当前已经购买,并且数据
13、已经拿到。 度量标准描述实验中所采用的度量有两个:一个是并集度,主要用来刻画一个结果集合的信息冗余度,原则上冗余度越低越好,说明这个结果集合中的文档之间的内容相互重叠的少;另一个是新颖性,原则上一个文档的新颖性越大越好,表示这个文档的内容相对于前面的结果文档具有更大的新信息。当让我们讨论的前提都是要求返回结果与用户的查询都是相关的基础上再讨论并集度和新颖性的。 实验方案介绍 步骤 1:设定查询主题根据数据集的数据,我们可以选取设计多个领域的主题,如社会、自然、人文等,这些主题在数据集中就有描述,可直接利用; 步骤 2:确定每个主题对应的文档集合(相关文档集合)TREC 数据集中提供了与某个主题相关的文档集合,可直接利用; 步骤 3:对文档集合进行聚类根据前面算法进行聚类,得到一个文档聚类集合,所产生的文档聚类的排序是按照算法自然产生的,主要是根据相关度大小程度而排序; 步骤 4:运行我们自己的新算法,得到新的聚类集合 步骤 5:比较两个算法的聚类结果集合三个排序因子权重的确定在这一步中确定,基本原则:由于所有的文档都与主题是相关的,因此相关性这个因素的权重我们取值从 0.1变化到 0.9,后两个因素的权重取值相等,然后通 过实际的计算和评估结果来确定哪组权重值会得到最好的结果。