NDBC2012报告-KDELab@USTC.ppt

上传人:ga****84 文档编号:367205 上传时间:2018-09-27 格式:PPT 页数:40 大小:2.31MB
下载 相关 举报
NDBC2012报告-KDELab@USTC.ppt_第1页
第1页 / 共40页
NDBC2012报告-KDELab@USTC.ppt_第2页
第2页 / 共40页
NDBC2012报告-KDELab@USTC.ppt_第3页
第3页 / 共40页
NDBC2012报告-KDELab@USTC.ppt_第4页
第4页 / 共40页
NDBC2012报告-KDELab@USTC.ppt_第5页
第5页 / 共40页
点击查看更多>>
资源描述

1、数据库研究方法和论文写作,陆嘉恒中国人民大学,报告大纲,数据库的研究主题选择研究的动机和方法 论文写作方法,Topic,数据库的研究:数据+查询,+,Topic,数据种类:关系数据XML数据流数据网页数据概率数据RDF数据文本数据图数据,查询种类:SQL 语言 XQuery, XPath SPARQL Top -k 查询 Skyline查询 Keyword查询 近似 查询 图查询,Topic,研究方向的选择:,知识积累,个人兴趣,导师推荐,导师推荐论文和书刊以及书刊领域内的参考文献了解该主题中的主要概念和理论,讨论,topic相关的leading experts 在做什么?从他们的文章中了解当

2、前可做的问题老问题的新发展:比如云计算和大数据等新内容与老问题之间的交叉等等,对于一个Problem而言,适宜将一个小的问题发掘透彻,而不是左顾右盼将小问题忽略,研究方向的选择:,报告大纲,数据库的研究主题选择研究的动机和方法 论文写作方法,三句格言(1),科学上没有平坦的大道,真理长河中有无数礁石险滩。只有不畏攀登的采药者,只有不怕巨浪的弄潮儿,才能登上高峰采得仙草,深入水底觅得骊珠。,三句格言(2),当官的道路红彤彤经商的道路黄灿灿学术的道路黑洞洞,三句格言(3),不要努力成为一个成功者,要努力成为一个有价值的人。,新的想法的确立是十分不易的,是一个学术研究的关键,这是一个不断思索的过程。

3、,解决方法是什么?idea是否是新的?是否有道理?是否可行?否有更好的idea?,有了好的idea就完成了学术论文的一半!,对于一个Problem:,New Idea,一个idea需要有理论分析和实验验证:理论分析需要较好的数学功底实验验证需要较好的实验设计能力,Tips,理论分析要周全,最好有严格的数学证明实验验证尽量使用基准测试方案或其他学者常使用的数据实验要有合理的对比保证实验的可重复性,New Idea,Summary,写:论文的写作是一个科学工作者不可缺少的方面,研究成果要通过论文分享和被同行认可,研究是学、思、做、写四个方面的结合。,学:学习一个领域的相关知识,以及理论分析手段和实

4、验实现方法,思:边读论文边思考,构建知识体系,思考解决新问题的思路;,做:研究需要实验来检验自己的假设和细节,发现许多在分析阶段看不到的东西,会议:SIGMOD (ACM Conference on Management of Data)PODS (ACM SIGMOD Conference on Principles of DB Systems)ICDE (IEEE International Conference on Data Engineering)PVLDB (International Conference on Very Large Data Bases),刊物:TODS (AC

5、M Transactions on Database Systems)TOIS (ACM Transactions on Information and Systems)IEEE TKDE (IEEE Transactions on Knowledge and Data Engineering)VLDBJ (VLDB Journal),计算机科学界非常重视会议论文,高档次的会议论文体现了国际一流的学术水平,在数据库领域一流的会议和刊物有:,Paper Structure,-Title-Abstract-Introduction-Previous work-Our work-Support(th

6、eoretical or experimental)-Conclusion-Reference,论文的八大结构:,Title & Abstract,Title:论文的题目要能够清楚地表达主要的工作,字数不能过长*关键要有吸引力*,Abstract:目的:总结自己的工作内容: 研究的问题自己的方法自己的方法的特点和优点方法的结果,Attractive,Introduction,Introduction目的:介绍文章的背景和组织结构内容:问题P十分的重要,A、B和C都已经做过了XX工作,他们的工作取得了哪些成绩,但是都存在某些缺点,我们提出了方法D,阐述D的特点和优点,以及D的实验结果,最后介绍文

7、章的组织结构。,对别人的工作不能有太多批评,否则显的很不客观,容易降低文章的质量。,Tips,Related work,目的:说明自己与前人的不同 内容:将历史上前人的工作分成类别对每项重要的历史工作进行简短的回顾(一到几句),注意要回顾正确,抓住要点,避免歧义和自己提出的工作进行比较不要忽略前人的重要工作,要公正评价前人的工作,不要过于苛刻强调自己的工作和前人工作的不同,最好举出各自适用例子,Our work,目的:描述自己的工作 内容:从读者角度阐明定义和表示法提供算法的伪码,图解和相应解释用设问的方式回答读者可能提出的潜在问题复杂的冗长的证明和细节可以放在附录中,这里关键是把问题阐述清楚

8、特例和例外应该在脚注中给予说明,Support,Theoretical analysis目的:对自己的方法的理论支持内容:理论阐述、证明等Experiment目的:通过实验来验证自己的工作内容:实验设计(保证其他读论文的人可以根据描述重复实验)对比结论(从试验中得出了什么结论),通常,对自己观点的支撑和论证需要理论和实验两个方面的阐述,Conclusion & Reference,Conclusion目的:总结全文,结束文章内容:快速简短的总结未来工作的展望,Reference目的:对相关重要背景文献的引用内容:选择引文(众所周知的结论不必引用)引文与文章保持一致,Rules,正确选题合适的切

9、入点简洁明了说清自己的贡献可靠的/可重现的结果可重复的过程好的文章结构和逻辑流程精选的参考文献,好文章一般的特点:,Title: Optimal Top-k Generation of Attribute Combinationsbased on Ranked Lists,SIGMOD 2012,题目指出了文章提出了一个最优属性组合产生的方法,SIGMOD 2012,研究的问题:,应用背景,我们方法的优点和结果,In this work, we study a novel topk query type, called topkm queries. Suppose we are given a

10、 set of groups and each group contains a set of attributes, each of which is associated with a ranked list of tuples, with ID and score. This problem has a wide range of applications from databases to search engines on traditional and non-traditional types of data (relational data, XML, text, etc.).

11、 We show that a straightforward extension of an optimal top-$k$ algorithm, the Threshold Algorithm (TA), has shortcomings in solvingthe topkm problem. To overcome this weakness, we provide here, for the first time, a emphprovably instance-optimal algorithm and further develop optimizations for effic

12、ient query evaluation toreduce computational and memory costs and the number of accesses. We demonstrate experimentally the scalability and efficiency of ouralgorithms over three real applications.,SIGMOD 2012,1. Introduction:1.1 问题的定义 1.2 应用 1.3 主要的学术贡献,2. PROBLEM FORMULATION3 BACKGROUND AND RELATE

13、DWORK,SIGMOD 2012,4 TOP-K,M ALGORITHMS4.1 Access model: sorted and random accesses4.2 Baseline algorithm: ETA4.3 Top-k,m algorithm: ULA4.4 Optimized top-k,m algorithm: ULA+4.5 Optimality properties,算法理论分析,关键所在,SIGMOD 2012,5. XML KEYWORD REFINEMENT6. EXPERIMENTAL STUDY7. CONCLUSION AND FUTURE WORK结论和

14、将来的发展;,方法的应用和实验验证理论,论文的结论部分,Theoretical Computer Science,复杂度分析树的性质图论递归的性质级数运算数论概率公式矩阵运算微积分公式求极限方法,有力的数学论证和公式推导往往是检验一篇论文质量高低的一个重要的因素。,复杂度计算,f(n)的上界,f(n)的下界,f(n)的确定界,Eg:,常用分布,二项分布:,泊松分布:,正态(高斯)分布:,高斯分布曲线,多元高斯分布等等。,常用级数(用来公式推导、近似计算等),泰勒级数的基本表示形式:,常用某公式在0处的展开式来作为推导:,图论中的概念和经典算法,图论中的基本表示方法:节点集、边集,图论中的经典算

15、法:,Dijkstra算法Floyd算法Kruskal算法,除去以上的介绍外,常用的微积分的公式、线性代数的计算方法等需要熟练掌握。,总之,理论计算机的水平提高在于不断的积累和研究中的应用。,克服英语论文语言障碍,多读相关的论文进行学习和揣摩,Tips,准备一个笔记本,随时记录优秀的英语论文里的句子。,Abstract 部分的优秀句子举例(1),开门见山,直接说本文的主要内容:We study the problem of processing subgraph queries on a database that consists of a set of graphs. The answer

16、 to a subgraph query is the set of graphs in the database that are supergraphs of the query. In this article, we propose an efficient index, FG*-index, to solve this problem.说本文的主要内容和研究问题的重要性This paper investigates the problem of efficiently computing the confidences of distinct tuples in the answer

17、s to conjunctive queries with inequalities () on tuple-independent probabilistic databases. This problem is fundamental to probabilistic dabases and was recetly stated open.经常说某些工作是第一个工作This is the first work that reasons about keyword search strategies from a formal perspective.说试验结果方面的改善 Our exper

18、imental results show that this reformulation of non-inner joins as complex predicates can improve optimization time by orders of magnitude, compared to known algorithms dealing with complex join predicates and non-inner joins. once again, this gives dynamic programming a distinct advantage over curr

19、ent memoization technqiues.,Abstract 部分的优秀句子举例(2),说新方法的额外开销很小We also show through complexity and performance analysis that the structural signature scheme is efficient; with respect to the Merkle hash signature, it incurs comparable cost for signing the trees and incurs lower cost for user-side inte

20、grity verification.说已有的研究很多,但是还没有满足某个条件的:Nearest neighbour (NN) search in high dimensional space is an important problem in many applications. Ideally, a practical solution (i) should be implementable in a relational database, and (ii) its query cost should grow sub-linearly with the dataset size, r

21、egardless of the data and query distributions. Despite the bulk of NN literature, no solution fulfills both requirements, except local sensitive hashing (LSH). 说某个工作和前面的工作不一样,不要总是用“different from”This technique diverges from the research attempting the challenging problem to compress a single genome

22、 or recent research on compressing a large database of unrelated sequences. We do not consider the process of generating the variations, which can be a challenging problem itself, but assume that the variation data have been provided. 说前人工作比较多,但是还是有一些缺点和值得改进的地方Despite the significant amount of work

23、on streaming XML processing, most of the work focused on XML filtering (such as XFilter) or single extraction node (not multiple extraction nodes). As a result, the work on efficient algorithms for tuple extraction is rather limited/ TurboXPath is the latest system specifically designed for tuple extraction.,总结,数据库的研究主题选择:老问题的新发展和结合研究的动机:自己觉得研究内容有价值有创意最重要 英语论文写作关键在于揣摩和模仿,总结的格言,所有的方法都需要勤奋的练习,祝大家在数据库研究领域取得好成绩!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。