1、信息检索综合课程设计课程介绍,主讲人:李正华苏州大学计算机学院2016年2月29日,主要参考陈文亮老师课件,自我介绍,姓名:李正华电子邮件:个人主页:http:/ 课程主页:http:/ 研究方向:自然语言处理、人工智能,学生情况调查,修过哪些编程课?这学期修什么课程?C+中的string; vector; map等会很方便;Java中也有类似的东西有的编程作业直接用C实现稍微复杂一些写过多大规模的程序?,学习目的,学习信息检索基础知识动手构建一些小系统(编程实践)拿到本门课学分,计分方式,5,实验作业:70分(可能会酌情调整)小作业3个*10分=30分大作业2个*20分=40分平时出勤、回答
2、问题等:10分不能迟到、早退,特殊情况必须请假,并带辅导员签字的假条;点名时,如果发现名单上没有你的名字,及时提出;(选修课的名单有时候会变)作业完成非常好的同学可以告诉我,特殊对待。期末小测验:20分考察课程相关的基础知识,提纲,6,什么是信息检索?为什么要学习信息检索?,提纲,7,什么是信息检索?为什么要学习信息检索?,什么是信息检索,现场问答来几个互联网应用例子,8,你们来之前,什么是信息检索?我得先调查一下,免得被蒙了。,接着,信息检索挺有趣的哈!先整件衣服吧,有点冷!,接着,其实我还缺个女朋友!,中科院研究生院2011年度秋季课程,16,什么是信息检索?,提问(随机点名系统),17,
3、三个应用例子的共同特征,给定需求(或者是对象),从信息库中找出与之最匹配的信息(或对象)Google/百度的例子:需求 “信息检索”淘宝的例子:对象 “男士西服”世纪佳缘网的例子:对象 “女朋友”!,18,信息检索的一些官方定义,给定用户需求,返回满足该需求的信息的一门学科。通常涉及信息的获取、存储、组织和访问。从大规模非结构化数据的集合中找出满足用户信息需求的资料的过程。非结构化数据通常指文本什么是结构化数据?(提问),19,本课程的内容,主要关注面向文本数据几部分内容:爬虫(Crawler),得到网页(wget可以递归爬取静态网页html)网页正文提取(html文件的处理),得到文档中文分
4、词文档存储(倒排;快速查询)用户query分词检索:找到相关文档相关文档简单排序,20,本课程不涉及内容,非文本数据Query深度分析和扩展网页链接分析(PageRank)等复杂排序方法.,21,22,完整的搜索系统示意图,22,信息检索技术的应用,23,搜索,推荐,挖掘,IR技术,情报处理,内容安全,舆情分析,信息检索应用系统,搜索系统Web搜索引擎IBM Waston问答系统推荐系统淘宝网豆瓣网当当网,24,从信息规模上分类,个人信息检索:个人相关信息的组织、整理、搜索等。桌面搜索(Desktop Search)、个人信息管理(PIM = Personal Information Mana
5、gement)、个人数字记忆(Personal Digital Memory)企业级信息检索:在企业内容文档的组织、管理、搜索等。内容管理(Content Management)Web信息检索:在超大规模数据集上的检索。,25,提纲,中科院研究生院2011年度秋季课程,26,什么是信息检索?为什么要学习信息检索?课程情况,直接经济效益-能赚钱啊!,世界级牛公司很多互联网的公司:Google, baidu, 高市值公司软件工程师年薪高,市场发展的需求,用户需要信息检索技术:互联网的信息量太大、噪音太多,寻找所需要的信息非常不容易公司需要信息检索技术:搜索引擎改变了很多传统的生活方式,Yahoo、
6、Google、Baidu,还有一些公司如Microsoft、Sina、Sohu、Tecent、Netease都加入到这个搜索技术的竞争。不只是搜索引擎才需要信息检索技术,电子商务(如亚马逊网站、阿里巴巴)、社交网(微博、Facebook、twitter、校内网)、数字图书馆、大规模数据分析等都需要信息检索技术人才的竞争:搜索相关人才人数出现缺口,他们非常抢手,待遇如日中天是不是泡沫:2000年左右出现的网络泡沫和现在的互联网有什么不同,搜索引擎在其中占什么位置?,28,几个应用需求,移动搜索产品搜索专利搜索广告推荐消费行为分析网络评论分析SEO营销,29,对相关专业学生的基本要求,信息检索技术是内容应用特别是互联网内容应用的核心技术,可以说在这些应用中无处不在信息检索将会成为一门计算机专业的基础学科搜索(狭义的信息检索)的三个层次,30,中科院研究生院2011年度秋季课程,31,应用层次:搜索是一项非常重要的应用!,中科院研究生院2011年度秋季课程,32,中间层次:搜索是极其重要的API,中科院研究生院2011年度秋季课程,33,www.G,中科院研究生院2011年度秋季课程,34,介绍一本有趣的书!,中科院研究生院2011年度秋季课程,35,核心层次:搜索是未来操作系统的重要组成部分!,Q&A,有什么问题?,