1、文本挖掘技术课程作业2008-05-07 之前将选题信息发给助教,包括:小组成员、选题名称、选题描述;2008-05-29 之前完成作业的主要内容并在课堂上进行交流;2008-06-12 之前提交读书报告和实验报告,并由助教进行上机检查。 课程作业要求及评分细则检查内容(课堂报告(10%)+书面材料(30%)+运行演示(10%)书面材料:阅读文章写报告(10%)、实验报告(15%)、源程序代码(5%)。运行演示:助教检查(10%)。 具体要求 阅读文章写报告(2000 字 - 4000 字)条理性(4%)、准确性(2%)、全面性(2%)、易读性及格式等(2%) 课堂报告:(10%)内容:目的(
2、2%)、方法(3%)、结果及分析(4%)语言表达:(1%) 实验报告:(15%)(3000 字 - 5000 字)内容:目的(2%)、方法(6%)、结果及分析(5%)易读性及格式等:(2%) 运行演示:(10%)演示内容与报告内容的一致性(6%,同时影响对报告的打分);稳定性(2%)和易用性(2%)。 源程序代码:(5%)必须:可由助教独立编译,并且获得的程序与演示所用程序完全相同;代码的规范性易读性(2%)。 课堂报告的形式 每组推选一小组长,小组长报告 5-8 分钟,组员报告 3-5 分钟小组长报告:小组总体情况和个人具体工作;组员报告:补充小组总体情况,重点个人具体工作;报告主要内容:目
3、的、方法、结果及分析。 课程作业情况 选课名单闫梦龙 10712804赵俊彦 10712805王立杰 10748877董 嵬 10748202何 浪 10748209彭 蔚 10748221张至媛 10748235邢 舟 10648242徐茂兴 10648243蔡慧慧 10748240曹 翠 10748241陈星润 10748248封 盛 10748252黄艺燕 10748258梁 劼 10748262陶富民 10748278汪 伟 10748279王婵娟 10748280王艳玲 10748285夏 冰 10748287赵 暄 10748297周燕红 10748302陈绪东 10748309方
4、 斌 10748312冯 涛 10748314胡雅杰 10748317冀 康 10748319罗庆军 10748328滕 腾 10748338王晨峰 10748340宗 良 10748353包鸿基 10748239 2008 年课程项目选题已选课但还没有提交项目选题的同学请尽快提交 小组成员 选题名称 选题描述赵俊彦、闫梦龙 饕餮宝典 主要内容是对网上的餐厅信息进行聚类,同时给出餐厅的摘要信息王晨峰、王艳玲、王婵娟文本情感分析技术的应用陈绪东 自动对联系统 训练很多对联,形成自己的数据库,有整句对整句,没有的话,词、字分开对滕腾、方斌 中文文档复制检测 系统 在海量文档库中检测学术剽窃之类的行
5、为黄艺燕、梁劼、王立杰、曹翠Searh Engine for Programmer开发针对编程人员的搜索引擎,它比一般的文本搜索更有针对性,我们将在一些较好的技术论坛上挖掘出有用的与编程相关的资源,建立资源之间的关系,希望提供基于自然语言的搜索。陶富民、周燕红、蔡慧慧、包鸿基 针对文章匹配广告1. 构造一个层次的分类2. 对给定一篇文章找出其所在类别,并从该类别的广告中找出一个和这篇文章最接近的广告。3. 可以扩展到用 RSS 不断更新训练集来调节类别特征,并提供相应的主题迁移。徐茂兴、邢舟 新闻类网页自动聚 类胡雅杰、冯涛 文本自动分类系统 基于 knn 方法实现文本的自动分类封盛、陈兴润、
6、夏冰电影评论的情感分析(Sentiment Analysis for Movie Reviews)对网上的电影评论进行情感分析,判断一篇评论对电影的态度是肯定的还是否定的;董嵬、赵暄、宗良新闻话题的检索系统张至媛、何浪、彭蔚BBS 发帖讨论区自动选择系统构造一个 BBS 文章讨论区分类器,用户给定一篇将要发表的文章,系统对文章内容进行分析,自动选择和其主题最接近的合适讨论区并给出和其内容接近的已有主题文章供其参考。罗庆军、冀康 垃圾邮件过滤器通过对当前主要的垃圾邮件过滤方法的学习,简单实现一个通用的垃圾邮件过滤器。汪伟 专利挖掘利搜索引擎有极为迫切的应用需求。利用专利搜索引擎,可以大大减少人工工作量,并且有助于专利侵权检测等任务。专利号是建立专利搜索引擎必不可少的步骤。当前一般采取人工指定的方法。对于海量专利数据,人工方法的结果准确率较低,并且工作量巨大。目前已有美国,日本的近十年的所有专利数据。在海量数据的基础上,我们试图建立一个层次的文本分类器解决这一问题。