ImageVerifierCode 换一换
格式:DOC , 页数:8 ,大小:95.50KB ,
资源ID:958686      下载积分:15 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-958686.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(tf-idf向量模型文本分类算法.DOC)为本站会员(天***)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

tf-idf向量模型文本分类算法.DOC

1、现代信息检索李志峰 04061130 11/5/2018 1tf-idf向量模型(文本分类算法)1题目:试按 tf-idf在剔除一些常用词后给出文本中术语的统计算法和程序,并按降序进行排序。2算法思想:对于中文检索需要有中文词库,程序中用到20万的词库。数据结构用了最简单的数组。读取文献,采用每次读取1KB的内容进行分词。分词采用正向最大匹配算法,查找用二分法(词库中词已排序) 。3程序代码:#include #include #include using namespace std;#define N 9 /文献数目int comminute (char *text,long lg,int

2、number); /分词程序int fileopen(char *f,int n); /独指定文件char word20000022=0; /200000条词库int frequency200000N=0; /N篇文章int wordleng=0; /词库中实际词条数目void main(int n,char *arg)int i=0,j=0;int ni;int maxN=0; /存放文献使用频率最大词char ch;char *fileN=0; /需要检索的文献char *savefile; /结果存放文档clock_t start0, finish0; /程序运行时间double sft

3、ime0;start0 = clock();savefile=“idf文档.txt“;file0 = “抱愧山西.txt“;file1 = “一梦三四年.txt“; file2 = “漂泊的人生.txt“;file3 = “linux下驱动编程.txt“;FILE *cp = fopen(“词库.txt“,“r“); /词库位置while(!feof(cp) /读取词库ch=fgetc(cp);for(i=0;ch!=13 for(i=0;i=0);else text i = fgetc(fp);else 现代信息检索李志峰 04061130 11/5/2018 3for (i=0;i=0);

4、else text i = fgetc(fp);leng=leng-1024;comminute (text,i,n); /调用分词程序memset(char *)text,0,(i+18)*sizeof(char);fclose(fp); /指定文件关闭finish = clock();sftime = (double)(finish - start) / CLOCKS_PER_SEC;/计算用时std:cout0)while(end-begin10) /二分法查找,大范围定位middle=(int)(begin+end)/2);k =(int) strcmp(segment,wordmid

5、dle);if(k2)if(begin1) /二分法重新定位middle=(int)(begin+end)/2);k =(int) strcmp(temp,wordmiddle);if(k#include using namespace std;struct cellchar lemma20;unsigned char *p;cell inver200000;int wordleng=0;int comminute (char *text,long lg,int N);unsigned char *Reallmoc(unsigned char *oldp,int oldn);void main

6、 (char *arg)int i=0,N=0,j=0;int piece=0;int number=0;char *text = NULL; /检索的文献读取存放long length=0;char ch=0;char *file=0;FILE *fp = NULL;char *savefile; /结果存放文档clock_t start0, finish0; /程序运行时间double sftime0;start0 = clock();savefile=“D:倒排文档.txt“;file = “D:抱愧山西.txt“;FILE *cp = fopen(“词库.txt“,“r“);/词库位置

7、while(!feof(cp) /读取词库ch=fgetc(cp);i=0;while(ch!=13ch=fgetc(cp);i+; if(i3)现代信息检索李志峰 04061130 11/5/2018 6 for(;i=0);elsetext i = fgetc(fp);N+;else for (i=0;i=0);else text i = fgetc(fp);length=length-piece;N+;comminute (text,i,N); /调用分词程序memset(char *)text,0,(i+18)*sizeof(char);fclose(fp);FILE *wp = fo

8、pen(savefile,“w“); /文本输出for(i=0;i0) while(end-begin3) /二分法查找,大范围定位 middle=(int)(begin+end)/2);k =(int) strcmp(segment,invermiddle.lemma);if(k2) if(begin1) /二分法重新定位 middle=(int)(begin+end)/2);k =(int) strcmp(temp,invermiddle.lemma);if(k0)end=middle;elsebegin=middle;if(strcmp(temp,inverbegin.lemma)=0)

9、/与词库匹配 if(inverbegin.p)=NULL)inverbegin.p = (unsigned char *)malloc(2* sizeof(char);/申请空间inverbegin.p0 = 1;inverbegin.p1 = N;break;else number = inverbegin.p0;if(inverbegin.pnumber!=N) inverbegin.p0 = number+1;inverbegin.p = Reallmoc(inverbegin.p, number+1);/调整空间大小inverbegin.pnumber+1 = N;break;else

10、现代信息检索李志峰 04061130 11/5/2018 8i=i-2; /缩短字符串point=point+i;i=0; /最大匹配 return 0;unsigned char *Reallmoc(unsigned char *oldp,int oldn) /替代realloc函数unsigned char *newp = (unsigned char *)malloc(oldn+1) * sizeof(unsigned char);for(int i=0;ioldn;i+)newpi = oldpi;newpoldn+1 = 0; return newp;4对文章抱愧山西建立倒排文档,运行过程如下:倒排文档部分结果如下:跋涉 90把对 194把手 18把他 86 173把它 129 135罢了 82 197罢休 197白色 85白银 149百年 56 163179213百姓 26 31 153百余 153摆脱 95败落 180 207 208 210 214

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。