精选优质文档-倾情为你奉上哈希表技术判别两个源程序的相似性实验报告作者姓名2014-12-26一.问题描述实验题目:对于两个 C 语言的源程序清单,用哈希表的方法分别统计两程序中使用C语言关键字的情况,并最终按定量的计算结果,得出两份源程序的相似性。 要求与提示:C 语言关键字的哈希表可以自建,也可以采用下面的哈希函数作为参考: Hash(key)=(key第一个字符序号*100+key最后一个字符序号)%41 表长m取43。此题的工作主要是扫描给定的源程序,累计在每个源程序中C语言关键字出现的频度。为保证查找效率,建议自建哈希表的平均查找长度不大于2。 扫描两个源程序所统计的所有关键字不同频度, 可以得到两个向量。如下面简单的例子所示:根据程序1和程序2中关键字出现的频度,可提取到两个程序的特征向量X1和X2,其中X1= (4 3 0 4 3 0 7 0 0 2)TX2= (4 2 0 5 4 0 5 2 0 1)T一般情况下,可以通过计算向量Xi和Xj的相似值来判断对应两个程序的相似性,相