哈希表技术判别源程序的相似性实验报告.docx可修改原格式下载

资源描述

1、哈希表技术判别两个源程序的相似性实验报告Administrator2014-12-26一.问题描述实验题目：对于两个 C 语言的源程序清单，用哈希表的方法分别统计两程序中使用C语言关键字的情况，并最终按定量的计算结果，得出两份源程序的相似性。要求与提示：C 语言关键字的哈希表可以自建，也可以采用下面的哈希函数作为参考： Hash(key)=(key第一个字符序号*100+key最后一个字符序号)%41 表长m取43。此题的工作主要是扫描给定的源程序，累计在每个源程序中C语言关键字出现的频度。为保证查找效率，建议自建哈希表的平均查找长度不大于2。扫描两个源程序所统计的所有关键字不同频度，可

2、以得到两个向量。如下面简单的例子所示：根据程序1和程序2中关键字出现的频度，可提取到两个程序的特征向量X1和X2，其中X1= (4 3 0 4 3 0 7 0 0 2)TX2= (4 2 0 5 4 0 5 2 0 1)T一般情况下，可以通过计算向量Xi和Xj的相似值来判断对应两个程序的相似性，相似值的判别函数计算公式为:最后的相似性判别计算可分两步完成: 第一步用式(3-1)计算S，把接近1的保留，抛弃接近。的情况(把不相似的排除); 第二步对保留下来的特征向量，再用式(3-2)计算D，如D值也比较小，说明两者对应的程序确实可能相似(慎重肯定相似的)。 S和D的值达到什么门限才能决定取舍?

3、需要积累经验，选择合适的阑值。3)测试数据: 做儿个编译和运行都无误的C程序，程序之问有相近的和差别大的，用上述方法求S 并对比差异程度。4)输入输出:输入为若干个c源程序，输出为程序问的相似度以及向量的几何距离。基本要求：建立哈希表，统计源程序中关键字出现的频度，并计算多个源程序之间的相似度。测试数据：自己在网上找到一些C语言程序，分别为test1.txt,test2.txt,test3.txt等。运行结果应为输出每个源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。二需求分析1.本程序用来通过建立哈希表求源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。2.用户

4、可以将源程序的.txt文件放入hashtable文件夹中，运行程序就可以输出每个源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。三概要设计为了实现上述功能，可以用结构体表示哈希表，因此需要哈希表的抽象数据类型。哈希表抽象数据类型的定义： ADT hashtable数据对象：D=ai|aiElemType,且各不相同，i=1,2.,n,n0 数据关系：R= 基本操作： Hashfunc(char str); Hashfind(char *words); creathash(void); resethash(int n);isletter(char ch);readc(char

5、* filename);getkey(char *str,int len);copycount(int x,int n);check(int *x1, int *x2);end ADT 3.本程序实现模块主程序模块哈希表程序模块：实现哈希表的抽象数据类型主程序模块调用关系：哈希表程序模块计算相似度和向量的几何距离的模块四详细设计1.各个子函数的设计1）创建哈希表函数函数原型：void creathash(void); 输入：读取存储了32个关键字的文件ckey.txt 思路：通过对ckey.txt文件逐行赋值给创建的str字符数组，并将该数组调入Hashfunc函数。（2）将关键字

6、根据哈希函数放入哈希表中的指定位置的函数函数原型：void Hashfunc(char str); 思路：对调进来的str数组通过调用getkey函数得到该关键词的key值后放入哈希表中的特定位置，并用线性探索来解决冲突。（3）在哈希表中找是否该words为关键字，并统计频度的函数函数原型：int Hashfind(char *words); 思路：将调进来的word字符数组先调用getkey函数获取key值，然后在哈希表里查找是否存在该字符串，如果存在则该关键字对应的频度加1. （4）重置哈希表函数函数原型：void resethash(int n); 功能：当n为0时，将指向哈希表中

7、关键字的指针置成Null，同时将频度全部置为0.而当n为1时，仅仅将频度置为0.（5）获取单词key的函数函数原型：int getkey(char *str,int len); 思路：用key1存储关键字的首字母，key2存储关键字的末字母，然后通过哈希函数得到key的值并返回。（6）判断是否为字母的函数函数原型：int isletter(char ch); 思路：如果调进来的ch字符的ASCII值在az或AZ范围内的话则返回1，否则返回0. （7）读取源程序文件中的单词的函数函数原型：int readc(char * filename); 思路：为了读取源程序文件中的单词，所以一个字

8、符一个字符的，如果读的超过最大关键字长度将会跳过当前识别区域，读取下一个单词，将得到的该单词调入Hashfind函数，来判断是否为关键字，并统计频度。（8）将频度拷贝到数组里的函数函数原型：void copycount(int x,int n); 功能：将哈希表中关键字的频度复制到x数组中，以便进行后面相似度等的计算。（9）检查两个源程序是否相似的函数函数原型：void check(int *x1, int *x2); 思路：对调进来的x1和x2数组进行相似度计算，若相似度大于设定好的阈值，则再进行几何距离计算，最后给出两个文件是否相似的判断。（10）取模函数函数原型：float M

9、ol(int *x); 思路：通过求向量模值的数学知识求x数组的模（11）点积函数函数原型：int Dot(int *x1, int *x2); 思路：通过点积的数学知识对两个向量求点积（12）求相似度S的函数函数原型：float S(int *x1,int *x2); 思路：根据题目给的求相似度的公式求x1和x2数组的相似度（13）求距离D的函数函数原型：float D(int *x1, int *x2); 思路：用题目给的球几何距离的公式求x1和x2数组的几何距离2主函数伪码int main()char filename1=test1.txt;char filename2=te

10、st12.txt;char filename3=test13.txt;int x1hashlen,x2hashlen,x3hashlen; /存储频度的数组，用于相似度S的计算resethash(0); /完全重置哈希表，即哈希指针置为NULL，频度置为0creathash(); /通过文件ckey.txt创建哈希表readc(filename1); /读取第一个测试源程序文件copycount(x1,hashlen); /讲统计好的频度复制给x数组resethash(1); /仅仅将频度count置为0readc(filename2); /同上copycount(x2,hashlen);re

11、sethash(1);readc(filename3);copycount(x3,hashlen);coutt哈希序号 t关键字 t频度1 t频度2 t频度3endl;for (int i = 0; i 41; i+)if(hashti.hash1!=NULL)coutti thashti.hash1 tx1i tx2i tx3iendl;coutfilename1和filename2的相似情况为：endl;check(x1,x2); /检查相似度coutfilename1和filename3的相似情况为：endl;check(x1,x3); coutfilename2和filename3的相

12、似情况为：endl;check(x2,x3);return 0;3.调用关系图SDMolDotgetkeyislettermain()hashfuncresethashcreathashreadccopycounthashfindcheck五调试分析1.遇到的问题分析1）=与=的问题赋值号与等号的问题虽然平时一直都会注意，但是有时候粗心也容易犯错，就比如在该语句中：if(fp=fopen(ckey.txt,r)=NULL)写成了if(fp=fopen(ckey.txt,r)=NULL)，导致运行时出现下图看到过一本讲编程的书说为了避免这种错误，可以#define = equal，这样就变成了

13、if(fp=fopen(ckey.txt,r)equalNULL)。虽然这样确实可以避免该类错误，但是我觉的也没有太大的必要，只要平时注意点小心点就是了。而且如果在visual studio2012上编程时，一般是不允许出现fopen这种不安全函数的，要使用它推荐的fopen_s函数，使用如下2）第二个问题出现在creathash函数中，也比较难找。当时程序没有红色的那两句，while (fgets(str,size,fp)!=NULL) /读取一行写入一行if (str=NULL)break;length=strlen(str); strlength-1=0; Hashfunc(str);f

14、close(fp);接下来的是没有那两句的运行后的窗口截图如果加上那两句红色的语句后的运行窗口就是这样的后来调试时发现，（就拿文件ckey.txt中的第一个关键字为例）在没有那两句红色语句时，调试窗口是这样显示的说明在执行逐行读取关键字的那段代码时，它把每一行的换行号也读进了str数组里，导致输出时，每个关键字都做了换行，便有了上面的第一个截图。所以我的解决办法就是加入红色的那两句，即length=strlen(str); strlength-1=0; 也就是把最后的换行号替换为0.3)第三个问题出现在readc函数中。在下面代码中原本没有注销的那一语句。所以导致这样的结果：即统计不到源程序文

15、件中的关键字的频度，均显示为0.然后进行调试发现（就以读取到的第一个单词include为例）：从调试窗口可看出读取完一个完整的单词后，它自己不能给该word数组赋值0来结束，这样导致的结果将会发生在Hashfind函数中的strcmp函数中，即通过上网查资料后知道，strcmp函数进行两字符串比较时是两个字符串自左向右逐个字符相比（按ASCII值大小相比较），直到出现不同的字符或遇0为止。而我的hashtkey.hash1数组里的字符串为i,n,c,l,u,d,e0,而words数组为i,n,c,l,u,d,e，所以比较的结果是它们不相等，就统计不到关键字的频度。所以我的解决办法即注销的那句：

16、wordsi=0;对每次读到的单词后都加一个0。4）第四个问题出现在求几何距离的D函数。原本我是这样写的floatD(int*X1,int*X2)int*X;X=Sub(X1,X2);returnMol(X);int *Sub(int *X1, int *X2)int XN, i = 0;for (i = 0; i N; i+)Xi= X1i - X2i;return X;float Mol(int *X)int i = 0, sum = 0;for (i = 0; i N; i+)sum += Xi * Xi;return (float)pow(sum,0.5);这样运行的结果就是求出来的几

17、何距离是个很奇怪的随机数，每运行一次得出的结果都不一样。原因在于在Sub函数中X数组是个局部变量，返回的X只能是个指针，此时它已经不代表刚才指向的那个数组了，然后调进Mol函数中，进行的操作也只是对X的地址进行操作，因为地址是随机数，所以返回的也是个随机数。我所以我将这D和Sub两个函数直接合并为一个D函数float D(int *x1, int *x2) /求几何距离int xN, i = 0; for (i = 0; i N; i+) /向量相减xi= x1i - x2i; return Mol(x); /再求模2.复杂度的分析本程序中没有用到循环嵌套，所以每个函数的时间复杂度基本为O（

18、n），空间复杂度也基本为O（n）。六使用说明，本程序的主要功能就是统计源程序之间的相似度，所以使用者只需要将要检测的源程序的txt文件放入该程序的工程文件夹中然后在修改读取的文件名便可直接运行了。七测试结果结果与实际结果相符，故可以认为该程序是成功的。八心得与体会。 1.通过本实验让我用程序对文件的操作有了更深的理解，知道了如果直接的逐行读取文件的话，换行号也会被读进去的。 2.对局部变量有了更好的理解。 3学会了建立哈希表的过程，以及更好的掌握了调试这一功能。4.由于本程序的编写和调试我是在visual studio2012进行的，所以上述截图均为在该编辑环境中进行的。使用visual st

19、udio编程体会到了其功能之强大和方便。而且也更安全，例如它一般不允许fopen，strcpy这种不安全函数，所以原本我用的是和这种visual 推荐的安全函数。只是后来将代码拷贝的VC+后这些安全函数不能用后，我又换了回来，但其他的基本不用改。九附完整源程序/ 哈希表统计源程序的相似度#includeiostream#includestdlib.h#includestring#includemath.h#define N 32 /关键字个数#define size 256#define maxlen 9 /关键字数组长度#define hashlen 41 /哈希表长度#define Sma

20、x 0.9 /相似度s的阈值#define Dmin 2 /D的阈值struct hashtable /结构体数组哈希表char *hash1; /指向关键字的指针int count; /记录频度hashthashlen;using namespace std;void Hashfunc(char str); /将关键字根据哈希函数放入哈希表中的指定位置int Hashfind(char *words); /在哈希表中找是否该words为关键字，并统计频度void creathash(void); /创建哈希表int isletter(char ch); /判断是否为字母float Mol(i

21、nt *x); /取模函数int Dot(int *x1, int *x2); /点积函数float D(int *x1, int *x2); /求距离D的函数float S(int *x1,int *x2); /求相似度S的函数int readc(char * filename); /读取源程序文件中的单词int getkey(char *str,int len); /获取该单词的keyvoid resethash(int n); /重置哈希表void copycount(int x,int n); /将频道拷贝到数组里void check(int *x1, int *x2); /检查两个源

22、程序是否相似int main()char filename1=test1.txt;char filename2=test12.txt;char filename3=test13.txt;int x1hashlen,x2hashlen,x3hashlen; /存储频度的数组，用于相似度S的计算resethash(0); /完全重置哈希表，即哈希指针置为NULL，频度置为0creathash(); /通过文件ckey.txt创建哈希表readc(filename1); /读取第一个测试源程序文件copycount(x1,hashlen); /讲统计好的频度复制给x数组resethash(1); /

23、仅仅将频度count置为0readc(filename2); /同上copycount(x2,hashlen);resethash(1);readc(filename3);copycount(x3,hashlen);coutt哈希序号 t关键字 t频度1 t频度2 t频度3endl;for (int i = 0; i 41; i+)if(hashti.hash1!=NULL)coutti thashti.hash1 tx1i tx2i tx3iendl;coutfilename1和filename2的相似情况为：endl;check(x1,x2); /检查相似度coutfilename1和fi

24、lename3的相似情况为：endl;check(x1,x3); coutfilename2和filename3的相似情况为：endl;check(x2,x3);return 0;void resethash(int n) /重置哈希表if(n=0) /完全重置哈希表for(int i=0;i41;i+) hashti.hash1=NULL; hashti.count=0; else if (n=1) /仅仅重置频度for(int i=0;i41;i+) hashti.count=0; void copycount(int x,int n) /拷贝频度for (int i = 0; i n;

25、i+)xi=hashti.count;int getkey(char *str,int len) /根据哈希函数获取该单词的keychar key1,key2; int key;key1=str0;key2=strlen-1;key=(int)(key1*100+key2)%41;return key;void creathash(void) /对文件ckey.txt中的32个关键字创建哈希表 FILE *fp;int length;char strsize; /暂时存储关键字字符的数组char *s=NULL;for (int i = 0; i size; i+)stri=0;if(fp=f

26、open(ckey.txt,r)=NULL)coutcant creat file!n;exit(0);while (fgets(str,size,fp)!=NULL) /读取一行写入一行if (str=NULL)break;length=strlen(str); strlength-1=0; /调试后发现的，没有这里就停止运行了Hashfunc(str);fclose(fp);void Hashfunc(char str) /将关键字根据哈希函数放入哈希表中的指定位置int key,len;len=strlen(str);key=getkey(str,len);while (hashtkey

27、%41.hash1!=NULL)key+; /线性探索hashtkey%41.hash1=(char*)malloc(sizeof(char)*(len+1); strcpy(hashtkey%41.hash1,str); int Hashfind(char *words) /在哈希表中找是否该words为关键字，并统计频度int key,len,find;len=strlen(words);key=getkey(words,len);while(hashtkey.hash1=NULL)key+;key=key%41;if(strcmp(hashtkey.hash1,words)=0) has

28、htkey.count+;return 1;for(find=key+1;findhashlen;find+) /如果不在key位置则向往后线性查找，然后再从头找 /线性探查法顺序查找哈希表中是否已存在关键字if(hashtfind.hash1!=NULL) if(strcmp(hashtfind.hash1,words)=0) hashtfind.count+; return 1; for(find=0;find=a&ch=A&ch=Z)return 1;return 0;int readc(char *filename) /读取源程序文件中的单词FILE *fp1=NULL;char wo

29、rdsmaxlen,ch;int i; if(fp1=fopen (filename,r)=NULL) coutcan not creat file!n; exit(0);while (!feof(fp1) /结束返回1i=0;ch=fgetc(fp1); /一个字符一个字符的读while (isletter(ch)=0&feof(fp1)=0)ch=fgetc(fp1);while (isletter(ch)=1&feof(fp1)=0)if (i=maxlen)while (isletter(ch)=1&feof(fp1)=0)ch=fgetc(fp1);i=0;break; /超过最大关

30、键字长度将会跳过当前识别区域，读取下一个单词elsewordsi+=ch;ch=fgetc(fp1);wordsi=0;Hashfind (words); /将得到的该单词调入Hashfind函数，来判断是否为关键字，并统计频度fclose(fp1);return 0;float Mol(int *x) /取模函数int i = 0, sum = 0;for (i = 0; i N; i+)sum += (xi * xi);return (float)pow(float)sum,0.5);int Dot(int *x1, int *x2) /点积函数int i = 0, sum = 0;for

31、 (i = 0; i N; i+)sum += x1i * x2i;return sum;float S(int *x1,int *x2)return Dot(x1, x2)/(Mol(x1)*Mol(x2); /求相似度Sfloat D(int *x1, int *x2) /求几何距离int xN, i = 0; for (i = 0; i N; i+) /向量相减xi= x1i - x2i; return Mol(x); /再求模void check(int *x1, int *x2)float xs = 0, xd = 0;xs = S(x1, x2);cout相似度xs=xs Smax) /先判断S，若S大于阈值再计算几何距离xd = D(x1, x2);cout几何距离xd=xdendl;if (xd Dmin) /如果几何距离小于阈值则判断为相似cout 这两个文件内容确实可能相似endl;else cout 这两个文件内容可能不相似endl;return;cout 这两个文件内容不相似endl;

展开阅读全文