使用K-means算法对文档进行聚类

||                                                                                                                       
已邀请:
        我假设您的困难在于创建特征向量?通过以下方式为每个文档创建特征向量 收集所有单词以形成一个巨大的向量 将向量的元素设置为项数。 例如,如果您有
Document 1 = the quick brown fox jumped over the brown dog
Document 2 = the brown cows eat hippo meat
然后,单词的总集合是[the,quick,brown,fox,jumped,over,the,dog,cows,eat,hippo,meat],文档向量是
Document 1 = [1,1,2,1,1,1,1,1,0,0,0,0]
Document 2 = [1,0,1,0,0,0,0,0,1,1,1,1]
现在,您只有两个巨大的特征向量,可以用来表示文档,并且可以使用k-means聚类。正如其他人所说,欧几里得距离可以用来计算文档之间的距离。     
        有各种距离功能。一种是欧几里得距离。     
        您可以将欧几里德距离公式用于n维系统。
sqrt((x1-x2)^2 + (y1-y2)^2 + (z1 - z2)^2 ... )
    

要回复问题请先登录注册