在Folksonomies中搜索。如何解决同义问题?

有人能说明如何在像del.icio.us这样的网站上进行搜索吗? 如果我输入“js”(1),“javascript”(2)或“java script”(3)作为我对美味的查询,我指的是有关Java Script的资源。但是,根据查询,返回的结果集是不同的(del.icio.us系统为“js”和“javascript”查询返回不同的书签集)。 因此,系统似乎并不真正意识到(1)和(2)是彼此的同义词。相反,它会尝试将我的查询与包含相关标签或标题中的查询字符串的书签相匹配。那是对的吗? 您如何“教育”系统所有(1),(2),(3)实际上是同义词,并且无论选择哪个查询,用户都应该看到所有与Java Script相关的资源? 这样做甚至是个好主意吗? 谢谢, 格雷格     
已邀请:
您可以使用LSA或TFIDF等工具来尝试找出数据中包含的概念。这很可能是del.icio.us所做的。     
是的:人脑。 认真地说:以编程方式告知密切相关主题的同义词将是非常非常困难的IMO。有很多标签组合很可能一起出现,比如
javascript
jquery
。当然,你可能能够做一些信息,比如说,
jquery
永远不会在没有ѭ0的情况下发生,因此必须是它的某种子集,但实际上,它确实也会自行发生。如果标记正确,
XML
XSLT
会经常出现,但不是同义词,要知道这一点,你需要有实际知识的人来打电话。 我建议使用预过滤系统来查找同义词的候选者,以及管理员进行实际的同义词。     
没有完美的解决方案。您可以明确地将关键字声明为同义词,其他所有内容都会或多或少地猜测。 一种方法可能是使用距离度量。在美味的情况下,您将汇总两个关键字应用于相同书签的次数。 你可能会得到一些误报。例如,“红宝石”可能与“轨道”一起使用较少,反之亦然,因为“轨道”意味着“红宝石”而“红宝石”意味着“轨道”。这可能是从同义词中删除相关术语的有用属性,这些术语应该或多或少地互换使用。     
您也可以尝试使用WordNet     

要回复问题请先登录注册