相似多少为可知基于谷歌距离的语义相似度为多少时可确定两者为同义词

位置：首页 > 问答专区 >

作者：饲界新知时间：2026-01-13 阅读：206

大家好，今天小编来为大家解答相似多少为可知这个问题，基于谷歌距离的语义相似度为多少时可确定两者为同义词很多人还不知道，现在让我们一起来看看吧！

基于谷歌距离的语义相似度为多少时可确定两者为同义词

词语的语义相似度计算主要有两种方法：

一类是通过语义词典，把有关词语的概念组织在一个树形的结构中来计算；

另一类主要是通过词语上下文的信息，运用统计的方法进行求解。

1.语义相似度

Dekang Lin认为任何两个词语的相似度取决于它们的共性(Commonality)和个性(Differences)，然后从信息论的角度给出了定义公式：

其中，分子表示描述A，B共性所需要的信息量；分母表示完整地描述A，B所需要的信息量。

其中，Sl，S2表示两个义原，S表示离它们最近的共同祖先，p(s)是该结点的子结点个数(包括自己)与树中的所有结点个数的比值。

刘群、李素建以基于实例的机器翻译为背景，认为语义相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。两个词语，如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大，二者的相似度就越高，否则相似度就越低。

对于两个词语W1，W2，如果记其相似度为Sim(W1，W2)，其词语距离为Dis(W1，W2)，根据刘群、李素建的公式：

其中a是一个可调节的参数。n的含义是：当相似度为0.5时的词语距离值。

词语距离和词语相似度是一对词语的相同关系特征的不同表现形式，如果两个概念之间的语义距离越近，就认为它们越相似，因此二者之问可以给出一个简单对应关系：

其中，Dis(Wl，W2)为树中W1，W2所代表的结点在树中的距离，k为比例系数。

一般地说，相似度一般被定义为一个0到1之间的实数。特别地，当两个词语完全一样时，它们的相似度为1；当两个词语是完全不同的概念时，它们的相似度接近于0

2.语义相似度的计算方法

词语距离有两类常见的计算方法，一种是根据某种世界知识(Ontology)或分类体系(Taxonomy)来计算，一种利用大规模的语料库进行统计。

2.1根据分类体系计算词语语义距离的方法

该方法又称基于树的语义相似度研究方法，基于树的语义相似度计算的算法大体上分为两种：一是基于距离的语义相似性测度；二是基于信息内容的语义相似性测度。一般是利用一部语义词典(如Wordnet，Hownet)，语义词典都是将所有的词组织在一棵或几棵树状的层次结构中。在一棵树状图中，任何两个结点之间有且只有一条路径。于是，这条路径的长度就可以作为这两个词语概念间语义距离的一种度量；而且随着概念所处结点越深，其所包含的语义信息越丰富，越能准确地决定概念的性质，它们对语义相似度起着决定作用。

2.1.1基于树状层次计算语义相似度的基本思想

例如，在图1(取自Wordnet本体中的一小部分)中，boy和girl之间的最短路径是boy—male—person—female—girl，最小路径长度为4。而teacher和boy之间的最小路径长度为6。 girl比teacher在语义上更接近于boy。该测度算法在基于Wordnet的语义网中获得了较好的计算结果。

2.1.2基于《知网Hownet》的语义相似度计算

由于《知网Hownet》中词语不是组织在一个树状的层次体系中，而是一种网状结构；同时借助义原和符号对概念进行描述。对于两个汉语词语Wl和W2，如果W1有个n义项(概念)：Sll，S12，…，S1n，W2有个m义项(概念)：S21，S22，…，S2m，刘群、李素建认为W1和W2的相似度是各个概念的相似度之最大值，也就是说：

为了更加精确地计算出词语的语义相似度，在《知网》中对一个实词的描述可以表示为一个特征结构，该特征结构含有以下四个特征：

*第一基本义原描述：其值为一个基本义原，将两个概念的这一部分的相似度记为Siml(Sl，S2)；

*其它基本义原描述：对应于语义表达式中除第一基本义原描述式以外的所有基本义原描述式，其值为一个基本义原的集合，将两个概念的这一部分的相似度记为Sim2(S1，S2)；

*关系义原描述：对应于语义表达式中所有的关系义原描述式，其值是一个特征结构，对于该特征结构的每一个特征，其属性是一个关系义原，其值是一个基本义原，或一个具体词。将两个概念的这一部分的相似度记为Sim3(S1，S2)；

*关系符号描述：对应于语义表达式中所有的关系符号描述式，其值也是一个特征结构，对于该特征结构的每一个特征，其属性是一个关系义原，其值是一个集合，该集合的元素是一个基本义原，或一个具体词。将两个概念的这一部分的相似度记为Sim4(S1，S2)。

通过以上分析，可知在实际的《知网》结构中，由于各个义原所处的层次不一样，因而它们对词语相似度的影响程度也不一样，也就是说部分相似性在整体相似性中所占的权重是不一样的，权重(百分比)用β表示，于是，在知网中，概念的整体相似度可以记为：

其中，β(1≤i≤4)是可调节的参数，且有：β1+β2+β3+β4=1，β1≥β2≥P3≥β4。后者反映了Siml(Sl，S2)到Sim4(Sl，S2)对于总体相似度所起到的作用依次递减。由于第一独立义原描述式反映了一个概念最主要的特征，所以应该将其权值定义得比较大，一般应在0.5以上。在以上计算中，最后求加权平均时，各部分取相等的权值。这样，就把两个词语之间的相似度问题归结到了两个概念之间的相似度问题。

2.2利用大规模的语料库进行统计

基于语料库的词语相似度研究大都采用了上下文语境的统计描述方法，即认同这样一个论断：词语的上下文可以为词语定义提供足够信息。词语向量空间模型是目前基于统计的词语相似度计算策略使用比较广泛的一种，算法复杂度也能够实现的模型。该模型事先选择一组特征词，然后计算这一组特征词与每一个词的相关性(一般用这组词在实际的大规模语料中以该词在上下文中出现的频率来度量)，于是对于每一个词都可以得到一个相关性的特征词向量，然后利用这些向量之间的相似度作为这两个词的相似度。

由计算机自然语言处理专家RudiL．Cilibrasi和Paul M.B.Vitanyi[2026.12]提出的语义相似度计算方法，该方法理论基础涉及信息论、压缩原理、柯尔莫哥洛夫复杂性、语义WEB、语义学等，基本思想是把Intemet作为一个大型的语料库，以Google(对其它的搜索引擎如百度同样适用)作为搜索引擎，搜索返回的结果数作为计算的数值依据，其计算公式如下：

其中，NGD(Normalized Google Distance，介于0与1之间)表示标准谷歌距离(以此衡量语义相似性大小)，f(x)，f(y)分别表示含概念x，y的数，f(x，y)表示同时含有概念的数，N表示Google引用的互联网上的总数。

可以以一次实验来说明，假设用Google搜索词语'horse'返回46700000(记为f(x))条结果，搜索词语'rider'返回结果数为12200ooo(记为f(y))，搜索同时含'horse，rider'的数是2630ooo(记为f(x,y))，Google共引用的数是N=8058044651，代入上述公式求得：

NGD(horse,rider)≈0.443

3.两类主要语义相似度计算方法的比较

关于不可知论的问题。

我也谈谈对可知论的认识

原来学马哲的时候，我相信世界是可知的，是可以认识的，但是有一次我在想物质和意识的本源性问题时突然感觉到这个世界亦或这个宇宙是不可认识的。

对人单个个体而言，首先他的生命是有限的，他的认识能力更是有限的，正如前面网友说的圆圈理论一样，一个人学习的知识，知道的东西越多，形成的知识圈半径越大，这样圈外的不可知的东西也越多。

对于人类这个群体而言。接上面的描述，有人或许会说，一个人的生命是有限的，但是知识的获得过程还有一个从上辈人或者是从已经保存下来的资料等方面来获得，那么人类某一天或许能认识世界。我对这个问题的回答是，这是人类群体知识积累过程，但是不要忘记了，人类对整个浩瀚的宇宙而言，只是沧海一粟，人类即使能了解人类所处的人类世界的一切知识，但是人类凭什么来了解已经过去的那些事物以及尚未发生的那些事物。

所以，对于人类来讲，我觉得这个世界是不可知的。但是至于为什么我们要去认识世界，这个问题其实很好回答，其实是我们自己给自己一个目标，让我们有生存下来的勇气，以及有生存下来的物质或精神环境。

楼主关于宇宙计算机的计算速度以及人类认识能力发散速度的想法，我深表赞同，我觉得人类认识能力的发散速度根本比不上宇宙变化速度，而且我觉得甚至人类认识能力的发散（发展）速度和宇宙变化速度根本不在同一数量级上。

我觉得人类认识宇宙好比是一只小蚂蚁爬在一张大椅子上想搬起这张大椅子上一样的情形，这是多么的可笑啊。它的力量根本和椅子的重量比起来是可以忽略不计。退一亿步说，即使某一天这只小蚂蚁吃了某某药后力大无穷，这个时候它能够搬起这张椅子么，答案仍然是否定的，因为它根本找不到支点，你叫它怎么办。那么，为什么这只小蚂蚁还要在椅子上奔波呢，因为，它只有认为椅子是可以搬动的，它才有活下去的动力，于是它认识了它周围的一片椅面，并且在这个椅面上找到或者是制造到维持生活的物品以及一些精神层面的东西，至到老死，......直到后面发展的蚂蚁群体灭忘，接下来，又有一个新群体在椅子上成长，繁盛，灭亡..........

关于有网友说能造出一台超级计算机来模拟这个宇宙，预测未来的这个问题，我觉得这也是不可能的。是不可能造出这样的计算机，假设宇宙中事物发生时间为5s，人造的模拟计算机的发生时间一定不能超过5s，这好比如，在编程的时候某一个问题机器码的执行时间是最短的，你用越高级的语言最后执行的时间越长。即使能造出和宇宙执行时间相同的计算机，但是你想想啊，你的这个人造计算机是在宇宙之中，你所模拟的宇宙中现在有了这么一台计算机，那么你的这台人造计算机所模拟的宇宙已经变化了，你必须要重新建模，重新模拟，如此往复，你怎么样都不能得到这台想包含它自己的计算机模型，有点像无穷嵌套的味道，也就是说只能接近而不能完全等同。

关于LZ说的计算机的逻辑、熵问题有同感，计算机采用1、0制度，其实是对自然界信息的一种近似模拟，把信息中的某些现在看起来不太重要的部分忽略了，一旦换一种情况的时候，误差就有变大，甚至出现错误。

就写到这里吧，我不是学物理的，也不是学哲学的，也不是学文学的，所以在理论上，以及文字描述上可能都不太到位，但是相信我要表达的意思已经达到十之六七了，有些观点可能不太对，只是自己的想法而已，闲着没事的时候想想也蛮有意思的，希望LZ批评指正，谢谢