摘要:本文引入语义的概念,通过计算结点间的语义相似度,构建了基于语义的P2P局部性网络模型并设计了基于语义的推荐式搜索算法。该算法能根据搜索请求中的语义信息,把网络中的结点推荐给搜索源结点。系统实现表明,基于语义P2P的信息检索,能够减少搜索在P2P网络中的回路,从而减少P2P网络中的重复消息数量,提高了检索的效率。
关键词:Peer-to-peer;P2P信息共享;语义P2P搜索
中***分类号:TP393 文献标识码:A文章编号:1007-9599 (2011) 07-0000-02
Technology Research Based on Semantic P2P Information Sharing
Xie Weichao
(China Electronic System Engineering Corporation,Beijing065201,China)
Abstract:In this paper,by introducing the concept of semantics and calculating the semantic similarity among peers,we set up the partial P2P network model which is based on semantics.On the basis of this model,we design the recommendation searching algorithm which is based on semantics.The algorithm require searching request include semantic information,which can be used to recommend peers to the requesters in the network.The performance of the system shows that the partial P2P network model and the related P2P recommendation searching algorithm can help to reduce the number of peers and the route of searching in P2P networks,which in turn lead to a decline of the replicated messages in P2P networks and the efficiency of searching process.
Keywords:Peer-to-peer;P2P Information Sharing;Semantic P2P Search.
一、基于语义的P2P局部性网络模型
局部性网络中结点会按照一定机制聚集在一起,那么这些结点就形成了簇(Cluster),在局部性网络中,对于任何两个结点p和q,将满足p和q在局部性网络语义距离定义为p和q的簇距离(Cluster Distance),本文将该值记为(p,q)。
局部性构造的基本原则是依据结点p和q的簇距离来决定结点p和q是否连接,即:
(1)
其中Pr(Connect(p,q))表示结点p和q存在连接的概率。
在语义相似度研究领域,研究者们提出了许多概念相似性的度量方法[1]。Rada[2]证明两个概念在概念层次拓扑上的最短路径,可有效地定义两个概念的相似度。显然,在按此种方法计算概念A和概念B相似度时,如果限制只能沿概念层次拓扑向上求最短路径,在向上求解时一定会找到一个共同概念C,而概念C到概念A和概念B的较长的一条路径长度实际上就是本文定义中(p,q)(此处只考虑每个结点只有一个概念的情况)的近似值。
上面给出的实际上是如何计算两个概念A和概念B的(A,B)值,而一个实际的P2P结点上共享的信息将是包含概念层次拓扑上的多个概念的概念集合,即
(p)={A1,A2,..,Am},(q)={B1,B2,..,Bm}。
此时两个结点的(p,q)值可在两个概念的(A,B)值和结点对信息概念存在的兴趣差别(可用式(2)算出)基础上按式(3)进行计算:
(2)
(3)
式(2)中的Di是指结点p共享信息中含有概念Ai的文档个数,所以I(p,Ai)就是结点p中包含概念Ai的文档个数在其共享文档中占的比例。以该比例值为基础就能完成结点距离值(p,q)的计算。
文献[2]同时指出,两个概念在概念树上所处的深度也决定了两个概念的相似程度。提出了一种有效地度量IS-A概念树上两个概念之间相似度的函数,见公式:
(4)
其中:T1,T2是概念树上的任意两个概念;l是它们在概念树上的最短路径;h是它们的深度。公式(4)表明,两个概念的相似度关于l单调递减,关于h单调递增。α和β用来调整l和h对概念相似度的影响程度。
基于以上语义相似度的度量方法,能够把随机分布的结点,按照语义相似的思想,把内容相近的结点在局部形成簇,完成局部性网络的构造。
二、基于语义的P2P局部性网络推荐式搜索算法
P2P推荐式路由[5]的工作过程如***1所示,即假定从结点s发出一查询请求req,req首先发往p1(可能包括其它结点,此处略去),如果p1可以应答,则应答s;否则,p1根据一定的计算推荐s往p2(也可能是包含p2在内的多个结点)处路由,此时,s路由req到p2,p2处的处理和p1一样,依此类推,直到req的应答满足要求(在***1中是找到d),查询结束。
***1推荐式路由
通过将P2P推荐式路由与语义相结合就构成了P2P的搜索算法。这里语义主要用于构成产生下一跳的View集。算法如下:
***2基于局部性的语义搜索算法
三、结果分析
通过编程实现一个原型系统对局部性P2P网络模型及其上的搜索算法进行验证。系统模拟搜索文献的过程,进行了三次搜索,得到的数据如下:
***3搜索结果分析
***4推荐结点语义相似度分析
如***3和***4,主要从两个方面对搜索结果进行分析,一是对每跳的搜索数量进行分析,从***3不难看出,前几跳的搜索数量不是很多,会出现一定的波动。这说明搜索主题不是当前搜索结点所在簇的所感兴趣的主题,经过几次推荐之后,搜索数量上升并保持稳定,这说明根据基于语义的推荐已经查找到对搜索主题兴趣度比较高的簇,因为本系统对于搜索过的结点不在进行重复搜索,所以在对搜索主题兴趣度比较高的簇查找完毕后,再推荐的结点就是对搜索主题比较感兴趣的一些零星结点,所以搜索到的数量开始下降。
另一方面,从推荐结点与搜索主题的语义相似度方面,也能够体现出搜索过程。如***4中所示,开始搜索时,推荐结点的语义相似度是比较低的,在找到对搜索主题感兴趣的簇后,结点语义相似度变高。当搜索离开这个簇时,语义相似度又开始下降。
四、结论
本文中基于语义的P2P搜索,通过系统的基于语义的自配置机制,每个peer根据其自身资源条件,尽可能地把与自己具有最相似偏好和行为的peer保持为邻居结点和相关结点。这样在网络中,peer将基于不同的偏好和行为形成不同的簇,并且在同一簇内,两个peer的偏好和行为越相似,则逻辑距离越近,反之亦然。这样,对于某个给定的查询,它的答案只在特定的结点簇,只需在该结点簇处理。通过实验表明,基于语义的自配置机制使peer能够根据信息偏好、行为和查询统计数据综合地确定和调整自己的重要结点的机制,使自己能以较小的代价检索到所需的数据。
参考文献:
[1]Budanitsky A,Hirst G.Semantic distance in WordNet:An experimental,application-oriented evaluation of five measures.In:Proc of the Workshop on WordNet and other Lexical Resources.2001
[2]Rada R,Mili H,Bicknell E,Blettner M.Development and application of a metric on semantic nets.IEEE Trans.on System,Man and Cybernetics,1989,19(1):17−30
[3]陈汉华,金海.SemreX一种基于语义相似度的P2P覆盖网络[J].软件学报,2006,4:1170-1181
[4]曹玮祺.语义Web中统一知识建模方法及机制研究[D].清华大学计算机科学与技术系知识工程学位论文,2003,1-80
[5]Stoica I,Morris R,Karger D.A scalable peer-to-peer lookup service for Internet applications.In:Govindan,ed.Proc.of the ACM SIGCOMM 2001.ACM Press,2001:149−160
转载请注明出处学文网 » 基于语义P2P信息共享的技术研究