第154章你渴望推开那扇门么(中)_穿越黑龙江1940

　　熟悉不过的，很少出现错误。

　　但毕竟两个时空是有些区别的。

　　林灰不小心表暴露了什么岂不尴尬。

　　在常人面前如果林灰不小心暴露了什么专业上的马脚可能很难被发现。

　　如果是直接同伊芙·卡莉交流的话。

　　面对着一个同行直接交谈的话，林灰并不能保证不会露出马脚。

　　有翻译在的话，多多少少多了一层缓冲。

　　尽管如此，林灰说话依旧要慎之又慎。

　　伊芙·卡莉向林灰着重介绍了这个时空里人们是如何评估文本相似度的。

　　按照伊芙卡莉的表述，林灰才知道。

　　原来此时这个时空的人们主要是利用基于知识库的方法来计算语义文本相似度的。

　　不过这个时空人们主要是利用基于网络知识的方法来计算的。

　　林灰知道这种方法的。

　　这类方法是基于知识库计算相似度的一种。

　　这种方法主要利用网络大型知识库资源，如Wiki百科和摆渡百科等。

　　通过网页内容和网页间的超链接进行相似度计算。

　　随着互联网的快速发展，网络知识愈加丰富。

　　能够充分利用网络中的资源进行语义文本相似度计算自然是一个不错的思路。

　　不过基于知识库的方法来计算语义文本相似度可不只是这一种方法。

　　据林灰所知基于知识库的语义文本相似度计算方法根据知识库的类型其实是可以分为两大类。

　　除了基于网络知识方法的话。

　　还有一类是基于本体的方法。

　　这类方法运用结构化语义词典进行计算。

　　其基本思想就是运用这些语义词典中包含的概念信息和概念间的层次关系进行语义文本相似度计算。

　　按理说既然想到了基于知识库的语义文本相似度计算方法的话应该首先想到基于本体的相似度计算方法才对才对啊。

　　为什么没先想到基于本体的方法？

　　反而先想到了基于网络知识的方法？

　　回想起伊芙先前的自我介绍，林灰恍然大悟。

　　伊芙的团队没想到这种方法也可以理解。

　　毕竟伊芙他们的团队原本是和谷/歌方面深度合作的。

　　基于网络知识的方法利用网页内容和超链接相似度进行计算的话虽然不容易。

　　但谷/歌的老本行PageRank算法引入到NLP领域后实现的功能本就跟这个差不多。

　　这样看来，和谷/歌方面的团队有过深度合作关系的伊芙团队忽视基于本体的方法而直接选择基于网络知识的方法也是可以理解的。

　　说起来基于网络知识方法计算相似度实现起来并不容易。

　　毕竟网页中知识颗粒度较粗。

　　说白了就是网页中有用的东西少。

　　加之部分网页的知识结构化程度较低。

　　如果直接对所有的网页链接进行分析，会导致知识含量稀疏、计算困难等问题。

　　因此必须找网页结构高同时知识内容集中的网页才适合开发基于网络知识评估文本相似度的方法。

　　什么样的网页具有这一特征呢？

　　Wiki百科和摆渡百科。

　　只有这两个对应的网页同时具备网页结构程度化高以及网页中有用的东西多这两点。

　　也正因为如此，林灰记得前世搞/基于网络知识的文本相似度识别的主要就是谷/歌和摆渡两家。

　　说起来某度能长期居于B/AT之首还是有些实力的。

　　至少不像外人以为的那般花架子。

　　伊芙·卡莉之后又详细地介绍了一些基于网页知识文本识别度的内容。

　　之所以详细介绍这方面的东西。

　　林灰知道的，伊芙·卡莉其实还是好奇林灰究竟是使用何种相似度模型来评估文本摘要和摘要之间的语义相关的？

　　林灰没有直接回答。

　　而是反问道：“关于使用向量介入进行语义文本相似度计算你怎么看？”

　　请收藏：https://m.gwylt.com