伊芙·卡莉虽然不知道林灰为什么突然这么问。
但这种有可能得到林灰提点的机会,伊芙·卡莉怎可能轻易放弃。
伊芙·卡莉先是给林灰陈述了一下当前西方在计算语义文本相似度的时候向量通常客串的角色。
而后伊芙·卡莉才正式开始回答林灰先前问她的问题:
“引入向量后才能使得机器更方便的处理语义文本的信息。
如果不引入向量的话在处理语义文本相似度的时候我们能选择的方案很少。
而且不引入向量的情况下,我们在计算语义文本相似度所选择的方案多多少少都有点low。
比如说,基于字符串的方法,这种方法都是对原始文本进行比较。
主要包括编辑距离、最长公共子序列、n-gram相似度等来进行衡量。
就以编辑距离来说吧,其衡量两个文本之间相似度的根据是依据两个文本之间由一个转换成另一个所需的最少编辑操作次数。
这种算法界定的编辑操作包括增加、删除、替换三种。
最长公共子系列是根据……
这套衡量标准甚至有点像microsoftword格式来衡量一般。
基于字符串的方法虽然原理简单、实现方便。
但这种方法没有考虑到单词的含义及单词和单词之间的相互关系。
涉及到同义词、多义词等问题都无法处理。
目前很少单独使用基于字符串的方法计算文本相似度。
而是将这些方法的计算结果作为表征文本的特征融入更加复杂的方法中。
除了这种方法之外,还有……”
林灰对于这些也是了解一些的。
他只是想通过伊芙·卡莉之口判定一下这个时空的研究到底是什么进展的。
基于字符串通过编辑操作、最长公共子系列的方式衡量语义文本相似度确实有点低端。