繁体版简体版

笔奇阁 > 穿越：2014 > 第156章学术工具人get√

第156章学术工具人get√（6 / 9）

上一页目录 → 下一页最近阅读推荐本书

很早之前就有人进行了尝试。

早在上世纪末期就有人提出了潜在语义分析模型。

潜在语义分析模型是基于空间向量模型（vsm）而提出的。

潜在语义分析模型其基本思想是在得到文本的空间向量表示后。

通过奇异值分解，将高维且稀疏的空间向量映射到低维的潜在语义空间当中。

在得到低维的文本向量和单词向量之后。

再用余弦相似度等度量方式来计算文本间的语义相似度。

潜在语义分析的本质思想就是通过降维来去除原始矩阵中的噪音，从而提高计算准确度。

虽然这种思路不错，但这种方法并没有普适性。

这是因为潜在语义分析模型在架构模型的过程中采用的奇异值分解。

这种做法使得计算复杂度增高，并且可移植性较差。

在这种方法提出来之后。

并不是没人尝试对这种方法进行过改进。

同样是上世纪末。

有研究人员提出了概率潜在语义分析模型。

这种模型是基于概率，而不是基于奇异值分解。

这种模型相比于潜在语义分析模型的主要差异是增加一个主题层。

而后使用期望最大化算法训练主题，并找到一个概率性的潜在主题模型。

以此用来预测文本空间向量中的观察数据。

在这种概率潜在语义分析模型中，多义词被归入不同的主题下，而同义词被归入同一主题下。

这样可以避免同义词和多义词对文本相似度计算的影响。

然而，概率潜在语义分析模型的参数随着文档数量的增加而线性增长。

很容易出现过拟合和泛化不良。

这种情况很大程度又是因为维度爆炸。

因为过拟合只在高维空间中预测相对少的参数和低维空间中预测多参数这两种情况下发生。

一个为了避

『加入书签，方便阅读』

上一页目录 → 下一页最近阅读

本站为网友提供小说上传储存平台，为网友提供在线阅读交流、txt下载，所有文学作品均源于网友的上传
用户上传的文学作品均由网站程序自动分割展现，无人工干预，本站自身不编辑或修改网友上传内容（请上传有合法版权的作品）
如发现本站有侵犯版权内容的，请向本站投诉，一经核实，本站将立即删除相关作品并对上传人ID账号作封号处理
Copyright 2021 笔奇阁 All Rights Reserved. xml地图