的方式还是抽取式新闻摘要。
抽取式顾名思义就是按照一定的权重从新闻原文中寻找跟中心思想最接近的一条或几条句子。
抽取式摘要还在用着“古老”的textrank排序算法。
这种算法大体思想是先去除文章中的一些停用词,之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于0.0001。
之后再对上述得到的关键语句进行排序,以期能得到想要的摘要。
客观来说,这种算法虽然也挺高效。
但问题在于抽取式摘要主要考虑单词词频,并没有考虑过多的语义信息。
也正因为如此,这种抽取式摘要很难获取复杂新闻的核心内容。
而且这种摘要方式的一个极其明显的弊端在于。
抽取式摘要对英文新闻还算能凑合着用。
但对于中文新闻完全是无所适从的状态。
总而言之,抽取式的摘要目前虽然已经比较成熟。
但是抽取质量及内容流畅度均差强人意。
正因为抽取式摘要的种种不足。
之后又出现了生成式摘要算法。
生成式摘要算法得益于神经网络学习研究的深入。
这种摘要以一种更接近于人的方式生成摘要。
这就要求生成式模型有更强的表征、理解、生成文本的能力。
生成式则是计算机通读原文后,在理解整篇文章意思的基础上,按机器自己的话生成流畅的概括。
生成式新闻摘要主要依靠深度神经网络结构实现。
生成式摘要在理解新闻内容方面相比抽取式摘要有着先天优势。
但这种摘要也不是完全没有弊端。
这种摘要方式很容易受到原文长度的制约。
当把一篇很长新闻放在生成式摘要算法前。
其表现大概率为:(⊙﹏⊙)太长不看!