和伊芙·卡莉的这次沟通,林灰稍稍有些意外。
伊芙·卡莉领悟的很快,她已经大致了解了先前林灰给他说的应用分布式词向量处理原始数据。
并且初步按照林灰先前所介绍的理论弄了一个分布式词向量的模型。
这个模型虽然效率还不是很高,但已经有内味了。
但她还是不是太明白究竟是如何做到的。
其实这就涉及到监督学习和非监督学习之辩了。
基于监督学习的方法:使用人工或半人工方式构建一批所研究领域内的文档的语料(用专用标记在文中标出要出现在最终的摘要中的句子),然后选取适当特征训练相应的分类器或序列标注器,再用训练好的分类器或序列标注器对新的文档的每个句子进行标注,将标为候选的句子取出后拼接成摘要。
基于非监督学习的方法:无需训练语料,直接使用某种启发式的打分机制(如tfidf、图算法等)为每个句子(或词)打分,以表名其在文章中的重要程度,选取分值最高的前若干个句子作为候选,将其拼接成摘要。对选词类的方法而言,则是选择分值最高的若干词作为文章的关键词,再使用这些关键词以一定的策略选择句子(如按含有关键词的数量等),之后拼接所选句子成为摘要。
基于监督学习的方法尽管能够更容易地捕捉更多细节,达到较好的精度,但其可扩展性也不高,因为不同领域内的规律也不尽相同,而对一个新的领域构建语料库是一个非常耗时耗力的工作。
基于非监督学习的方法因其算法简洁,无需人工知识整理以及构建语料库,因此具有很好的可扩展性,一个领域中应用成熟的方案非常易于移植到其他领域。但往往由于算法过于追求普适性而忽略领域相关的细节,导致抽取结果内容基本涵盖了文章主旨,但却缺少必要的连接句,导致可读性下降。
据林灰了解这个时空的人们主要应用监督学习。