不不,这远远不够!
想要达到linhui算法处理文本那种水平,我们起码需要百万级别文本-摘要序列组成的语料库做训练集。
而这还只是冰山一角。
我们还需要构建一个10^4级别带人工打分标签的文本–摘要序列作为验证集。
以及一个10^3级别的个人工交叉打分一致的文本–摘要序列作为测试集。
否则我们的衡量模型很可能达不到linhui搞得那个模型那种置信度。”
哈雷·普莱斯:“你的话确实有道理!
为了缩小边际误差最实际的方法就是增加样本数量。
百万级别文本-摘要序列组成的语料库倒是好说。
这个相比于十万级别的语料库。
构建难度只是线性增加而已。
但是你确定我们要构建你说的那般庞大的带人工标记的验证集和测试集吗?
仅仅是带人工打分标签的文本–摘要序列验证集保守估计就需要我们花费近一个月的时间去搭建。
这还得是我们还其他语言学专业通力合作不产生嫌隙的情况下。
而涉及到10^3级别人工交叉打分一致的文本–摘要序列测试集更是难上加难。
以前我们只构建过10^2级别的。
测试集的搭建每上涨一个数量级相应的构建难度可是指数级的往上增长。
先前我们为测试提取式摘要算法构建的那个150条文本交叉打分一致的测试集就用了将近两个月的时间。”
而且为什么我们还要引入人工因素?
这样的话不是相当于又回到以前开发那种带有主观色彩的准确度评判标准的老路上了吗?”
埃克莱尔·基尔卡加:“这也正是我想表达的意思。
本来我也觉得不可能参照linhui的思路搞出新的衡量标准。
即便我们能按着linhui的技术路线走。