喷神(浙东匹夫)-第258章上菜的路上还能边走边烹饪

年，才能攻克全部技术难点。

但是，这5年不是‘行百里而半九十’的，而是按照一个个技术阶段分别攻克的。他们要实现的最终目标，是‘通过让人工智能算法，识别出一个视频中，哪几帧画面才是决定全篇调性、故事主题的‘主要内容/中心思想’。

然后，再通过精读识别这些帧的画面上，有多少人物、什么动作、发生了什么故事’，最后总结出‘这视频大致是在说讲怎么样一个故事’。”

冯见雄说到这里的时候，稍微停顿了一下。也观察了杰克马的接受度，又通俗解释了几个点。

他的这番理论，如果都用术语表述，可能比较晦涩。

但是，举个小学生都懂的例子，横向对比一下，就通俗了——谷歌科学家们，在调教“深度学习”型人工智能、理解人类语言文字/图像信息的时候，其实有点儿像老师给小学生上语文课。

相信小学生都记得，当年语文课的时候，老师会不厌其烦问你：这篇课文的主要内容是什么？中心思想是什么？线索是什么？

很多小学生当初肯定是内心有一万头羊驼奔腾而过：尼玛！老子知道这个课文说了啥，看懂不就好了？你问个屁的“主要内容”、“中心思想”啊！考试答错了还扣分！

但你别说，调教机器人学语文的时候，还真得严格按照“主要内容”、“中心思想”这么一步步总结下来。很多人类觉得可以靠本能绕过去、或者省略掉的步骤，机器是绕不过去的。

杰克马很快就懂了，示意他继续：“那么，然后呢？”

冯见雄继续解说：“既然知道谷歌的技术路线了，那么我们就可以推断：在实现最终极的目标之前，谷歌需要先解决‘读懂一张图里发生的故事’的问题，然后再考虑‘如何选出一个视频中最能体现中心思想的那几帧’。

那么，距离‘读懂一张图里的故事’这一步，

笔奇阁