今天读了一篇关于intelligent user interface的文章,西北大学的团队开发了一款帮助演讲者自动换页的工具,挺有意思的。从功能上来讲,具体分为两类:第一种功能是direct control,就是演讲者直接说next/previous slide, please, 那么软件自动翻到下一页或者前一页。这个就类似于我们直接使用Siri设置个提醒啊闹表之类的,是很明确的command。
第二类更有意思,就是indirect control,就是软件会根据演讲者说出的words自动匹配slide content,并为其跳转到相应的slide。具体来讲indirect control也分为两种模式:第一种是linear presentation mode, 换言之就是默认你是顺序演讲,这样软件需要作出的判断就是当你演讲到当前slide的结尾时帮助你换到下一页,这个操作的实现只需要简单的syntac match就可以了。第二种是probabilistic model,这个模式下软件会根据你的演讲words匹配每一页PPT的内容,然后根据概率跳转到它推测的那一页。这个功能的应用场景是,比如有一个lecturer经常参加讲演,每次基本上演讲的是相同的内容,但是还是需要为不同的场合决定不同的演讲时间,subtopic等等,如果每次都需要重新组织PPT也挺烦人的,有了这个软件的好处就是演讲者可以自由地选择topic,然后软件会自动跳转到对应的页面,完全不用考虑PPT本身的organization。另一个场景就是演讲时需要回答听众的问题,那么针对某一页PPT手动跳转来跳转去也比较蛋疼,所以自动化是一件好事:)。这个模式的核心就是随机性,不过也需要先说明command,比如skip back 。
不过如果有这第二类更高端的黑科技,干嘛还需要direct control呢,原因在于软件的准确率也不是100%,如果没有及时换页演讲者总归得有个法子换页啊。。
所以问题的关键变成如何匹配slide content和演讲者的words,这点软件的策略其实是只用做到shallow understanding,也就是syntac match,基于演讲者的words和PPT内容是比较consistent这个前提。具体来讲分为两部分:
1. 文本内容识别。软件的做法是根据演讲者words的变位来提升tolerance,比如演讲者说了一个动词,那么软件会追溯这个词的词根,以及根据词根演绎出的不同的时态,语态甚至名词/形容词形式。如果是linear presentation mode, 那么只需直接根据location match就就可以了。如果是probabilistic match,那么软件会为每一页slide设置一个初始值,然后根据baye‘s law,来不断更改他们的概率,直到某一页slide dominantly win,那么软件就会执行跳转。
2. 非文本内容识别,比如slide 含有graph,table等object,那么这时候软件会追踪包含this table/graph之类的关键词from 演讲者words。
不过因为是shallow match,这个软件也有缺点。那就是如果演讲者使用的词汇实际上不只是slide content的变位,而是连篇的paraphrase或者同义词,那么软件match的准确率就会大打折扣。
这篇论文的链接在此:http://tinyurl.com/zom7q7r
网友评论