终于考完试啦,好开心啊。两个月来忙着赶due,都没更新了。趁着三个月的假期好好学习,好好写作。
一周前,我在王昊奋的老师的知识图谱学习群组里面看到了老师将会来澳大利亚黄金海岸参加一个关于语义技术的学术会议,心向往之。忽然想起,黄金海岸离布里斯班不就两个多小时的行程吗?心念一动,决定去凑一下热闹。
其实这个做出这个决定还是经过了一番思想斗争的。一来是会议需要的报名费是笔不小的支出。如果不是国家的资助,我可能都不会有这个参会的念头。二来是会议的举办时间恰好是考试周,按照行程安排,我将会在开完会后第三天考试。不过对于知(re)识(nao)的向往最终还是压倒了这些忧虑。更何况我千辛万苦跋山涉水来到国外,放着这么一个增长见识的大好机会不好好利用,那我出国交换干嘛?
赶着昆士兰州的火车,两个小时后抵达黄金海岸。在住宿处落脚后,就开始做一些参会准备。这次在黄金海岸举行的会议是第7届国际语义技术联合大会(The 7th Joint International Semantic Technology Conference)。这个会议的前身是亚洲语义网会议( Asian Semantic Web Conference),第一届是2006年在北京举行。可能也是因为这个原因,这次来参会的人以基本都是亚洲人,以中日韩为主,偶见泰国和印尼人,以及部分来自英国、德国和澳洲本地的人。不过由于旅途奔波,在浏览了一遍大会安排,划定了几个感兴趣的主题,过了一遍这些论文的摘要后就睡了。
第一天
大会的第一天是tutorial day,意思是整一天都是tutorial和workshop。可能是由于最近QA比较热,所以第一天几乎所有tutorial 和 workshop 都是QA的主题,至少是和QA有关。大会第一天的的第一次tutorial,由德国University of Halle的 Andreas Both 博士主讲。Andreas Both 博士同时还在德国排名前五的IT公司DATEV 工作,所以对于工程上的问题很有见解,因此他的主题也是和工程有关的"Rapid Engineering of Modular Question Answering Systems using the lightweight Qanary Approach"("使用轻量级的Quanary方法快速开发组建式问答系统")。
什么是组件式系统( Modular Systems)?按照我的理解就是,把系统的各种功能拆解分离,为每一个功能设计特定的模块,然后用一个系统的核心(Kernel / Pipeline)把各模块连接起来,就像搭乐高积木一样。这一点挺符合面向对象编程的精神的。于是Both博士开始和我们balabala了一堆什么是问答系统,问答系统有多么重要多么有用。接着就是tutorial的重头戏,介绍Qanary方法和Qanary框架。这个Qanary框架同其他组件式方法和框架并无多大不同。简单来说,整个框架的核心——Pipeline组件提供其他功能组件的接口,用户可以基于Qanary提供的组建模板实现自己想要的功能组件,按照Both博士的意思,他在开发一个基于知识库的问答系统时,开发了一个命名实体识别(NER)组件,一个关系识别组件(relation detection),几个连接不同知识库 (wikidata, DBpedia, YAGO) 的组件,以及其他功能组件,这些组件在Pipeline控制的数据流下协同工作,还可以随时拔下一个组件换上一个更好的。因此用户要做的就是实现自己想要的组件(可能还要有其他工作,比如定义一些vocabulary)。
Qanary结构图
以下贴上一些相关的资源:
在最后Both博士还组织了一场15分钟的实践,测试我们对于SPARQL的运用,可惜由于时间问题,不能进行后面的代码实战,遗憾。
第二场tutorial由国内知识图谱大咖王昊奋老师主讲。王昊奋老师是国内最早接触,学习,推广知识图谱的专家之一,征战各种大赛,在各大会议和期刊上发文灌水,近几年还与人一同创业,创办"深圳狗尾草智能科技有限公司",开发聊天机器人产品。现在已经有了"公子小白","琥珀"等产品。王昊奋老师在tutorial上给我们详细阐述了聊天机器人的诞生,发展,近况,所用到的各种架构,技术,对于每一种典型技术直接搬出paper来解释其精义.这学术水平真不是盖的。下面给王昊奋老师的产品打个call.
王老师的tutorial后是两场workshop。分别由由两位日本的专家来讲。其中一位老专家讲的是一个很有趣的应用,使用语义网技术来规划行动。大体的意思就是把各种设施(facilities), 服务(services), 动作(action)存储在RDF中,当用户说出一个需求,比如收"想去看狮子",那么系统就会解析这句话,判断出用户是想"看"一些东西,然后通过推理找到动物园里才有狮子,就会去查找各种动物园,然后规划出行动方案。在后面的其他演示中我还会看到日本人在应用方面的各种脑洞大开。
作为学术会议,一个惯例是在早上和下午的会议时段中间插入一段茶歇时间,大家可以一边喝茶吃点心,一边攀谈聊技术。毕竟搞学术不能成天呆在实验室埋头苦干,这中上个时代的科研方式早就一去不复返了。现代科研讲究合作,讲究信息流通,科研人员之间多多交流,互相启发。于是学术会议的一个重要功能也是提供社交平台,让来自不同地方的学者互相交流,哪怕只是混个脸熟,知道其他人最近在忙活什么,关注什么,对自己的工作也是大有好处的。嗯,咖啡,奶茶和点心的味道都挺不错的。我也有机会和一些跟着教授一起来的学生们聊了两句,算是进行了一些学术圈里的非学术交流吧。
休息时间,社交时间
这下午茶还是不错滴
第二天
大会的第二天九点再次开始,不过这次的大会很奇怪,开幕致辞居然是放在第二天早上才开始。可能是举办方认为第一天的tutorial day不算是正式的学术活动?开幕致辞后,是本次大会第一位展示的嘉宾,也好似邀请发言人(invited speaker)的key note talk。作为开场嘉宾,Stephen教授是帝国理工学院(Imperial College London)教授计算机逻辑推理的专家。不得不说,这次参会的所有发言人,我认为这位Stephen教授的口语是最让我喜欢,让我听着毫无障碍。其他的发言人都或多或少有一点口音,听起来有点费力(吐槽一下日式口语......)。然而也是这位教授,讲的内容是我最听不懂的。没办法,之前没怎么了解过这方面的知识,在加上讲的是前沿的科研成果,整个talk下来我就全程睁开眼睛放空大脑。后来再morning tea时王昊奋老师给我解释了一下,才稍微明白这是一种规则学习,策略学习,从大量的元规则中推导出新的,复杂的规则。以后有机会要恶补一下这方面了。感谢王老师的解释!
Stephen Muggleton教授 Meta-Interpretive Learning (完全不懂什么鬼...)
接下来presentation则由各路专家来讲解他们的paper。纵观各位专家的研究主题,主要的主题有怎么构建知识库,怎么补充知识库,怎么修正知识库,怎么在知识库上做推理,怎么提高各种任务的效率,各种语义技术可以迁移到那些领域等等。
在这里着重突出一下我们广东外语外贸大学杜剑锋老师的,他的研究主题是图嵌入算法的改进,也就是研究怎样提高知识图谱中,子图到向量的映射的质量和效率。只要能够把图谱映射成向量,那么机器学习中各种各样的方法都可以应用在知识图谱中了。贴一下杜老师的论文和代码
第二天的四个session结束,各位专家把自己的paper解释了一遍后,就轮到了海报环节(poster demo)。这一环节一般是把一些要展示的东西写成一两千字左右,做成海报形式贴在展板上,然后作者在海报旁边给来看的人解释。这种形式其实更加有助于了解作者的成果,不过海报也有着篇幅有限等缺点。印象中海报似乎是留给一些学生或者一些还不成熟的研究展示的机会,所以这一次我看到了两三篇不知道是不是来灌水的海报......这次的海报环节一共有八篇海报展出,其中韩国学生有6篇,日本方面则有两篇。在做海报方面日本的两篇就做得很精美啦,彩色打印、图文并茂,而且思想很新颖,甚至有点天马行空的感觉(用知识库做出行规划,用语义技术预测用户在看到一个页面后会对什么问题感兴趣)。相比之下,韩国学生的海报就有点单调。不过我也只是吐槽一下而已,毕竟......
海报环节 我觉得这叫大字报更合适...学术会议的另一个惯例,是在会议的第一天晚上组织参会者参加一场晚宴(banquet)。上午茶,下午茶短短二十多分钟的时间怎么足够让大家深入交流感情呢,有必要让大家找个好地方那个坐下来慢慢聊,聊上一两个小时,不只是聊学术,还可以聊一下风花雪月与荡气回肠,这才能聊出感情来嘛。不过我们这次会议是在第二天晚上才举行。下午六点,主办方租了一辆大巴将我们所有参加宴会的人运到了一家高档的海鲜西餐厅。我长这么大还真是第一次走这正式的西餐流程,虽然只是简化了的前菜,主餐,甜品三个环节。这种所有人分开吃,吃了一道再上一道的分餐制给了我另一种就餐体验,虽然食物还是吃不太习惯,但以后有机会还是要再体验一回。嗯,听说下年JIST在日本大阪举行,也许有机会走一遍正宗日式宴会的流程。
这次晚宴坐在我对面的是东南大学的徐康老师。徐康老师年龄还不到三十,算是这次大会上台展示的学这种最年轻的发言人之一了。两个多小时的晚宴中,徐康老师很热情地和我聊了许多东西,帮我澄清了一下学术上的概念,比如本体论(ontology),语义网络(semantic network)和语义网(semantic web)之类的。此外,徐老师还和我聊了一些科研上的注意事项,明确指出我一个人孤军奋战奋战的弊端,让我必须加入或组建一个团队,还要多和导师交流等(我也不想一个人的呀,问题是只有我一个人在布里斯本啊...)。徐康老师表示自己很看好知识图谱的发展方向,非常赞同错过了深度学习后,不能错过知识图谱的观点,表示知识图谱将会是人工智能发展的另一潮流。我不知道这里面有没有夸张的成分,但是照目前这么多大的科技巨头(Google, Facebook, Microsoft, 阿里巴巴, 百度, 搜狗)都在布局知识图谱的情况来看,知识图谱的重要性和潜力是不言而喻的。感谢徐康老师给我科普了这些科研方面的常识!
晚宴上除了大家吃饭拉家常以外,大会举办方还在晚宴上宣布了大会最佳研究者论文和最佳学生论文(best researcher/student paper)。
Best Researcher Paper:David Ratcliffe & Kerry TaylorBest Student Paper:Franz Baader & Daniel Borchmann & Adrian Nuradiansyah(只来了一个人)
晚宴过后,大家就各回各家,准备最后一天的会议内容了。
第三天
会议到了第三天,继续听专家们侃。这一天的invited speaker聊到了一个挺有见地的观点:要加快标准文档的编写。说的也对。这两天听下来,专家们讨论的很多问题都在于怎样建设好知识库,怎样利用好知识库。所以我觉得,至少目前来说,语义技术相当一部分的问题都是偏向于工程和应用的问题。既然是工程和应用,那么有一个大家都遵守的标准,按照标准来定义范式和设计接口,才能加快技术进步,促进产业化。目前这方面的的标准都是W3C在开发,希望他们能给力点,加快这方面的工作。也希望我们中国人能在标准制定方面出一份力,分一杯羹。
这一天我听了好几个日本专家的发言。有趣的是,几乎所有的日本学者的工作,都是在讨论怎样应用知识库,解决一些生活中的问题。一个让我觉得匪夷所思的是东京电气通信大学的一个研究生提出的用知识库技术来降低日本自行车事故发生率。还有一个是日本NHK电视台的研究院提出的用知识库技术来让手机中的购物app在电视节目播放到某个场景时自动运行跳转到屏幕中物品的购买页面中。这种脑洞简直就是丧心病狂,不过demo倒是很有趣。日本学者这样偏应用的研究风格,一方面可能是因为他们确实在应用创新方面比较牛,一方面也可能是因为日本国内分工体系完善,所以他们要从更加细微的角度去发现那些一般人都意识不到的问题。嗯,据业内人士透露,更可能是由于之前日本政府在语义技术基础研究里投入了很多但是没什么产出,所以最近把研究重心放到了应用领域了。
下午对我来说最重要的一场pre就是东南大学漆桂林教授讲的佛学知识图谱构建(漆桂林教授另一场pre讲的是双语语境下的术语对应)。东南大学在最近专门为佛学知识构建了一个中文佛学知识图谱。还基于这个图谱开发了一个问答系统来对付佛学知识考试。我觉得这个项目的重要性在于提供了一套较为通用的方案来构建针对某一领域术语或概念知识的知识图谱。当然论文里提到的这个方法存在质量问题,而且人工补充和修改也不少。但是这无疑是一个构建领域图谱的很好的参考。不过漆桂林教授最近把经精力投入到了基于知识库的自动问答中,不知道有没有下功夫来完善这套方案,提高技术含量和可靠性。
大会的最后环节是一场panel,也就是各位大牛人坐在场上,就某一问题发表各自的看法。不过由于时间关系,大家只能讨论两三个问题,包括语义技术现有的应用以及展望一下未来的发展前景等。
Panel Discussion
会议最后,大会组织方宣布了2018年的JIST将会在日本举行,由大阪大学承办。嗯,看看明年有没有机会再去凑一下热闹吧。如果能贴一张海报,甚至上场灌水就更好了。
感想
大会结束后,我在月台等待返程布里斯班的火车时总结了一下自己的一些感受:
- 自己在这语义技术这方面的基础知识还很薄弱,就连RDF、SPARQL这些技术都没能弄懂,以至于很多pre下来都没能对主题深入的了解。
- 语义技术发展到现在,感觉上依然还是属于起步阶段,或者说是方兴未艾的阶段,很多学者(至少是来参会的学者)关心的问题还在“基础设施”的建设上,也就是如何构建高质量大规模的语义网、知识库等底层技术。
- 语义技术中的问题,起码目前来看,大多都是工程上的问题,不像深度学习的学问则有很多算法、数学上的考量。
-
语义技术未来的应用还是很广泛的,套用王昊奋老师在最后的panel中说的一样,语义技术已经应用在生活中方方面面背后的技术中,而我们毫无感觉,就像我们生活在现代社会,对于自来水,高压电等技术熟视无睹一样。而在未来,语义网可以助理人工智能。别的不说,但就一个自动问答或者说对话界面(Dialog UI),就已经是一个具有无穷潜力的场景。
返程
少年,趁着年轻,好好学习吧。终有一天要到国际学术会议上发文灌水!
网友评论