第三学期期末总结
@()[研二上]
1. 阅读论文情况
第三学期小I组主要在做知识图谱,TREC比赛。因此,在选择论文的时候,主要是阅读一些在搜索方面读了一些PageRank算法改进的论文,BM25算法等。在2014.8暑假时候在做TREC比赛,又阅读了一些历年session比赛获得成绩较好的论文。接着又阅读一些关于领域知识图谱相关的论文,主要体现在多数据源的数据抽取、领域知识图谱的构建、多数据源的可能性信息聚合等。
- 本学期阅读论文方向
- 推荐系统
- 搜索引擎
- 数据挖掘
- 知识图谱
读了这么多论文后,有一篇对我现在做的结构化爬取是最相关的一篇论文。
Focused Crawling for Structured Data, Robert Meusel (University of Mannheim); Peter Mika (Yahoo Barcelona); Roi Blanco (Yahoo! Labs); Christian Bizer (University of Mannheim),CIKM 2014
了解这篇论文完全是一件很令人兴奋的事情,实验室组织大家去东亚酒店听CIKM会议的时候,听到一篇正文的作者show。当时就回学校就把这篇论文阅读了以及把论文在线学习方法(MOV)与我的Falco结合。
一共阅读文章的数量16篇。
2. 项目工作
2014.9-2015.2学期项目工作主要是领域内知识图谱的构建。在杨老师的带领下,我们十月中下旬开始启动知识图谱项目。我们领域知识图谱是在周子力老师的构建本体的基础上,拓展我们的研究方向。
本学期主要的工作:
- [ ] Falco Crawling System
- [ ] TREC Session
- [ ] Domain Knowledge Graph Construction
2.1 Falco Crawling System
大多数网络爬虫的需求是定向抓取,结构化解析。但是面对结构迥异的各种网站,单一的抓取模式并以一定能够满足使用者的需求,因此灵活的抓取控制是必须的。而去重调度,队列,抓取,异常处理,监控等功能作为框架,提供给抓取脚本,并保证灵活性。最后加上前端展示平台监控任务、控制任务、任务进度,即是我的Falco网络爬虫系统。这套系统的目标:
- 抓取、更新调度多站点的特定的页面
- 需要对页面进行结构化信息提取
- 灵活可扩展,稳定可监控
这是我这学期构建出的框架:
Falco爬虫系统目前系统的完成度:
- DownLoader:100%
- PageParse:80%
- Scheduler:30%
- DBControler:10%
2.2TREC Session
RL2 Query Expansion
我的任务是通过用户的检索记录帮助用户找到他想要的检索词。我通过用户的检索记录:
- query
- Click
- Time
- Current Query
结合TFIDF模型,使用上述四个特征做一个实验室,实验的准确率19.04%,超过baseline。
2.3 Domain Knowledge Graph Construction
在构建领域知识图谱,我主要是负责数据抓取。
领域知识图谱的系统架构图为了构建电商领域的知识图谱,我完成电商领域的垂直网络爬虫。写完这个垂直爬虫,最大的收获是使用敏捷开发思想,使用设计模式方法开发垂直网络爬虫:单例模式,工厂模式等。
数据
3.第一篇小论文
计划在2015的春节完成* 自动学习结构化抽取信息的聚焦爬虫 * survey。
4.学术参加活动
- CIKM
- WSDM WINTER SCHOOL
在听Winter School里,高剑锋对于深度学习的分析以及讲解了他个人对深度学习的理解。还提出自己在bing研究院DSSM模型,激发了我对深度学习的热情。
5. 专利准备情况
计划把我的Falco网络爬虫申请为我的专利,这个具体在和老师们讨论。
6. 其他工作
- 参加了微软参观日,对微软的各个部门有所了解。
- 开发了虾米音乐下载器
- 搭建了个人的博客:> http://huangbaoquan.com/
网友评论