一、新闻爬虫
1. 任务发布
根据预先定义的模版库生成,支持工具:模版库维护工具
需解决问题:将模版维护工具在线化,和运维系统进行整合
2. 索引页抓取与解析
根据任务URL抓取页面,根据模版进行解析,生成内容URL
需解决问题:多进程任务均衡
、时效性保障
、失败处理
3. 内容页抓取、正文抽取与入全文库
根据内容URL抓取,自动进行正文抽取,入全文库
需解决问题:多进程任务均衡
、时效性保障
、失败处理
4. 根据频道关键词进行筛选查找并入推送库
根据预先设置的频道关键词进行全文增量检索,并将检索结果保存到推送库(MySQL)中
需解决问题:将频道管理功能和运维系统进行整合
5. 小程序阅读
提供小程序方式根据频道进行新闻浏览
未来工作重点:
加强爬虫工作的鲁棒性和时效性,在多进程任务均衡
、时效性保障
、失败处理
等方面进行升级;
开发一个统一的运维管理系统,支持模版在线维护
、频道设置
、故障报警
等功能;
对目前的评分模型进行重新调整,将频道内容生成从基于关键词
向关键词+模型评分
进化。
二、信贷系统
1. 数据采集
通过发放问卷调查
、用户自主在线评估
等方式进行数据采集。
需解决的问题:移动端小程序、H5页面的开发
、数据存储的标准化和安全性
2. 产品上线
通过需求分解
、数据字段定义
、流程设计和调试
等过程,完成产品上线。
需解决的问题:图形化流程设计与调试
的实现、数据字段
元数据规范定义、产品引擎
的效率问题
3. 数据分析
未开展。
未来工作重点:
前端:移动端小程序、H5页面的开发
和图形化流程设计与调试
;
后端:产品引擎开发
,支持大规模的用户数据实时评估;
运维管理:数据字段管理
、产品管理
、调研问卷管理
、用户数据管理
。
网友评论