#数据收集
## 内部数据收集
## 互联网数据收集
### 爬虫
### 爬虫的工作模式:
提供一个或若干个初始网页的地址, 获得初始网页上的URL列表,然后在抓取网页的过程中,不断地从当前页面上抽取新的URL放入待爬队列。
### 获取新的URL的策略:
深度优先、广度优先、最佳优先
### 已有框架介绍Heritrix
# 数据存储
# 数据处理
## 信息检索
## 基础算法
PageRank、HITS:
## 工具
elasticsearch
solr
## 扩展:推荐系统
## 推荐系统工具:mahout
网友评论