第一步:
1、爬行抓取
蜘蛛根据网站的网址链接抓取链接所对应的页面
重点收集的是页面的文本内容。(站长工具里面机器人模拟抓取工具)
页面上多点文字,少点陷阱元素。
2、蜘蛛是根据链接抓取页面的,所以我们就需要优化网站的网址层级结构
我们网站的网址层级尽量短一点
第三步:预处理过程
1、 提取文字
2、 中文分词
3、 去重处理
4、 去停止词处理
5、 计算页面关键词密度以及页面的关键词与内容的匹配度
6、 计算页面的连接关系,重点计算页面的导入链接和导出链接
7、 计算用户点击行为(快排做法)
8、 建立排名索引
网友评论