美文网首页
百度的爬取过程

百度的爬取过程

作者: 孙子衡 | 来源:发表于2019-11-13 11:42 被阅读0次

    搜索引擎的发展历史

    谷歌的发展历程
    成立时间:1998年9月7日
    创始人:拉里佩奇,谢尔盖布林
    发展历程
    
    (1)2001年9月,网页评级机制(PageRank)被授予了美国专利
    PR:表示谷歌对于网页的评级,从0-10逐级递增,PR越高那么网站在谷歌中的排名也相对越好,谷歌主要根据页面的导入链接(指的是其他页面链向这个页面的链接)来评判页面的PR值
    (2)2005年7月19日,谷歌宣布在中国设立研发中心
    (3)2006年10月,谷歌以16.5亿美元收购了YouTube
    (4)2007年11月5日,宣布基于Linux平台的开源手机操作系统的名称为Android
    (5)2010年3月,谷歌事件,谷歌退出中国后,国内 网站的PR值全部停止更新
    
    
    

    百度的发展历程
    成立时间:2000年1月
    创始人:李彦宏
    发展历程
    (1)2000年1月,在北京中关村成立
    (2)2001年8月,在中国首创竞价排名的商业模式
    (3)2003年6月,超越谷歌成为中国网民的首选搜索引擎,中文网站全球排名第4位
    (4)2005年6月21日,百度知道正式发布
    (5)2005年8月5日,百度纳斯达克上市,发行价39美元
    (6)2009年8月18日,百度推出框计算概念
    框计算的推出,是百度对用户体验高度重视的体现
    (7)2010年1月12日,百度被攻击
    
    
    

    理解百度的工作原理

    1、百度预处理及百度蜘蛛
    (1)百度蜘蛛
    指的是百度用来收集互联网中信息的一种程序,也叫做网络爬虫或者蜘蛛。不同的搜索引擎都拥有自己的蜘蛛程序
    (2)蜘蛛的工作原理
    ①在网站中蜘蛛通过链接进行爬行抓取
    ②蜘蛛将页面抓取之后保存到原始数据库中进行一系列的处理(可以理解为蜘蛛把页面吃到胃里,进行消化处理)
    (3)百度预处理流程
    ①提取文字
    蜘蛛只能识别页面中的纯文字内容,爬行到页面后会将该页面中的纯文字内容提取出来
    ②中文分词
    蜘蛛将第一步中提取出来的文字进行拆分重组,形成新的结果(分词),之后将形成的新结果中没有实际意义的内容删除掉(消噪)
    ③去除重复页面
    蜘蛛会将第二步中拆分重组的结果在原始数据库中进行对比,如果发现有两个或多个页面雷同重复,那么会根据算法来判断哪个页面是原创的,之后会将复制抄袭的页面从原始数据库中删除掉(吐出来)
    注意:被删除掉的页面将不会参与之后的排名步骤
    ④计算重要度(权重计算)
    权重:是搜索引擎对页面的评级,从0-10逐级递增,权重受网站流量影响,流量越大权重越高,权重对于网站排名有关键影响
    蜘蛛会对去除重复之后保留下来的页面进行重要度的计算,重要度受两个方面影响,第一个是受页面的原创度影响,原创度越高,那么重要度也就越高;第二个是受页面的导入链接影响,导入链接越多,那么重要度就越高
    导入链接:是指其他页面指向这个页面的链接
    重要度的影响因素(权重)
    流量越大,权重越高
    原创度越高,权重越高
    导入链接越多,权重越高
    ⑤建立索引
    蜘蛛会根据中文分词的结果,对页面进行分类,页面中如果不包含某个词,那么搜索这个词时该页面是不会出现排名的。
    到了这个步骤为止,页面的排名就已经出现了,排名的高低是由第四步中重要度决定的,排名的分类是根据中文分词的结果来划分的。排名出现后,蜘蛛将做好的排名保存到索引数据库中。
    正排索引:对页面进行分词,为页面“贴标签” 
    倒排索引:通过搜索关键词,找到对应的页面 
    ⑥分析链接
    蜘蛛会通过这个页面中的链接爬行到其他页面中,之后再一次重复第一步至第五步的步骤
    
    

    百度算法

    上线时间:2013年2月19日
    主要针对链接的购买,出售,以及交易中介
    百度为什么要打击买卖链接?
    因为买卖链接是一种快速增加网站导入链接的方式,这样做违反了百度的正常排名。购买链接的网站快速提升了导入链接和权重,进而对排名也会造成影响,这样做对于百度自身的竞价排名业务也造成较大冲击,因此百度严厉打击链接的出售及购买行为
    (2)石榴算法
    上线时间:2013年5月17日
    主要针对页面中含有大量严重影响正常浏览的恶劣广告。页面中存在影响用户浏览的广告首先会造成用户体验的下降,另外广告的内容大多数是非法内容,所以百度石榴算法会对这样的网站进行惩罚
    (3)原创星火计划
    百度会将优质的原创内容优先进行排名展示,这样做是为了提升用户的搜索体验,促鼓励网站更新原创内容
    
    

    三、用户体验分析
    1、什么是用户体验
    是指用户在使用产品时主观产生的一种感受,对于网站来说用户体验就是网民在浏览网站时的感觉
    2、用户体验分析的重要性
    (1)网站角度
    可以提升网站的访问量,最终提高转化
    (2)网民角度
    可以将更加优质的内容展示给网民,并且这些内容恰好是网民所需要的
    3、用户体验与SEO的关系
    (1)网站做每一步优化之前,都需要从网民的角度出发,选择网民最适合的内容
    (2)搜索引擎对于用户体验好的网站更加友好
    4、用户体验的维度
    (1)色彩体验
    不同行业要选择不同的色彩,用户在进入到网站中之后第一眼的主观感受正是受色彩影响的
    (2)内容体验
    网站中的内容要求尽量更新高质量的,对用户有帮助的内容,并且内容要尽量避免错别字等情况
    (3)浏览体验
    用户在页面中浏览时如果存在打不开页面,或者存在广告遮盖等情况,会严重影响用户的浏览感受
    重点:以上三个维度均会影响网站的用户体验,任何一点做不好都会对网站的用户体验甚至是流量造成较大影响
    
    

    相关文章

      网友评论

          本文标题:百度的爬取过程

          本文链接:https://www.haomeiwen.com/subject/brjhictx.html