美文网首页Python学习资料整理
Python抓取美团网站数据

Python抓取美团网站数据

作者: 9ba4bd5525b9 | 来源:发表于2019-07-22 14:21 被阅读49次

       1.首先确定要用的模块,<1.>urrlib,os,re三个模块,

       2.要想获得数据,并且一一对应起来,那么用到循环的嵌套(一开始卡壳,后来咨询得到启发),

       3.获取网页的所有数据,爬去下来

       4.分析这些想要或许的模块怎么找出来,

       5.找出相对于的正则来匹配,

       6.获取数据,并且找到对应的数值

       7.利用循环,并且配合字典的使用,将数据完整的获取下来,

       8.保存到相应的文档中

       9.关闭文档,

       10.提示数据保存成功,结束爬去。

    由于这是第一次采取这么多的信息,之前只是爬个图片啥的,所以笔者还是十分小心的去审查每一个元素,在这里推荐利用火狐浏览器,感觉是真的好用使用Firebug插件审查元素。

    查看元素后,可以获得这个网站的编码形式是utf-8,这对于我们爬取数据也是关键的。

    在一开始呢,笔者还打开了一款软件,fiddler,抓包

    这些信息还是很多的,由于笔者截图的时候碰到了网络的原因,但是笔者还是找到了自己想要的信息,这样可以在自己的代码中加入伪装浏览器的信息,那么接下来要做的事情就是定位我们想要找的数据。

    分析首页的团购信息,我们可以根据多个来确认这个信息的唯一标识符,<span>标签中并且有class="xtitle"< /span>中间文字,那么我们的正则表达式就出来了,r'<span class="xtitle">(.+?)</span>'(正则太难,笔者一个个试出来的)

    描述也是<span>标签并且 class="short-title",</span>的文字,那么很快就匹配到了,正则出来了,r'class="short-title">(.+)</span>'

    后面的就是依次类推。完成这个,那么我们就开始写我们的爬虫程序,导入我们想要用的模块,定义我们想要用的变量。爬去,匹配,然后循环得出来我们的结果,写入文档。代码如下

    相关文章

      网友评论

        本文标题:Python抓取美团网站数据

        本文链接:https://www.haomeiwen.com/subject/rgtwlctx.html