Python抓取美团网站数据

作者: 9ba4bd5525b9 | 来源:发表于2019-07-22 14:21 被阅读49次

1.首先确定要用的模块，<1.>urrlib,os,re三个模块，

2.要想获得数据，并且一一对应起来，那么用到循环的嵌套（一开始卡壳，后来咨询得到启发），

3.获取网页的所有数据，爬去下来

4.分析这些想要或许的模块怎么找出来，

5.找出相对于的正则来匹配，

6.获取数据，并且找到对应的数值

7.利用循环，并且配合字典的使用，将数据完整的获取下来，

8.保存到相应的文档中

9.关闭文档，

10.提示数据保存成功，结束爬去。

由于这是第一次采取这么多的信息，之前只是爬个图片啥的，所以笔者还是十分小心的去审查每一个元素，在这里推荐利用火狐浏览器，感觉是真的好用使用Firebug插件审查元素。

查看元素后，可以获得这个网站的编码形式是utf-8，这对于我们爬取数据也是关键的。

在一开始呢，笔者还打开了一款软件，fiddler，抓包

这些信息还是很多的，由于笔者截图的时候碰到了网络的原因，但是笔者还是找到了自己想要的信息，这样可以在自己的代码中加入伪装浏览器的信息，那么接下来要做的事情就是定位我们想要找的数据。

分析首页的团购信息，我们可以根据多个来确认这个信息的唯一标识符，标签中并且有class="xtitle"中间文字，那么我们的正则表达式就出来了，r'(.+?)'（正则太难，笔者一个个试出来的）

描述也是标签并且 class="short-title"，的文字，那么很快就匹配到了，正则出来了，r'class="short-title">(.+)'

后面的就是依次类推。完成这个，那么我们就开始写我们的爬虫程序，导入我们想要用的模块，定义我们想要用的变量。爬去，匹配，然后循环得出来我们的结果，写入文档。代码如下

网友评论

本文标题：Python抓取美团网站数据

本文链接：https://www.haomeiwen.com/subject/rgtwlctx.html

Python抓取美团网站数据