作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫!
思路
我们就拿“德州扒鸡”做为参考目标吧~!如果想抓其他商品的话,自行更换目标即可!打开淘宝,搜索目标,随便点击一个商品进入,在点击累计评论,打开F12开发者工具——网络,先清除现有的所有内容,然后点击下一页评论,在弹出的内容中查找文件中开头为list_detail_rate.htm的html类型,如下图所示
![](https://img.haomeiwen.com/i13406307/a242d31250ee87fe.png)
这个html中就含有我们需要的内容,左键点击然后选择响应,就可以看到具体响应内容了!
![](https://img.haomeiwen.com/i13406307/c353f4d4218336fd.png)
这里面是一大串包含我们需要的内容在内的源代码,如果大家有兴趣可以提取内容做成json数据,而我们这里只需要评论数据,所以,用正则匹配评论部分就可以了!
开始写代码
具体过程就赘述了,新建一个函数,接受店铺ID(唯一)作为参数,做一个无限循环来翻页,并以评论时间为判断是否重复,如果重复则跳出循环(return可以直接跳出循环),整个函数部分代码如下
![](https://img.haomeiwen.com/i13406307/8772b1cc18c554a2.png)
加入try是因为代码一直在抽风的跳出index错误,后续还可以改进!
作为一个爬虫爱好者,必然要加深抓取的广度的,试着将整个页面的店铺ID抓取出来!这次简单,直接抓到json数据,然后用正则匹配,放回列表,因为时间有限,没有研究出url翻页的依据,就只抓取了一页!
![](https://img.haomeiwen.com/i13406307/26d47f0dfee04108.png)
然后开始写主函数,保存到文档!运行结果如下
![](https://img.haomeiwen.com/i13406307/9eeedee1bdb5386d.png)
![](https://img.haomeiwen.com/i13406307/d93a8bd1b01ce58e.png)
网友评论