爬取4万多个淘宝模特信息进行数据分析

作者: adminlzzs | 来源:发表于2016-10-08 20:54 被阅读830次

爬取4万多个淘宝模特信息进行数据分析
Boss 直聘数据岗招聘信息爬取（一）
淘宝居然有“潜规则”！用Python爬了上万条商品数据！这才是项
Python爬取淘宝女模特信息
Python实战爬虫：爬取新浪双色彩,信息并进行分析
selenium3.0.1使用chrome，设置代理ip进行爬取
爬取淘宝商品信息
数据分析——实战|爬取淘宝，分析月饼哪家强？
单元八·实例
【Python爬虫案例学习17】爬取拉钩网数据

好久没有更新博客，国庆7天，宿舍就我一个人，人生真的寂寞如雪啊。
想起我之前看过一本数据分析的书，今天想来实战一下。之前由于误删了网络爬虫爬下来的数据，所以只能重新爬取一次了，不过这次就抓取点好玩的东西，爬取淘宝淘女郎的信息来做一个简单的数据分析。
先上爬虫代码：

#coding:utf-8
import requests
import os
from multiprocessing.dummy import Pool as ThreadPool
import time
from bs4 import BeautifulSoup
import urllib2,urllib
import re
class MM:
    def __init__(self):
        self.baseurl='https://mm.taobao.com/json/request_top_list.htm?page='
        self.pool = ThreadPool(10)   #初始化线程池
        self.headers={'Accept-Language':'zh-CN,zh;q=0.8','User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36','Connection':'close','Referer': 'https://www.baidu.com/'}
    def indexPage(self,index):
        indexpage=requests.get(self.baseurl+str(index),headers=self.headers)
        return indexpage.content.decode('GBK')

    def getAlldetail(self,index):
        indexpage=self.indexPage(index)
        p=re.compile(r'class="lady-avatar".*?<img src="(.*?)".*?class="lady-name".*?>(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S)
        alldetail=re.findall(p,indexpage)
        eachdetail=[]
        for eachmm in alldetail:
            eachdetail.append(['http:'+eachmm[0],eachmm[1],eachmm[2]+'years old',eachmm[3]])
        return eachdetail

    def getImg(self,filename,imgaddr):
        f=open('mm/'+filename+'/'+filename+'.jpg','wb+')
        f.write(requests.get(imgaddr,headers=self.headers).content)
        f.close()

    def getContent(self,filename,content):     
        with open('mm/'+filename+'/'+filename+'.txt','w+') as f:
            for each in content:
                f.write((each.encode('utf-8'))+'\n')

    def mkdir(self,path):
        path = path.strip()
        isExists=os.path.exists(path)
        if not isExists:
            # 如果不存在则创建目录
            print u"新建了名字叫做",path,u'的文件夹'
            # 创建目录操作函数
            os.makedirs(path)
            return True                 
        else:       
            # 如果目录存在则不创建，并提示目录已存在
            print u"名为",path,'的文件夹已经创建'
            return False

    def savePageInfo(self,index):
        alldetail=self.getAlldetail(index)
        for eachdetail in alldetail:
            self.mkdir('mm/'+eachdetail[1])       
            #self.mkdir('mm/')
            self.getImg(eachdetail[1],eachdetail[0])
            self.getContent(eachdetail[1],eachdetail[1:])

    def start(self):
        while 1:
            try:
                start=int(raw_input('开始查询的页数（整数）：'))
                end=int(raw_input('结束的页数（整数）：'))
            except Exception,e:
                print e
            else:
                break
        index=range(start,end+1)
        begin=time.time()
        try:
            results = self.pool.map(self.savePageInfo,index)
            self.pool.close()
            self.pool.join()
        except Exception as e:
            print e
            pass
        end=time.time()
        total=end-begin
        print '总耗时：',total
if __name__=='__main__':
    mm=MM()
    mm.start()

运行后输入你要爬取的页面，就能把淘女郎的年龄，居住地，名字和照片给爬取下来。一共有4万多个淘女郎信息，你可以全部爬取下来做数据分析用。
我只爬了几十页，运行后截图：

1.png

随便打开一个目录，可以看到图片和信息。
由于代码是很久之前写的，当时并没有想到做数据分析，因此我对每个人都创建了一个目录，每个目录存放个人信息，这样再单独写个脚本进入每个文件获取信息效率不高，我就直接在原脚本中获取并直接进行数据的图像可视化，代码如下：

#coding:utf-8
import matplotlib
import requests
import numpy as np
from matplotlib.font_manager import *
import matplotlib.pyplot as plt
import os
from multiprocessing.dummy import Pool as ThreadPool
import time
from bs4 import BeautifulSoup
import urllib2,urllib
import re
'''
#解决负号'-'显示为方块的问题  
matplotlib.rcParams['axes.unicode_minus']=False
'''

myfont = FontProperties(fname='/usr/share/fonts/truetype/droid/DroidSansFallbackFull.ttf')
class MM:
    def __init__(self):
        self.bing={}
        self.bing1=[]
        self.zhu={}
        self.zhu1=[]
        self.baseurl='https://mm.taobao.com/json/request_top_list.htm?page='
        self.pool = ThreadPool(10)
        self.headers={'Accept-Language':'zh-CN,zh;q=0.8','User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36','Connection':'close','Referer': 'https://www.baidu.com/'}
    def indexPage(self,index):
        try:
            indexpage=requests.get(self.baseurl+str(index),headers=self.headers)
        except Exception as e:
            print e
        return indexpage.content.decode('GBK')

    def getAlldetail(self,index):
        indexpage=self.indexPage(index)
        p=re.compile(r'class="lady-avatar".*?<img src="(.*?)".*?class="lady-name".*?>(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S)
        alldetail=re.findall(p,indexpage)
        eachdetail=[]
        for eachmm in alldetail:
            eachdetail.append(['http:'+eachmm[0],eachmm[1],eachmm[2]+'years old',eachmm[3]])
        return eachdetail

    def getImg(self,filename,imgaddr):
        #f=open('mm/'+filename+'/'+filename+'.jpg','wb+') 
        urllib.urlretrieve(imgaddr,'mm/'+filename+'/'+filename+'.jpg')
        #f.write(requests.get(imgaddr,headers=self.headers).content)
        #f.close()

    def getContent(self,filename,content):     
        with open('mm/'+filename+'/'+filename+'.txt','w+') as f:
            for each in content:
                f.write((each.encode('utf-8'))+'\n')
    
    def mkdir(self,path):
        path = path.strip()
        isExists=os.path.exists(path)
        if not isExists:
            # 如果不存在则创建目录
            print u"新建了名字叫做",path,u'的文件夹'
            # 创建目录操作函数
            os.makedirs(path)
            return True                 
        else:       
            # 如果目录存在则不创建，并提示目录已存在
            print u"名为",path,'的文件夹已经创建'
            return False

    def savePageInfo(self,index):
        alldetail=self.getAlldetail(index) 
        for eachdetail in alldetail:
            self.mkdir('mm/'+eachdetail[1])       
            #self.mkdir('mm/')
            self.getImg(eachdetail[1],eachdetail[0])
            self.getContent(eachdetail[1],eachdetail[1:])
    def bing_pic(self,index):
        alldetail=self.getAlldetail(index)
        for eachdetail in alldetail:
            if eachdetail[3] not in self.bing:
                self.bing[eachdetail[3]]=1
            else:
                self.bing[eachdetail[3]]+=1
        
    def zhu_pic(self,index):
        alldetail=self.getAlldetail(index)
        for eachdetail in alldetail:
            eachdetail=eachdetail[2].replace('years old','')
            if eachdetail not in self.zhu:
                self.zhu[eachdetail]=1
            else:
                self.zhu[eachdetail]+=1
    def start(self):
        while 1: 
            try:
                startpage=int(raw_input('开始查询的页数（整数）：'))
                endpage=int(raw_input('结束的页数（整数）：'))
            except Exception,e:
                print e
            else:
                break
        
        index=range(startpage,endpage+1)
        begin=time.time()
        try:
            results = self.pool.map(self.savePageInfo,index)
            self.pool.close()
            self.pool.join()
        except Exception as e:
            print e
            pass
        end=time.time()
        total=end-begin
        print '总共耗时：',total
        
        for i in range(startpage,endpage+1):
            self.zhu_pic(i)
            self.bing_pic(i)

        #柱状图
        for i in self.zhu:
            self.zhu1.append(self.zhu[i])
        sorted(self.zhu)
        year=[]
        for i in self.zhu:
            year.append(i)
        #print year,self.zhu1
        plt.title(u'淘女郎年龄分布图',fontproperties=myfont,size=20)
        plt.xlabel(u'年龄',fontproperties=myfont,size=20)
        plt.ylabel(u'人数',fontproperties=myfont,size=20)
        plt.bar(year, self.zhu1)
        plt.show()

        #饼状图
        for i in self.bing:
            self.bing1.append(self.bing[i])
        group=[]
        for i in self.bing:
            group.append(i)
        plt.figure(num=1, figsize=(12, 12))
        plt.axes(aspect=1)
        plt.title(u'淘女郎居住地分布图',fontproperties=myfont,size=20)
        patches,l_text,p_text=plt.pie(self.bing1,labels=group,autopct = '%3.1f%%',shadow=True, startangle=90) 
        for t in l_text: 
            t.set_fontproperties(matplotlib.font_manager.FontProperties(fname="/usr/share/fonts/truetype/droid/DroidSansFallbackFull.ttf")) # 把每个文本设成中文字体
        plt.show()
if __name__=='__main__':
    mm=MM()
    mm.start()

matplotlib这个中文不能显示这块有点恼火，它必须要指向一个可以显示中文的ttf文件才能显示中文，本脚本用的matplotlib是1.5版本的，如果是其他的版本可能会出现因为参数的不同而出错。

最后经过数据分析后的图片（以下是遍历了1到8页的信息后得到的图片，你们可以继续遍历......）

2016-10-08 19-38-09 的屏幕截图.png

2016-10-08 19-38-40 的屏幕截图.png

这是数据分析的一点点皮毛，深入之后再继续玩儿......
欢迎大牛指正.......

爬取4万多个淘宝模特信息进行数据分析
好久没有更新博客，国庆7天，宿舍就我一个人，人生真的寂寞如雪啊。想起我之前看过一本数据分析的书，今天想来实战一下。...
Boss 直聘数据岗招聘信息爬取（一）
项目背景由于本人在重庆从事数据分析工作，故这次先爬取Boss直聘的本地区数据分析岗信息，并进行分析爬取思路由...
淘宝居然有“潜规则”！用Python爬了上万条商品数据！这才是项
本文记录了笔者用淘宝爬取某商品的全过程，并对商品数据进行了挖掘与分析，最终的除结论。爬取数据因淘宝网是反爬虫的...
Python爬取淘宝女模特信息
前言 Python爬取淘宝美女信息下载本地并同时存储mysql数据库，存储数据库用到了pymysql模块，sql语...
Python实战爬虫：爬取新浪双色彩,信息并进行分析
爬取新浪双色彩,信息并进行分析
selenium3.0.1使用chrome，设置代理ip进行爬取
工作需要爬取淘宝信息发现淘宝宝贝的评论，以及天猫淘宝店铺的信用信息页面中的数据都是加密了的今年上半年爬取的时候还...
爬取淘宝商品信息
利用Ajax动态爬取淘宝商品信息功能依次实现爬虫的开发流程：爬取规则--->数据清洗--->数据存储实现代码：实现效果
数据分析——实战|爬取淘宝，分析月饼哪家强？
学习目标： 1、爬取淘宝网关于月饼的所有相关信息2、利用pandas进行数据清洗和数据处理3、利用pyechart...
单元八·实例
淘宝商品信息爬取
【Python爬虫案例学习17】爬取拉钩网数据
开发环境： python3.7 windows 10一、需求了解拉钩网上数据分析招聘信息。二、针对爬取页面进行...

网友评论

e52ea9225ab4:请问最后爬得的除了图片以外的信息是什么文件格式？
862c9fb99650:那个视图是用的什么
adminlzzs: @Loopher 你是说那两张图片吗？是用matplotlib 画的，代码里面有的。
2ca8523e79f3:
数据斯基:R还是Python？还是什么做的？
56c40e0352d5:@拿笔的小鑫你说后面统计部分么？应该是借助其他统计工具完成的吧……
数据斯基:@JanChen 可视化也是用Py？
56c40e0352d5:@拿笔的小鑫 python
linux小白:不错ꉂ ೭(˵¯̴͒ꇴ¯̴͒˵)౨”
adminlzzs: @c0d4cc8f5d9e 谢谢

爬取4万多个淘宝模特信息进行数据分析

相关文章

爬取4万多个淘宝模特信息进行数据分析

Boss 直聘数据岗招聘信息爬取（一）

淘宝居然有“潜规则”！用Python爬了上万条商品数据！这才是项

Python爬取淘宝女模特信息

Python实战爬虫：爬取新浪双色彩,信息并进行分析

selenium3.0.1使用chrome，设置代理ip进行爬取

爬取淘宝商品信息

数据分析——实战|爬取淘宝，分析月饼哪家强？

单元八·实例

【Python爬虫案例学习17】爬取拉钩网数据

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

网络爬虫

数据分析

Python 运维

生活不易我用python

python爬虫