python接入百度AI 人脸识别爬虫获取美女图片并打分（附

作者: Python学习 | 来源:发表于2018-04-07 11:47 被阅读107次

python 接入百度AI 人脸识别爬虫获取美女图片并打分

1 数据源知乎话题『美女』下所有问题中回答所出现的图片

2 抓取工具Python

3，并使用第三方库 Requests、lxml、AipFace，代码共 100 + 行3 必要环境Mac / Linux / Windows （后两个没测，理论上可以，注意文件名的处理），无需登录知乎（即无需提供知乎帐号密码），人脸检测服务需要一个百度云帐号（即百度网盘帐号）

4 人脸检测库AipFace，由百度云 AI 开放平台提供，是一个可以进行人脸检测的 Python SDK。可以直接通过 HTTP 访问，

5 检测过滤条件过滤所有未出现人脸图片（比如风景图、未露脸身材照等）过滤所有非女性（在抓取中，发现知乎男性图片基本是明星，故不考虑；存在 AipFace 性别识别不准的情况）过滤所有非真实人物，比如动漫人物（AipFace Human 置信度小于 0.6）过滤所有颜值评分较低图片（AipFace beauty 属性小于 45，为了节省存储空间；再次声明，AipFace 评分无任何客观性）

6 实现逻辑通过 Requests 发起 HTTP 请求，获取『美女』下的部分讨论列表通过 lxml 解析抓取到的每个讨论中 HTML，获取其中所有的 img 标签相应的 src 属性通过 Requests 发起 HTTP 请求，下载 src 属性指向图片（不考虑动图）通过 AipFace 请求对图片进行人脸检测判断是否检测到人脸，并使用『4 检测过滤条件』过滤将过滤后的图片持久化到本地文件系统，文件名为颜值 + 作者 + 问题名 + 序号返回第一步，继续。

7 抓取结果直接存放在文件夹中

8 运行准备

安装 Python 3，Download Python

安装 requests、lxml、 baidu-aip 库，都可以通过 pip 安装，一行命令

申请百度云检测服务，免费。人脸识别-百度AI

核心代码：

# http://code.py40.com/42.html

2

3 import re

4 import os

5 import requests

6 import time

7

8 global PhotoNum

9 PhotoNum = 0

10 PWD = "E:/Python/ai2018-3-12/huaban/"

11 head = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

12 TimeOut = 30

13

14 url = "http://huaban.com/favorite/beauty/"

15 url_image = "http://hbimg.b0.upaiyun.com/"

16 urlNext = "http://huaban.com/favorite/beauty/?iqkxaeyv&limit=20&wfl=1&max="

17

18

19 def downfile(file, url):

20 print("开始下载：", file, url)

21 try:

22 r = requests.get(url, stream=True)

23 with open(file, 'wb') as fd:

24 for chunk in r.iter_content():

25 fd.write(chunk)

26 except Exception as e:

27 print("下载失败了", e)

28

29

30 def requestpageText(url):

31 try:

32 Page = requests.session().get(url, headers=head, timeout=TimeOut)

33 Page.encoding = "utf-8"

34 return Page.text

35 except Exception as e:

36 print("联网失败了...重试中", e)

37 time.sleep(5)

38 print("暂停结束")

39 requestpageText(url)

40

41

42 def requestUrl(url):

43 global PhotoNum

44 print("*******************************************************************")

45 print("请求网址：", url)

46 text = requestpageText(url)

47 pattern = re.compile('{"pin_id":(d*?),.*?"key":"(.*?)",.*?"like_count":(d*?),.*?"repin_count":(d*?),.*?}', re.S)

48 items = re.findall(pattern, text)

49 print(items)

50 max_pin_id = 0

51 for item in items:

52 max_pin_id = item[0]

53 x_key = item[1]

54 x_like_count = int(item[2])

55 x_repin_count = int(item[3])

56 if (x_repin_count > 10 and x_like_count > 10) or x_repin_count > 100 or x_like_count > 20:

57 print("开始下载第{0}张图片".format(PhotoNum))

58 url_item = url_image + x_key

59 filename = PWD + str(max_pin_id) + ".jpg"

60 if os.path.isfile(filename):

61 print("文件存在：", filename)

62 continue

63

64 downfile(filename, url_item)

65 PhotoNum += 1

66 requestUrl(urlNext + max_pin_id)

67

68

69 if not os.path.exists(PWD):

70 os.makedirs(PWD)

71 requestUrl(url)

如果对这方面感兴趣或者在学习Python的过程中有什么问题的话，可以加君羊：588090942，君羊内有大量Python资料，也会有人解答问题，大家一起学习，一起交流。希望每位学习Python的人都能学有所成。

网友评论

本文标题：python接入百度AI 人脸识别爬虫获取美女图片并打分（附

本文链接：https://www.haomeiwen.com/subject/udxyhftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python接入百度AI 人脸识别爬虫获取美女图片并打分（附

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python机器学习爬虫

大数据爬虫Python AI Sql

python接入百度AI 人脸识别 爬虫 获取美女图片并打分（附

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python机器学习爬虫

大数据 爬虫Python AI Sql

python接入百度AI 人脸识别爬虫获取美女图片并打分（附

大数据爬虫Python AI Sql