爬虫进阶-爬取猫眼电影专业版信息

作者: LEONYao | 来源:发表于2017-02-17 15:30 被阅读1836次

爬虫进阶-爬取猫眼电影专业版信息
Python爬虫-猫眼电影排行
Python爬虫猫眼电影TOP100
50行Python爬取猫眼电影TOP100榜单信息
爬虫学习(一)：利用requests爬取猫眼电影top100
动态网页实战| python爬虫+前端框架Bootstrap
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存
三阶段day26-爬虫介绍
Spider_maoyantop100
抖音、猫眼网页信息加密分析与应对（1）

猫眼电影专业版可以实时获取电影的票房数据，但我们要爬它却不怎么容易。首先来看看，难在哪里？

2.png

在源码中我们可以看到它网页使用的是自己的字体。我们无法通过源码来爬取到想要的数据。
百度了一圈回来发现有人说自己去破解它网页的字体，但更多的人推荐使用截图识别的方式。
这里说一下思路

使用自动化测试工具selenium配合phantomJS将网页截图，然后进行区域截图获得票房数字,利用pytesser进行数字识别。

先上selenium的代码

#webdriver从官网中下载放在python目录下的script文件夹内则不需要设置webdriver路径

from selenium import webdriver
import os
import time
# from PIL import Image 
from selenium.webdriver.common.keys import Keys
#chromedriver = "C:\Program Files (x86)\Google\Chrome\Application\Chromedriver.exe"
#os.environ["webdriver.chrome.driver"] = chromedriver
#driver = webdriver.Chrome(chromedriver)

driver = webdriver.PhantomJS()
driver.get('http://piaofang.maoyan.com/')
driver.save_screenshot('screenshot.png')#这里截图完成
#开始对图片进行区域截图处理
for i in range(1,19):
    pic = Image.open('screenshot.png')
    element = driver.find_element_by_xpath('//ul[@class="canTouch"][%d]/li[2]'%i)#对票房数据进行定位
    left = element.location['x']
    top = element.location['y']
    right = element.location['x'] + element.size['width']
    bottom = element.location['y'] + element.size['height']
    pic = pic.crop((left,top,right,bottom))#开始区域截图
    pic.resize((140,53),Image.BILINEAR)#将图片放大，不然识别不出来
    pic.save('s%d.png'%i)
    time.sleep(1)
driver.quit()

我刚开始进行图片处理的时候，截下来的图是这样的

3.png

然后我用pytesser尝试对图片识别

4.png
如果成功的话是print1031.35
结果却是K

5.png

卡在了这里，不知道怎么解决，提高识别率。由于工作比较繁忙，我把这事搁置了两个礼拜。这两天想起来，就开始查资料。找到了两个思路，一个是使用libSVM，另一个是scikit-learn。但两个我都不懂。而且我对pytesser还不死心，就继续折腾。我尝试了把图片搞成黑白的去识别也不行。最后我是把图片放大了，才成功识别的。终于明白，原来图片太小是识别不了的。

6.png

4.png

成功了！！哟嘎达！！
稍微解释一下代码吧

import pytesser
from PIL import Image,ImageEnhance

image = Image.open('s1.png')#打开图片
image = image.convert('L')#把图片变灰
ImageEnhance.Sharpness(image)#把图片锐化？
image =image.resize((140,53),Image.BILINEAR)#把图片放大
enhancer = ImageEnhance.Contrast(image)  #图片变黑白！！！这一步可以极大的提高识别率！！！！
image2 = enhancer.enhance(4) 
image2.save('test2.png')
vcode = pytesser.image_to_string(image2)#识别图片数字
print (vcode)

为了方便大家读代码整理思路，下面是完整的代码

'''
webdriver从官网中下载放在python目录下的script文件夹内则不需要设置webdriver路径
'''
from selenium import webdriver
import os
import time
import pytesser
from PIL import Image,ImageEnhance
from selenium.webdriver.common.keys import Keys
#chromedriver = "C:\Program Files (x86)\Google\Chrome\Application\Chromedriver.exe"
#os.environ["webdriver.chrome.driver"] = chromedriver
#driver = webdriver.Chrome(chromedriver)

driver = webdriver.PhantomJS()
driver.get('http://piaofang.maoyan.com/')
driver.save_screenshot('screenshot.png')

for i in range(1,19):
    pic = Image.open('screenshot.png')
    element = driver.find_element_by_xpath('//ul[@class="canTouch"][%d]/li[2]'%i)
    left = element.location['x']
    top = element.location['y']
    right = element.location['x'] + element.size['width']
    bottom = element.location['y'] + element.size['height']
    pic = pic.crop((left,top,right,bottom))
    pic =pic.resize((140,53),Image.BILINEAR)
    pic = pic.convert('L')
    ImageEnhance.Sharpness(pic)
    enhancer = ImageEnhance.Contrast(pic)
    pic2 = enhancer.enhance(4) 
    vcode = pytesser.image_to_string(pic2)
    print (vcode)
    pic2.save('%s.png'%vcode.strip())
    time.sleep(1)

driver.quit()

然后下一刻，我们来见证奇迹吧

7.png
对比下票房

8.png
ps：pytesser更多的是用于验证码识别，验证码图片中存在很多干扰识别的噪点。因此需要对图片源进行更多处理。这里的图片没有噪点，其实是很容易识别的。。算是很简单的了

完整爬虫部分》》》》》》》》》》》》》》待续

之前不是有个人嚷嚷着说如果我能把猫眼电影实时票房爬出来就给我引荐工作的么?
跑哪去了？

爬虫进阶-爬取猫眼电影专业版信息
猫眼电影专业版可以实时获取电影的票房数据，但我们要爬它却不怎么容易。首先来看看，难在哪里？在源码中我们可以看到它...
Python爬虫-猫眼电影排行
爬虫的目标爬取猫眼电影TOP100的电影名称，时间，评分，图片等信息猫眼TOP100网站:http://maoy...
Python爬虫猫眼电影TOP100
爬虫练习, 使用几种不同的方式爬取猫眼电影TOP100 猫眼电影TOP100的页面结构比较简单, 电影的信息都存储...
50行Python爬取猫眼电影TOP100榜单信息
今天，手把手教你入门 Python 爬虫，爬取猫眼电影 TOP100 榜信息。对于 Python 初学者来说，爬...
爬虫学习(一)：利用requests爬取猫眼电影top100
爬取猫眼电影Top100 最近学习爬虫环境 Python3.6 requests re 目标网站猫眼电影top...
动态网页实战| python爬虫+前端框架Bootstrap
今天我们来爬取动态网页-爬取猫眼电影实时票房数据首先打开猫眼专业版-实时票房可以看到黄色的电影票房一栏是实时更...
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存目的采用python爬虫爬取豆瓣电影Top25...
三阶段day26-爬虫介绍
爬取猫眼网站的电影信息爬取页面信息的基本思路是： 1、获取页面信息2、解析页面信息并匹配自己想要爬取的数据3、组...
Spider_maoyantop100
初涉爬虫，爬取猫眼电影的top100相关信息（下载电影海报到本地指定路径，并抓取电影名称、主演和上映时间以json...
抖音、猫眼网页信息加密分析与应对（1）
猫眼电影反爬攻防文集移动端网页端爬虫票房信息爬取示例按照上文操作一直很顺利，直到文章最后图1. 编码与实...