Python爬虫 - 记一次字体反爬

作者: 2h0n9 | 来源:发表于2019-04-22 15:11 被阅读0次

Python爬虫 - 记一次字体反爬
自学Python爬虫：常见的反爬与反爬处理
抖音爬虫教程，python爬虫采集反爬策略
Python字体反爬
1-基本概念
Python爬虫杂记 - 字体文件反爬（一）
Python爬虫杂记 - 字体文件反爬（二）
反爬虫到底是怎么一回事？
小白也可以看会的破解抖音字体反爬
python爬虫-05-python爬虫代理，python爬虫如

前言

最近一直在为找工作烦恼，刚好遇到一家公司要求我先做几道反爬虫的题，看了之后觉得自己还挺菜的，不过也过了几关，刚好遇到一个之前没遇到过的反爬虫手段 — 字体反爬

正文

一、站点分析

题目要求：这里有一个网站，分了1000页，求所有数字的和。注意，是人看到的数字，不是网页源码中的数字哦~

页面

就这，从图里能看出数字的字体有些不同，看看源码是什么样的

网页源码

可以看到，源码里的内容和网页上显示的内容根本不一样，当然，题目也说了；那么这是怎么回事呢，切换到 Network 栏，刷新网页看看请求

network内容

可以看到，这里有两个字体请求，选择后可以预览字体

字体预览

很明显，数字有点问题，被改过了，上面那一个请求的字体文件是正常的字体（下图），可以拿来做比较，以便于我们分析

正常字体

一般来说字体文件的数字就是这样的顺序 1 2 3 4 5 6 7 8 9 0 ，以这个为模板，被修改后的字体中的数字 2 处与 正常字体 中 9 的位置。回到网页源码和内容，网页上显示 274 ，实际源码中是 920（下图），用上面的字体做替换我们会发现，2 在被 修改过的字体 中的位置是 8 ，而 8 在 正常字体 中就是 8，由此可得结论：我们只要把这 修改过的字体 搞到手，然后把网页上显示的内容逐个拆分为单个数字，然后从字体中匹配出正常字体就行了，不过，根据题目，我们需要反着来做，也就是从源码入手，获取到内容后拆分为单个字体，接着从字体中获取网页上显示的内容。

对比

我自己写的时候都觉得头晕，直接写代码，这样能更好的表达我要说什么，不过，这里要说一点，据我分析，这个网页有1000页，每一页的字体都是不同的，就需要每获取一个网页就得重新获取被修改的字体。我这里用的是 scrapy 框架。

二、代码阶段

首先新建一个scrapy项目

➜  ~ scrapy startproject glidedsky
New Scrapy project 'glidedsky', using template directory '/usr/local/lib/python3.7/site-packages/scrapy/templates/project', created in:
    /Users/zhonglizhen/glidedsky

You can start your first spider with:
    cd glidedsky
    scrapy genspider example example.com
➜  ~

接着创建一个Spider

➜  ~ cd glidedsky 
➜  ~ glidedsky scrapy genspider glidedsky glidesky.com
Cannot create a spider with the same name as your project
➜  ~ glidedsky

scrapy 怎么用我就不说了，直接看代码

# glidedsky.py
import scrapy
import requests
import re

from glidedsky.items import GlidedskyItem
from glidedsky.spiders.config import *


class GlidedskySpider(scrapy.Spider):
    name = 'glidedsky'
    start_urls = ['http://glidedsky.com/level/web/crawler-font-puzzle-1']

    def __int__(self):
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',
        }

    def request(self, url, callback):
        request = scrapy.Request(url=url, callback=callback)
        # 添加 cookies
        request.cookies['XSRF-TOKEN'] = XSRF_TOKEN
        request.cookies['glidedsky_session'] = glidedsky_session
        # 添加 headers
        request.headers['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
        return request

    def start_requests(self):
        for i, url in enumerate(self.start_urls):
            yield self.request(url, self.parse_item)

    def parse_item(self, response):
        """
        解析numbers
        :param response:
        :return:
        """
        body = response.css('html').get()
        self.save_font(body)
        col_md_nums = response.css('.col-md-1::text').extract()
        items = GlidedskyItem()
        for col_md_num in col_md_nums:
            # 这里获取到的是源码中的内容，并不是我们在网页上看到的内容，需要去数据管道进一步处理
            items['numbers'] = col_md_num.replace('\n', '').replace(' ', '')
            yield items
        # 获取下一页
        next = response.xpath('//li/a[@rel="next"]')
        # 判断是否有下一页
        if len(next) > 0:
            next_page = next[0].attrib['href']
            # response.urljoin 可以帮我们构造下一页的链接
            url = response.urljoin(next_page)
            yield self.request(url=url, callback=self.parse_item)

    def save_font(self, body):
        """
        保存字体到本地
        :param response: 网页源代码
        :return:
        """
        pattern = r'src:.url\("(.*?)"\).format\("woff"\)'
        woff_font_url = re.findall(pattern, body, re.S)
        print(woff_font_url)
        resp = requests.get(woff_font_url[0], headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'})
        with open(WOFF_FONT_FILENAME, 'wb') as f:
            f.write(resp.content)

在解析字体之前先分析一下字体文件的内容，因为这里面有坑（起码我这个站点是这样），下载好字体后，用python的 fontTools 库把 woff格式 转成 xml文件，然后打开；或者用 font-creator 直接打开，但是这个工具只有windows上有，所以这里就用第一种方法。

1、先把 woff格式 转成 xml格式 文件

import requests
from fontTools.ttLib import TTFont

# 先把字体文件下载下来
url = "https://guyujiezi.com/fonts/LQ1K9/1A7s3D.woff"
filename = url.split('/')[-1]
resp = requests.get(url)
with open(filename, 'wb') as f:
    f.write(resp.content)
# 接着用 TTFont 打开文件
font = TTFont(filename)
# TTFont 中有一个 saveXML 的方法
font.saveXML(filename.replace(filename.split('.')[-1], 'xml'))

2、用文本编辑器打开

只需要看 GlyphOrder 项就行了，其实直接看 GlyphOrder 一个屁都看不出来，完全和之前做的分析不一样，不过仔细观察后发现这里面也被人做了手脚，1703589624 这跟电话号码一样的就是上面看到的 修改后的字体 预览到的，可能这样还是看不出什么；其中 id 属性的值为 修改后的字体 中的数字，name 属性为 正常字体，但是根本不对，之前算过，网页中的 274，正常内容是 920，而下面，2 明显对应着 zero ，其实我在这里被坑了，如果把 2+1=3 ，3 不就是对应着 nine 了吗，然后发现后面 74 也是对应着 20，有 12 项 GlyphID 的目的就是坑我们的（我猜的），不过这确实挺坑的。分析过后可以开始写代码了

GlyphOrder

3、代码如下，这是 pipelines.py 文件

# pipelines.py
# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
from scrapy.exceptions import DropItem

from fontTools.ttLib import TTFont
from glidedsky.spiders.config import *


class GlidedskyPipeline(object):

    result = 0

    def process_item(self, item, spider):
        if item['numbers']:
            numbers = item['numbers']
            #print("@@@@@ 假数字: %s \n" % numbers)
            font = TTFont(WOFF_FONT_FILENAME) # 首先创建一个TTFont对象，参数为字体文件的路径
            true_number = "" 
            for num in range(len(numbers)):
                fn = NUMBER_TEMP[numbers[num]] # 从模版中获取数字对应着的英语单词
                glyph_id = int(font.getGlyphID(fn)) - 1 # font.getGlyphID 方法是根据GlyphID name属性获取id属性的值，参数传入name值，最后减一
                true_number += str(glyph_id)
            self.result += int(true_number)
            print("@@@@@ 计算结果: %d" % self.result)

        else:
            return DropItem('Missing Number.')

config.py

DATA_PATH = '/Volumes/HDD500G/Documents/Python/Scrapy/glidedsky/glidedsky/data' # 这是我为了存储字体文件新建的文件夹
WOFF_FONT_FILENAME = DATA_PATH + '/woff-font.woff'
XSRF_TOKEN = ''
glidedsky_session = ''
NUMBER_TEMP = {'1': 'one', '2': 'two', '3': 'three', '4': 'four', '5': 'five', '6': 'six', '7': 'seven', '8': 'eight', '9': 'nine', '0': 'zero'} # 这个模版是为了方便我计算，题目需要

items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class GlidedskyItem(scrapy.Item):
    # define the fields for your item here like:
    numbers = scrapy.Field()

settings.py，设置我就不全部贴了，只贴需要改的部分

# 这本来是注释掉了的
ITEM_PIPELINES = {
   'glidedsky.pipelines.GlidedskyPipeline': 300,
}

接着直接运行即可

➜ cd /你项目存储地址/glidedsky/
➜ scrapy startpoject glidedsky

输出结果就不展示了，贼鸡儿多

结论

这种反爬虫手段是我第一次遇到，以前遇到的也就验证码和ip限制，不过也算是涨了知识，最后结果是我解决了

Python爬虫 - 记一次字体反爬
前言最近一直在为找工作烦恼，刚好遇到一家公司要求我先做几道反爬虫的题，看了之后觉得自己还挺菜的，不过也过了几关，...
自学Python爬虫：常见的反爬与反爬处理
有爬虫就有反爬虫的，双方都是一直在博弈升级中。常见的反爬虫措施有：字体反爬基于用户行为反爬虫基于动态页面的...
抖音爬虫教程，python爬虫采集反爬策略
抖音爬虫教程，python爬虫采集反爬策略一、爬虫与反爬简介爬虫就是我们利用某种程序代替人工批量读取、获取网站上的...
Python字体反爬
前些日子，爬取起点中文网的过程中，发现代码没有错，是根据书上的教程来的，结果爬下的小说字数不对，百思不得其解。百度...
1-基本概念
简介为什么选择Python做爬虫需要技能爬虫与反爬虫网络爬虫类型通用网络爬虫聚焦网络爬虫增量式网络爬...
Python爬虫杂记 - 字体文件反爬（一）
ttf 文件反爬想写这篇文章的起源是在一个技术群里，有人讨论去哪网(手机端)的反爬：请求下来的数字跟浏览器上的数...
Python爬虫杂记 - 字体文件反爬（二）
字体文件反爬在搞定静态字库反爬之后，可以解决部分字体文件的反爬，但动态字文件反爬是解决不掉的。此文章就是为解...
反爬虫到底是怎么一回事？
爬虫与反爬虫永远是相生相克的：当爬虫知道了反爬策略就可以制定反-反爬策略，同样地，网站知道了爬虫的反-反爬策略就可...
小白也可以看会的破解抖音字体反爬
现在的网站，处处都是反爬，我们这些爬虫的经常需要和他们斗智斗勇，就看谁更厉害。这不，就连字体也弄成了反爬，而且还不...
python爬虫-05-python爬虫代理，python爬虫如
1、python爬虫代理使用python爬虫高频率的访问一个固定的网站的话，容易触发该目的网站的反爬机制，将你对...

Python爬虫 - 记一次字体反爬

前言

正文

一、站点分析

二、代码阶段

scrapy 怎么用我就不说了，直接看代码

结论

相关文章

Python爬虫 - 记一次字体反爬

自学Python爬虫：常见的反爬与反爬处理

抖音爬虫教程，python爬虫采集反爬策略

Python字体反爬

1-基本概念

Python爬虫杂记 - 字体文件反爬（一）

Python爬虫杂记 - 字体文件反爬（二）

反爬虫到底是怎么一回事？

小白也可以看会的破解抖音字体反爬

python爬虫-05-python爬虫代理，python爬虫如

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读