web指纹识别技术

作者: 卿酌南烛_b805 | 来源:发表于2020-07-19 20:51 被阅读0次

web指纹识别技术
屏下指纹识别技术三星S9已放弃！
WhatWeb使用
开发人脸识别的教程太多了, Python实现指纹识别你闻所未闻?
现在什么品牌的手机都有指纹识别！今天自己做一款指纹识别玩玩！
web渗透测试基础
听说指纹识别并不安全，这是真的吗？
指纹识别手持终端
WEB指纹识别
中国被忽视的一项技术，领先西方2000多年，如今成为警察破案必备

1.指纹识别介绍

指纹是指网站CMS指纹识别、计算机操作系统以及web容器。在渗透测试中，对目标服务器进行指纹识别是非常有必要的，因为只有识别出相应的web容器或者CMS，才能查看与其相关的漏洞，然后利用可用的漏洞进行相应的渗透测试。

2.CMS介绍

CMS(Content Management System)又称整站系统或文章系统。在2004年以前，如果想进行网站内容管理，基本上需要靠手动维护，但在信息爆炸的时代，完全靠手工维护就会相当痛苦。所以就出现了CMS，开发者只需要给客户一个软件包，客户自己安装配置好，就可以定期更新数据来维护网站，节省了大量的人力和物力。

3.常见CMS介绍

🥒php类cms系统：dedeCMS、帝国CMS、php168、phpCMS、cmstop、discuz、phpwind等

🥒asp类cms系统：zblog、KingCMS等

🥒.net类cms系统：EoyooCMS等

🥒国外的著名cms系统：joomla、WordPress 、magento、drupal 、mambo等

目前网络上开源的web指纹识别程序很多，如Wapplyzer,BlindElephant，plecost，w3af,whatweb, wpscan, joomscan等等，基本都是国外的，使用的时候因各方面因素会有一些限制，在某些特定环境下需要自己定制指纹识别工具，本文会浅析这些指纹识别程序的原理以及如何编写一个web应用指纹识别程序,完全没有技术含量，有不妥的地方还望各种SM。

0×01:识别的几种方式

目前常见的web应用指纹识别主要有以下几种方式，泽总已经总结的很明确了。

1：网页中发现关键字

2：特定文件的MD5（主要是静态文件、不一定要是MD5）

3：指定URL的关键字

4：指定URL的TAG模式

以上4种模式结合起来识别的话正确率一般在95%以上，除非个别BT的站点修改的体无完肤，如meta、文件路径、css等都删除了或故意修改成其他的webapp等，那我只能说你屌爆了。

0×02:识别方式详解

一般应用程序在html、js、css等文件中多多少少会包含一些特征码，这跟ips、waf等产品的特性有点类似，有特征码匹配模式。比如 wordpress如果没有特细隐藏的话，在robots.txt中会包含wp-admin之类，首页index.php中会包含 generator=wordpress 3.xx，后面为版本号，页面中会包含wp-content路径等等。

这几条都是存在网页中的关键字。其他的应用也有类似的例子，如discuz、dedecms、phpwind等在页面中都会发现一些固定的特征码。特征码如何查找这里不详细说明了，下期会有文章详细说明如何批量查找特征码，接下来先介绍一下几款常见的web应用指纹识别程序。

1：Wapplyzer

Wapplyzer是基于正则表达式来识别web应用的，如下图：

仔细看看Wapplyzer的规则其实很简单,挑一条看看，如下：

‘WordPress’: { cats: { 1: 1, 2: 11 }, meta: { ‘generator’: /WordPress/i }, html: /

2:plecost

plecost是基于python架构，利用了Beautiful Soup 来解析html、xml文件识别网站使用的插件及版本。要了解plecost的原理，必须先知道Beautiful Soup是干啥用的，简单科普下Beautiful Soup：

Beautiful Soup 是一个 Python HTML/XML 处理器，设计用来快速地转换网页抓取。以下的特性支撑着 Beautiful Soup：

Beautiful Soup 不会选择即使你给他一个损坏的标签。他产生一个转换DOM树，尽可能和你原文档内容含义一致。这种措施通常能够你搜集数据的需求。

Beautiful Soup 提供一些简单的方法以及类Python语法来查找、查找、修改一颗转换树：一个工具集帮助你解析一棵树并释出你需要的内容。你不需要为每一个应用创建自己的解析工具。

Beautiful Soup 自动将送进来的文档转换为 Unicode 编码而且在输出的时候转换为 UTF-8,。除非这个文档没有指定编码方式或者Beautiful Soup 没能自动检测编码，你需要手动指定编码方式，否则你不需要考虑编码的问题。

再看看plecost代码，如下图：

加载并读取wp_plugin_list.txt，利用urlopen探测目标url是否存在该插件。Plecos编写插件也非常方便，在wp_plugin_list.txt里面写上插件名称、最新版本号和cve即可。

3：whatweb

whatweb 是一个web应用程序指纹识别工具，可以鉴别出内容管理系统(CMS)、博客平台、统计分析软件、javascript库、服务器和其他更多Web程序。 whatweb拥有超过900个插件，插件是用来鉴别Web应用系统的。因此，开发者呼吁更多的人帮助开发插件，不用担心作者声称插件是十分容易编写的。

可以说whatweb是目前网络上比较强大的一款应用识别程序了。它支持正则表达式、md5 hash匹配、url识别、HTML标记模式、蜘蛛爬行等等。

Whatweb插件编写需要理解一些变量的定义，通过下面的例子就可以看出个大概，如下：

Plugin.define “Plone” do

author “Andrew Horton”

version “0.2″

description “CMS http://plone.org”

examples %w| www.norden.org www.trolltech.com www.plone.net www.smeal.psu.edu|dorks [

'"powered by plone"'

]matches [

{:name=>"meta generator tag",

:regexp=>//},

{:name=>"plone css",

:regexp=>/(@import url|text/css)[^>]*portal_css/.*plone.*css()|”)/}, #”

{:name=>”plone javascript”,

:regexp=>/src=”[^"]*ploneScripts[0-9]+.js”/}, #”

{:text=>’‘}, {:name=>”div tag, visual-portal-wrapper”, :certainty=>75, :text=>’

‘}, ] def passive m=[] #X-Caching-Rule-Id: plone-content-types #X-Cache-Rule: plone-content-types m << {:name=>”X-Caching-Rule-Id: plone-content-types” } if @meta["x-caching-rule-id"] =~ /plone-content-types/i m << {:name=>”X-Cache-Rule: plone-content-types” } if @meta["x-cache-rule"] =~ /plone-content-types/i m end end

:name=>”meta generator tag”, : 包含匹配的文件名称，这个文件必须是网站中唯一存在的文件。

:regexp=>是包含的要匹配的模式，它是一个正则表达式，可以有以下选项：

:regexp 标准的ruby正则表达式

:text 字符

:ghdb google hack数据库，包含以下几个模式

inurl: 包含的字符串在url

intitle: 包含的字符串在title

filetype: 包含的文件名，如PDF, JPG, RB等

:md5 请求页面的md5 hash值

:tagpattern html标签

:version 可以设置正则表达式或直接字符串匹配

:string 可以设置正则表达式或直接字符串匹配

:filepath可以设置正则表达式或直接字符串匹配，通常显示系统错误或配置文件等

:account 经常用在登陆页面或用户列表等

:module 可以设置正则表达式或直接字符串匹配，如网络设备可能使用了一个ruby模块等

:model 可以设置正则表达式或直接字符串匹配

:firmware 可以设置正则表达式或直接字符串匹配，设备的固件版本

了解了以上选项我们可以写出一个简单的识别discuz的插件，如下：

Plugin.define “discuz” do

author “freebuf@gmail.com” # 2012-05-28

version “0.1″

description “discuz – homepage: http://www.discuz.net/”# Examples #

examples %w|

www.discuz.net|matches [

# Version detection # Powered by text

{ :version=>// },

{ :version=>/

运行如下图：

更多whatweb插件开发参考：http://www.morningstarsecurity.com/research/whatweb

0×03：如何编写web指纹识别程序

现在网络上做指纹识别用的最多的是BeautifulSoup，这个插件上面已经介绍过了，并且很多web应用指纹识别程序使用了该插件，这里就不多介绍了，今天主要介绍下另外一个框架：scrapy

Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结 Scrapy Pthyon爬虫框架 logo[1]构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

Scrapy 使用 Twisted 这个异步网络库来处理网络通讯，架构清晰，并且包含了各种中间件接口，可以灵活的完成各种需求。整体架构如下图所示：

绿线是数据流向，首先从初始 URL 开始，Scheduler 会将其交给 Downloader 进行下载，下载之后会交给 Spider 进行分析，Spider 分析出来的结果有两种：一种是需要进一步抓取的链接，例如之前分析的“下一页”的链接，这些东西会被传回 Scheduler ；另一种是需要保存的数据，它们则被送到 Item Pipeline 那里，那是对数据进行后期处理（详细分析、过滤、存储等）的地方。另外，在数据流动的通道里还可以安装各种中间件，进行必要的处理。

如果想做一个好的准确的，非常牛逼的web指纹识别，自然少不了爬虫机制，而做一个爬虫主要分两部分：

一：下载 Web 页面，有许多问题需要考虑，如何最大程度地利用本地带宽，如何调度针对不同站点的 Web 请求以减轻对方服务器的负担等。一个高性能的 Web Crawler 系统里，DNS 查询也会成为急需优化的瓶颈。

二：一些“行规”需要遵循（例如 robots.txt）。而获取了网页之后的分析过程也是非常复杂的，Internet 上的东西千奇百怪，各种错误百出的 HTML 页面都有，要想全部分析清楚几乎是不可能的事；另外，随着 AJAX 的流行，如何获取由 Javascript 动态生成的内容成了一大难题；除此之外，Internet 上还有有各种有意或无意出现的Spider Trap ，如果盲目的跟踪超链接的话，就会陷入 Trap 中万劫不复了

不过，其实并没有多少人需要做像 Google 那样通用的 Crawler ，我们做一个 Crawler 就是为了去爬特定的某个网站来进行指纹识别，所谓知己知彼，百战不殆，我们可以事先对需要爬的网站结构做一些分析，事情就变得容易多了。通过分析，选出有价值的链接进行跟踪，然后再进行指纹识别。这样就可以避免很多不必要的链接或者 Spider Trap。

举个例子，我们添加一个discuz的识别程序，

Discuz我简单例了2个特征码如下：

页面中meta标签的generator属性为Discuz

robots.txt 里面也会有版本信息

OK，以上2个特征码已经能简单识别该应用了，我们利用scrapy来提取数据并识别应用。scrapy提取数据主要用到了XPath，它有提供两个XPath 选择器，HtmlXPathSelector和XmlXPathSelector，一个用于HTML，一个用于XML，XPath选择器有三个方法:

select(xpath): 返回一个相对于当前选中节点的选择器列表（一个XPath可能选到多个节点）

extract(): 返回选择器（列表）对应的节点的字符串（列表）

re(regex): 返回正则表达式匹配的字符串（分组匹配）列表

了解了以上方法，写起来就比较简单了，下面举个非常简单的例子：

from scrapy.spider import BaseSpider

from scrapy.selector import HtmlXPathSelector

from scrapy.utils.url import urljoin_rfc,urllib,reclass XSSSpider(BaseSpider):

name=”freebuf”

allowed_domains=["freebuf.com"]

start_urls=["http://forum.freebuf.com"]def parse(self, response):

hxs = HtmlXPathSelector(response)

c = hxs.select(‘//meta[@name="generator"]/@content’).extract()

urls = urljoin_rfc(response.url,”robots.txt”)

t = urllib.urlopen(urls)

#print a

a = re.findall(“[Dd]iscuz.*”,t.read())

if (a or c):

print “Web application details : Discuz”

else:

print “Web application version not found!”

到主项目目录运行：scrapy crawl freebuf

以上只是个简单的例子，当然你也可以多种条件结合到一起写成插件的方式调用，如下：

FreebuF["WordPress"] = {

‘//meta[ () name="generator" and starts-with(@content,"WordPress")]‘,

‘//head/link[ () rel="stylesheet" and @type="text/css" and contains( @href, "/wp-content/")]‘,

‘//div[ () id="content"]/div[ () and starts-with(@id, "post-") and div[ ()] and div[

()] and div[ ()] and div[ ()]]’,

}

0×04:后续的一些思考

简单的web应用识别不会涉及到爬虫机制，但是如果需其他更详尽的信息以及更准确的识别web应用，以及后期扩展其他功能，不可缺少的是爬虫机制，而爬虫也直接影响到程序的执行效率、速度是否够快，识别是否准确等。这里就涉及到大规模递归抓取了，如果使用scrapy来做爬虫的话，可能要修改scrapy来处理以下几个问题：

1：快速的link extractor

python的SGMLParser实在是太慢了，使用 SgmlLinkExtractor会让爬虫把大部分的时间都浪费在解析网页上，最好自己写一个link extractor，也可以用正则表达式来写link extractor，速度快，问题是不理解html语义，会把注释里的链接也包含进来。另外基于javascript重定向url也要在这里提取出来。

2：Spider Trap

因为spider trap一般是由动态网页实现的，最简单的方案就是先通过url是否包含”?”来判断一个网页是否是动态网页，然后取得不包含参数的url地址，对这个地址进行计数，设置一个阈值，超过阈值之后不再抓取。

3:增量抓取

一个针对多个网站的爬虫很难一次性把所有网页爬取下来，并且网页也处于不断更新的状态中，爬取是一个动态的过程，爬虫支持增量的抓取是很必要的。

4：快速识别

爬虫抓取数据的时候我们可以定位抓取的数据为js、css、html等，也可指定特定的文件夹文件名称，如gif、jpg、 png之类。

web指纹识别技术
web指纹识别技术 1.指纹识别介绍指纹是指网站CMS指纹识别、计算机操作系统以及web容器。在渗透测试中，对...
屏下指纹识别技术三星S9已放弃！
手机从无指纹识别技术，到有指纹识别技术，再到无指纹识别技术，都是iPhone系列的手机在带动，今年新出iPhone...
WhatWeb使用
简介 WhatWeb是一个开源的网站指纹识别软件。 WhatWeb可识别Web技术，包括内容管理系统（CMS），博...
开发人脸识别的教程太多了, Python实现指纹识别你闻所未闻?
指纹识别技术是目前最成熟且价格便宜的生物特征识别技术。目前来说指纹识别的技术应用最为广泛，随处都可以看到指纹识别技...
现在什么品牌的手机都有指纹识别！今天自己做一款指纹识别玩玩！
指纹识别技术是目前最成熟且价格便宜的生物特征识别技术。目前来说指纹识别的技术应用最为广泛，随处都可以看到指纹识别技...
web渗透测试基础
web应用发现 nmap扫描看请求响应信息 web指纹识别触发报错 nmap扫描 nmap -Pn -sT -...
听说指纹识别并不安全，这是真的吗？
智能时代来临，生物识别技术更是层出不穷。例如门禁系统里面的指纹识别技术、正在崛起的人脸识别技术。指纹识别因其实用性...
指纹识别手持终端
富立叶数据采集指纹识别技术是目前最成熟且价格便宜的生物特征识别技术。目前来说指纹识别的技术应用最为广泛，我们不仅在...
WEB指纹识别
1.WEB指纹识别的几个方式： 1：网页中发现关键字 2：特定文件的MD5（主要是静态文件、不一定要是MD5） 3...
中国被忽视的一项技术，领先西方2000多年，如今成为警察破案必备
说起破案技术，无论是在现实生活中，还是影视剧里最关键的一项就是指纹识别技术。很多人认为西方的指纹识别技术领先于中国...