深入解析JS工程逆中的反爬机制

作者: SunY7 | 来源:发表于2023-07-19 16:25 被阅读0次

Python小记：Python常用js解析以及selenium+
Python爬虫——学习字体反爬获取某招聘信息
保姆级反爬教学，JS逆向实现字体反爬
python爬虫js加密篇—搜狗微信公号文章的爬取
js new 运行机制
JS中基于原型实现继承
JavaScript解析机制与闭包原理实例详解
JS反爬，万丈深渊从此不回头
深入解析js的作用域、预解析机制
浏览器的渲染机制

00946-4113027440-_modelshoot style,a girl on the computer, (extremely detailed CG unity 8k wallpaper), full shot body photo of the most beautiful.png

在当今互联网时代，爬虫技术被广泛应用于数据采集、搜索引擎优化等领域。然而，许多网站为了保护其数据和资源，采取了各种反爬机制。JS逆工程是其中一种常见的反爬手段，通过在网页中利用JavaScript代码动态生成内容，使得爬虫难以获取有效数据。本文深入解析了JS逆工程中的反爬机制，并提供了解决方案。
JS逆工程的原理是通过分析网页中的JavaScript代码，还原出网页的动态生成过程，从而获取最终的内容。常见的反爬机制包括动态生成的HTML内容、动态生成的URL、动态生成的表单等。这些动态生成的内容使得爬虫无法直接获取有效的数据。
为了解决JS逆工程中的反爬机制，我们可以模拟JS执行环境，使得爬虫能够执行网页中的JavaScript代码，并获取最终的内容。通过使用Python的pyppeteer库，我们可以创建一个浏览器实例，加载网页并获取内容。另外，还可以使用浏览器自动化工具如Selenium，或使用正则表达式或解析库来提取动态生成的内容。
在下面的示例中，网页使用JavaScript代码动态生成了一些HTML内容，并将其插入到网页中。这种动态生成的内容使得爬虫无法直接获取有效的数据
<html>
<head>
<script>
function generateContent() {
var data = fetchDataFromServer(); // 从服务器获取数据
var content = '';

        for (var i = 0; i < data.length; i++) {
            content += '<div>' + data[i] + '</div>'; // 动态生成HTML内容
        }

        document.getElementById('content').innerHTML = content; // 将内容插入到网页中
    }

    function fetchDataFromServer() {
        // 通过AJAX请求从服务器获取数据
        // ...
    }
</script>

</head>
<body onload="generateContent()">
<div id="content"></div>
</body>
</html>
解决方案：模拟JS执行环境为了解决JS逆工程中的反爬机制，我们可以模拟JS执行环境，使得爬虫能够执行网页中的JavaScript代码，并获取最终的内容。以下是一个使用Python的示例代码：
import requests
from pyppeteer import launch

async def fetch_content(url):
browser = await launch()
page = await browser.newPage()
await page.goto(url)
content = await page.content()
await browser.close()
return content

url = 'https://example.com'
content = await fetch_content(url)

处理获取到的内容

...

其他解决方案除了模拟JS执行环境，还有其他一些解决方案可以应对JS逆工程中的反爬机制。例如，可以使用浏览器自动化工具，如Selenium，来模拟用户操作，执行网页中的JavaScript代码，并获取最终的内容。另外，还可以使用正则表达式或解析库来提取动态生成的内容。
import re

text = 'The proxy server is located at t.16yun.cn:30001'

亿牛云爬虫代理信息设置

proxyHost = 't.16yun.cn'
proxyPort = 30001

使用正则表达式提取代理信息

pattern = r'(\w+)\s+server\s+is\s+located\s+at\s+(\S+):(\d+)'
match = re.search(pattern, text)

if match:
server_type = match.group(1)
proxy_host = match.group(2)
proxy_port = int(match.group(3))

if proxy_host == proxyHost and proxy_port == proxyPort:
    print(f"The {server_type} server is the desired proxy server.")
else:
    print(f"The {server_type} server is not the desired proxy server.")

else:
print("No proxy server information found in the text.")
在实际应用中，我们可以根据具体的需求选择合适的解决方案。无论是模拟JS执行环境还是使用其他工具，我们都可以克