Chrome多用户实例基于CDP的Web爬虫自动化cookie获

作者: LCSan | 来源:发表于2024-01-24 23:44 被阅读0次

利用chrome debug protocol拿到自动化测试后的
使用ChromeDevTools协议编写自己的ChromeDri
Chrome remote debugging protocol
struts2集成kisso3.7没有监听器
Django JWT
初识python
Java操作Cookie工具类
网络爬虫组合
puppeteer page.setCookies() 失
web前端自动化测试利器puppeteer介绍

一 Chrome CDP简介和原理

1.1 Chrome CDP的概念

Chrome DevTools Protocol (CDP) 是一种允许第三方应用程序与浏览器进行通信的协议。它提供了一种与Chrome浏览器交互的方式，包括浏览器的各种功能和性能数据。通过CDP，开发者可以自动化测试、调试和监控浏览器行为，以及实现与浏览器交互的功能。

1.2 Chrome CDP的原理

Chrome CDP基于HTTP和WebSocket协议，通过这些协议与Chrome浏览器进行通信。在CDP中，浏览器和应用程序之间建立了一个双向通信通道，允许两者互相发送请求和接收响应。浏览器端实现了一个CDP服务器，处理来自应用程序的请求，并将结果返回给应用程序。

1.3 Chrome CDP在web爬虫中的应用

在web爬虫中，Chrome CDP可以用于自动化获取网页内容、处理网页元素、模拟用户行为等操作。通过CDP，爬虫可以与浏览器交互，获取更准确的网页数据，同时也可以模拟用户的操作，如点击按钮、填写表单等。此外，使用CDP还可以实现自动化测试和监控浏览器行为等功能，提高web爬虫的开发效率和准确性。

二浏览器启动和参数配置

2.1 通过快捷方式查找chrome的启动路径和参数

在Windows系统中，我们可以利用快捷方式的特性来查找Chrome的启动路径和参数。首先，找到Chrome的快捷方式，右键点击并选择“属性”，在“目标”一栏中，可以看到完整的启动路径和参数。这些参数对于后续的配置和调试都是非常重要的。

2.2 解析启动参数

Chrome的启动参数多种多样，其中一些参数对于我们的爬虫自动化任务来说是关键的。例如，--user-data-dir参数可以指定一个用户数据目录，让Chrome使用特定的用户配置，这对于我们模拟用户行为至关重要。此外，--incognito参数可以让Chrome以隐身模式启动，这样可以避免浏览器记录历史记录和cookies。

2.3 通过--profile-directory来指定用户

在Chrome中，每个用户的配置信息都保存在一个特定的目录下。通过--profile-directory参数，我们可以指定使用哪个用户的配置。例如，我们可以使用--profile-directory=Default来使用默认用户的配置，或者使用--profile-directory=Profile 1来使用名为“Profile 1”的用户的配置。这样，我们就可以在爬虫任务中为每个用户分别模拟其浏览器行为，提高数据的准确性和可靠性。

三 Chrome浏览器的启动与CDP的使用

3.1 如何通过chrome.remote来依次启动浏览器

为了通过chrome.remote来启动浏览器，首先需要确保已经安装了Chrome浏览器，并且你的爬虫程序有足够的权限来启动和控制它。以下是一个简单的示例：

import console;
import fsys;
import fsys.lnk;
import chrome.remote;
import web.socket.chrome;
import process;
import inet;
import win;

// 从chrome快捷方式，加载cookie
function initCookie(lnkPath){
    var lnk = fsys.lnk();
    var ln = lnk.load(lnkPath);     
    var args = string.splitEx(ln.arguments,"\s*--");   
    lnk.free();
    
    var params = {};
    
    for(k,v in args){
        if(#v){
            a = string.split(v,"=");
            if(#a>1){                               
                params["--" ++ a[1]] = string.trim(a[2],'"');
            }else {
                params["--" ++ a[1]] = true;
            }               
        }           
    }
    
    console.dumpTable(params);
    
    process.kill("chrome.exe");     
    var cr = chrome.remote(params);             
    console.log(cr.remoteDebuggingPort);                    
    
    // 创建cdp
    var ws = web.socket.chrome();
    var isOk;
    
    ws.on("Network.requestWillBeSent",function(param){
        if(string.find(param["request"]["url"],"popular_sell_order")){
            // 获取cookies
            ws.Network.getCookies(urls = {domain};).end = function(result,err){                     
                for(k,v in result["cookies"]){
                    inet.setCookie(domain,v["value"],v["name"]);                                
                }                       
                ws.close();
                win.setTimeout(
                    function(){
                        isOk = true;
                        ::PostThreadMessage(thread.getId(),1234,0,0);
                    },500
                )                       
            }
        }                       
    })
    // 链接第一个能用的页面
    ws.connectFirstDebuggingPage(cr.remoteDebuggingPort);
    // 等待链接完成
    ws.waitForConnected();                      
    // 激活cdp网络相关操作
    ws.Network.enable(maxTotalBufferSize = 10240;); 
    // 打开网页
    ws.Page.navigate(url = domain;);
    // 检测事件循环消息，直到cookies设置成功。
    do{
        win.pumpMessage();
    }while(!isOk)
    ws = null;
    process.kill("chrome.exe");
}


var domain = "https://buff.163.com/";

var chromes = fsys.list("C:\Users\administrator\Desktop\chrome",".*","*.lnk");
for(k,v in chromes){
    if(type(k)=="string"){
        initCookie(v);
    }
}

win.loopMessage();

console.pause();

四拦截目标请求与获取cookies

4.1 监听Network.requestWillBeSent事件进行请求拦截

在Web爬虫中，拦截目标请求是获取所需数据的关键步骤。通过监听Chrome DevTools Protocol（CDP）中的Network.requestWillBeSent事件，可以实现对目标请求的拦截。当浏览器发出网络请求之前，该事件会被触发，并提供请求的相关信息。利用这个事件，我们可以动态地修改请求参数或者在请求被发送前进行其他操作，例如获取请求的cookies。
当Network.requestWillBeSent事件被触发时，会返回一个包含多个属性的对象，其中包括了requestId、loaderId、documentUrl、request、timestamp等信息。其中，request对象包含了请求的详细信息，如URL、HTTP方法、头部字段等。通过对这些信息的解析，可以判断出是否为目标请求，并进行相应的拦截操作。

4.2 使用Network.getCookies获取指定域名下的cookies

在获取到目标请求后，为了能够模拟登录状态或者获取某些需要cookies验证的资源，我们需要获取目标域名下的cookies。通过Chrome DevTools Protocol中的Network.getCookies命令，可以实现这一目标。
Network.getCookies命令可以获取指定域名下的所有cookies。使用该命令时，需要提供目标域名的URL或者域名本身。命令返回的结果是一个cookies数组，每个元素代表一个cookie，包含了cookie的名称、值、路径、域名等属性。通过遍历这个数组，可以找到所需域名的cookies，并将其存储起来以供后续使用。
需要注意的是，为了能够获取到所有的cookies，需要在启动浏览器时禁用隐私模式，并且关闭第三方cookies的拦截。此外，由于浏览器安全限制，某些加密的或者使用HttpOnly属性的cookies可能无法通过CDP获取。在这些情况下，可能需要采用其他方法来获取这些cookies，如使用第三方插件或者脚本来实现。

五异步数据同步等待结果

5.1 PostThreadMessage和win.pumpMessage的使用

在处理Web爬虫中获取cookie的异步操作时，需要使用到PostThreadMessage和win.pumpMessage两个函数。PostThreadMessage用于向指定线程发送消息，可以用于在不同的浏览器线程之间进行通信。win.pumpMessage则是Windows平台下特有的消息循环函数，可以用来等待并处理线程消息。

5.2 异步数据同步等待结果的实现

在Web爬虫中，获取cookie的操作通常是异步的，需要等待浏览器启动、加载页面、发送请求等一系列操作完成之后才能获取到结果。为了确保获取到的数据准确无误，需要实现数据的同步等待。
具体实现方法如下：

在启动浏览器并发送请求之后，建立一个异步websocket客户端，监听Network.requestWillBeSent事件，异步触发事件后立即开始执行获取cookie的操作。在操作完成后，通过PostThreadMessage向主线程发送一个自定义的消息，通知主线程获取到的cookie数据已经准备好。

在主线程中，通过循环调用win.pumpMessage函数等待浏览器线程的消息。当接收到自定义的消息后，立即获取并处理获取到的cookie数据。

如果在规定的时间内未收到自定义的消息，则认为获取cookie的操作超时或失败，采取相应的处理措施。
通过以上方法，可以实现在Web爬虫中获取cookie的异步操作同步等待结果，确保数据的准确性和完整性。同时，这种方法也可以用于其他需要异步操作的场景中，提高了Web爬虫的效率和稳定性。

六实验结果分析与讨论

6.1 实验结果展示

通过实验，我们成功地使用基于Chrome CDP的Web爬虫自动化技术获取了目标网站的cookies。在实验过程中，我们分别对不同的网站进行了测试，并记录了实验结果。实验结果表明，该方法能够有效获取到目标网站的cookies，包括httponly的cookies。

6.2 方法有效性分析

为了验证本研究的方法是否有效，我们对比了使用基于Chrome CDP的Web爬虫自动化技术与传统的Web爬虫技术获取cookies的结果。实验结果表明，使用基于Chrome CDP的Web爬虫自动化技术获取cookies的成功率明显高于传统的Web爬虫技术。这是因为基于Chrome CDP的Web爬虫自动化技术可以更准确地模拟用户的浏览器行为，从而更好地获取目标网站的cookies。

6.3 方法优缺点探讨

优点：

准确性高：基于Chrome CDP的Web爬虫自动化技术可以更准确地模拟用户的浏览器行为，从而更准确地获取目标网站的cookies。

自动化程度高：该方法可以实现自动化获取cookies，大大提高了获取效率。

适用范围广：该方法不仅适用于普通网站，也适用于需要https协议的网站。

缺点：

依赖Chrome浏览器：该方法依赖于Chrome浏览器，如果目标网站使用了其他浏览器特有的技术，该方法可能无法正常工作。

可能被网站反爬虫机制识别：虽然基于Chrome CDP的Web爬虫自动化技术可以更准确地模拟用户的浏览器行为，但如果网站的反爬虫机制足够强大，可能会识别出该行为并进行拦截。

利用chrome debug protocol拿到自动化测试后的
不熟悉cdp的可以参见前文:Chrome remote debugging protocol在自动化测试中的应用和...
使用ChromeDevTools协议编写自己的ChromeDri
ChromeDevTools协议简称CDP，它允许对Chromium，Chrome和其他基于Blink的浏览器进行...
Chrome remote debugging protocol
从selenium说起虽然我们的主题是cdp（chrome debug protocol）的应用，但在介绍cdp...
struts2集成kisso3.7没有监听器
kisso = cookie sso 基于 Cookie 的 SSO 中间件，它是一把快速开发 java Web ...
Django JWT
参考基于 Token 的身份验证、JSON Web Token - 在Web应用间安全地传递信息、基于cookie...
初识python
python作用自动化运维、自动化测试、大数据分析、爬虫、Web... Python的种类 CpythonPyt...
Java操作Cookie工具类
在web开发中，很多时候我们都需要操作cookie，比如登录可以基于cookie来实现，又或者使用cookie来存...
网络爬虫组合
网络爬虫组合 selenium Web自动化测试工具,应用于Web自动化测试可以运行在浏览器,根据指定命令操作浏...
puppeteer page.setCookies() 失
测试成功的实例注意问题直接从Google Chrome 内获取的完整Cookie 属性不支持 SetCooki...
web前端自动化测试利器puppeteer介绍
web前端自动化测试利器puppeteer介绍 Intro Chrome59(linux、macos)、 Chro...

Chrome多用户实例基于CDP的Web爬虫自动化cookie获

一 Chrome CDP简介和原理

1.1 Chrome CDP的概念

1.2 Chrome CDP的原理

1.3 Chrome CDP在web爬虫中的应用

二浏览器启动和参数配置

2.1 通过快捷方式查找chrome的启动路径和参数

2.2 解析启动参数

2.3 通过--profile-directory来指定用户

三 Chrome浏览器的启动与CDP的使用

3.1 如何通过chrome.remote来依次启动浏览器

四拦截目标请求与获取cookies

4.1 监听Network.requestWillBeSent事件进行请求拦截

4.2 使用Network.getCookies获取指定域名下的cookies

五异步数据同步等待结果

5.1 PostThreadMessage和win.pumpMessage的使用

5.2 异步数据同步等待结果的实现

六实验结果分析与讨论

6.1 实验结果展示

6.2 方法有效性分析

6.3 方法优缺点探讨

相关文章

利用chrome debug protocol拿到自动化测试后的

使用ChromeDevTools协议编写自己的ChromeDri

Chrome remote debugging protocol

struts2集成kisso3.7没有监听器

Django JWT

初识python

Java操作Cookie工具类

网络爬虫组合

puppeteer page.setCookies() 失

web前端自动化测试利器puppeteer介绍

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

aardio

Chrome多用户实例基于CDP的Web爬虫自动化cookie获

一 Chrome CDP简介和原理

1.1 Chrome CDP的概念

1.2 Chrome CDP的原理

1.3 Chrome CDP在web爬虫中的应用

二 浏览器启动和参数配置

2.1 通过快捷方式查找chrome的启动路径和参数

2.2 解析启动参数

2.3 通过--profile-directory来指定用户

三 Chrome浏览器的启动与CDP的使用

3.1 如何通过chrome.remote来依次启动浏览器

四 拦截目标请求与获取cookies

4.1 监听Network.requestWillBeSent事件进行请求拦截

4.2 使用Network.getCookies获取指定域名下的cookies

五 异步数据同步等待结果

5.1 PostThreadMessage和win.pumpMessage的使用

5.2 异步数据同步等待结果的实现

六 实验结果分析与讨论

6.1 实验结果展示

6.2 方法有效性分析

6.3 方法优缺点探讨

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

二浏览器启动和参数配置

四拦截目标请求与获取cookies

五异步数据同步等待结果

六实验结果分析与讨论