美文网首页aardio
Chrome多用户实例基于CDP的Web爬虫自动化cookie获

Chrome多用户实例基于CDP的Web爬虫自动化cookie获

作者: LCSan | 来源:发表于2024-01-24 23:44 被阅读0次

    一 Chrome CDP简介和原理

    1.1 Chrome CDP的概念

      Chrome DevTools Protocol (CDP) 是一种允许第三方应用程序与浏览器进行通信的协议。它提供了一种与Chrome浏览器交互的方式,包括浏览器的各种功能和性能数据。通过CDP,开发者可以自动化测试、调试和监控浏览器行为,以及实现与浏览器交互的功能。

    1.2 Chrome CDP的原理

      Chrome CDP基于HTTP和WebSocket协议,通过这些协议与Chrome浏览器进行通信。在CDP中,浏览器和应用程序之间建立了一个双向通信通道,允许两者互相发送请求和接收响应。浏览器端实现了一个CDP服务器,处理来自应用程序的请求,并将结果返回给应用程序。

    1.3 Chrome CDP在web爬虫中的应用

      在web爬虫中,Chrome CDP可以用于自动化获取网页内容、处理网页元素、模拟用户行为等操作。通过CDP,爬虫可以与浏览器交互,获取更准确的网页数据,同时也可以模拟用户的操作,如点击按钮、填写表单等。此外,使用CDP还可以实现自动化测试和监控浏览器行为等功能,提高web爬虫的开发效率和准确性。

    二 浏览器启动和参数配置

    2.1 通过快捷方式查找chrome的启动路径和参数

      在Windows系统中,我们可以利用快捷方式的特性来查找Chrome的启动路径和参数。首先,找到Chrome的快捷方式,右键点击并选择“属性”,在“目标”一栏中,可以看到完整的启动路径和参数。这些参数对于后续的配置和调试都是非常重要的。

    2.2 解析启动参数

      Chrome的启动参数多种多样,其中一些参数对于我们的爬虫自动化任务来说是关键的。例如,--user-data-dir参数可以指定一个用户数据目录,让Chrome使用特定的用户配置,这对于我们模拟用户行为至关重要。此外,--incognito参数可以让Chrome以隐身模式启动,这样可以避免浏览器记录历史记录和cookies。

    2.3 通过--profile-directory来指定用户

      在Chrome中,每个用户的配置信息都保存在一个特定的目录下。通过--profile-directory参数,我们可以指定使用哪个用户的配置。例如,我们可以使用--profile-directory=Default来使用默认用户的配置,或者使用--profile-directory=Profile 1来使用名为“Profile 1”的用户的配置。这样,我们就可以在爬虫任务中为每个用户分别模拟其浏览器行为,提高数据的准确性和可靠性。

    三 Chrome浏览器的启动与CDP的使用

    3.1 如何通过chrome.remote来依次启动浏览器

      为了通过chrome.remote来启动浏览器,首先需要确保已经安装了Chrome浏览器,并且你的爬虫程序有足够的权限来启动和控制它。以下是一个简单的示例:

    import console;
    import fsys;
    import fsys.lnk;
    import chrome.remote;
    import web.socket.chrome;
    import process;
    import inet;
    import win;
    
    // 从chrome快捷方式,加载cookie
    function initCookie(lnkPath){
        var lnk = fsys.lnk();
        var ln = lnk.load(lnkPath);     
        var args = string.splitEx(ln.arguments,"\s*--");   
        lnk.free();
        
        var params = {};
        
        for(k,v in args){
            if(#v){
                a = string.split(v,"=");
                if(#a>1){                               
                    params["--" ++ a[1]] = string.trim(a[2],'"');
                }else {
                    params["--" ++ a[1]] = true;
                }               
            }           
        }
        
        console.dumpTable(params);
        
        process.kill("chrome.exe");     
        var cr = chrome.remote(params);             
        console.log(cr.remoteDebuggingPort);                    
        
        // 创建cdp
        var ws = web.socket.chrome();
        var isOk;
        
        ws.on("Network.requestWillBeSent",function(param){
            if(string.find(param["request"]["url"],"popular_sell_order")){
                // 获取cookies
                ws.Network.getCookies(urls = {domain};).end = function(result,err){                     
                    for(k,v in result["cookies"]){
                        inet.setCookie(domain,v["value"],v["name"]);                                
                    }                       
                    ws.close();
                    win.setTimeout(
                        function(){
                            isOk = true;
                            ::PostThreadMessage(thread.getId(),1234,0,0);
                        },500
                    )                       
                }
            }                       
        })
        // 链接第一个能用的页面
        ws.connectFirstDebuggingPage(cr.remoteDebuggingPort);
        // 等待链接完成
        ws.waitForConnected();                      
        // 激活cdp网络相关操作
        ws.Network.enable(maxTotalBufferSize = 10240;); 
        // 打开网页
        ws.Page.navigate(url = domain;);
        // 检测事件循环消息,直到cookies设置成功。
        do{
            win.pumpMessage();
        }while(!isOk)
        ws = null;
        process.kill("chrome.exe");
    }
    
    
    var domain = "https://buff.163.com/";
    
    var chromes = fsys.list("C:\Users\administrator\Desktop\chrome",".*","*.lnk");
    for(k,v in chromes){
        if(type(k)=="string"){
            initCookie(v);
        }
    }
    
    win.loopMessage();
    
    console.pause();
    

    四 拦截目标请求与获取cookies

    4.1 监听Network.requestWillBeSent事件进行请求拦截

      在Web爬虫中,拦截目标请求是获取所需数据的关键步骤。通过监听Chrome DevTools Protocol(CDP)中的Network.requestWillBeSent事件,可以实现对目标请求的拦截。当浏览器发出网络请求之前,该事件会被触发,并提供请求的相关信息。利用这个事件,我们可以动态地修改请求参数或者在请求被发送前进行其他操作,例如获取请求的cookies。
      当Network.requestWillBeSent事件被触发时,会返回一个包含多个属性的对象,其中包括了requestId、loaderId、documentUrl、request、timestamp等信息。其中,request对象包含了请求的详细信息,如URL、HTTP方法、头部字段等。通过对这些信息的解析,可以判断出是否为目标请求,并进行相应的拦截操作。

    4.2 使用Network.getCookies获取指定域名下的cookies

      在获取到目标请求后,为了能够模拟登录状态或者获取某些需要cookies验证的资源,我们需要获取目标域名下的cookies。通过Chrome DevTools Protocol中的Network.getCookies命令,可以实现这一目标。
      Network.getCookies命令可以获取指定域名下的所有cookies。使用该命令时,需要提供目标域名的URL或者域名本身。命令返回的结果是一个cookies数组,每个元素代表一个cookie,包含了cookie的名称、值、路径、域名等属性。通过遍历这个数组,可以找到所需域名的cookies,并将其存储起来以供后续使用。
      需要注意的是,为了能够获取到所有的cookies,需要在启动浏览器时禁用隐私模式,并且关闭第三方cookies的拦截。此外,由于浏览器安全限制,某些加密的或者使用HttpOnly属性的cookies可能无法通过CDP获取。在这些情况下,可能需要采用其他方法来获取这些cookies,如使用第三方插件或者脚本来实现。

    五 异步数据同步等待结果

    5.1 PostThreadMessage和win.pumpMessage的使用

      在处理Web爬虫中获取cookie的异步操作时,需要使用到PostThreadMessage和win.pumpMessage两个函数。PostThreadMessage用于向指定线程发送消息,可以用于在不同的浏览器线程之间进行通信。win.pumpMessage则是Windows平台下特有的消息循环函数,可以用来等待并处理线程消息。

    5.2 异步数据同步等待结果的实现

      在Web爬虫中,获取cookie的操作通常是异步的,需要等待浏览器启动、加载页面、发送请求等一系列操作完成之后才能获取到结果。为了确保获取到的数据准确无误,需要实现数据的同步等待。
    具体实现方法如下:

    1. 在启动浏览器并发送请求之后,建立一个异步websocket客户端,监听Network.requestWillBeSent事件,异步触发事件后立即开始执行获取cookie的操作。在操作完成后,通过PostThreadMessage向主线程发送一个自定义的消息,通知主线程获取到的cookie数据已经准备好。
    2. 在主线程中,通过循环调用win.pumpMessage函数等待浏览器线程的消息。当接收到自定义的消息后,立即获取并处理获取到的cookie数据。
    3. 如果在规定的时间内未收到自定义的消息,则认为获取cookie的操作超时或失败,采取相应的处理措施。
      通过以上方法,可以实现在Web爬虫中获取cookie的异步操作同步等待结果,确保数据的准确性和完整性。同时,这种方法也可以用于其他需要异步操作的场景中,提高了Web爬虫的效率和稳定性。

    六 实验结果分析与讨论

    6.1 实验结果展示

      通过实验,我们成功地使用基于Chrome CDP的Web爬虫自动化技术获取了目标网站的cookies。在实验过程中,我们分别对不同的网站进行了测试,并记录了实验结果。实验结果表明,该方法能够有效获取到目标网站的cookies,包括httponly的cookies。

    6.2 方法有效性分析

      为了验证本研究的方法是否有效,我们对比了使用基于Chrome CDP的Web爬虫自动化技术与传统的Web爬虫技术获取cookies的结果。实验结果表明,使用基于Chrome CDP的Web爬虫自动化技术获取cookies的成功率明显高于传统的Web爬虫技术。这是因为基于Chrome CDP的Web爬虫自动化技术可以更准确地模拟用户的浏览器行为,从而更好地获取目标网站的cookies。

    6.3 方法优缺点探讨

    优点:

    1. 准确性高:基于Chrome CDP的Web爬虫自动化技术可以更准确地模拟用户的浏览器行为,从而更准确地获取目标网站的cookies。
    2. 自动化程度高:该方法可以实现自动化获取cookies,大大提高了获取效率。
    3. 适用范围广:该方法不仅适用于普通网站,也适用于需要https协议的网站。

    缺点:

    1. 依赖Chrome浏览器:该方法依赖于Chrome浏览器,如果目标网站使用了其他浏览器特有的技术,该方法可能无法正常工作。
    2. 可能被网站反爬虫机制识别:虽然基于Chrome CDP的Web爬虫自动化技术可以更准确地模拟用户的浏览器行为,但如果网站的反爬虫机制足够强大,可能会识别出该行为并进行拦截。

    相关文章

      网友评论

        本文标题:Chrome多用户实例基于CDP的Web爬虫自动化cookie获

        本文链接:https://www.haomeiwen.com/subject/fvwmodtx.html