美文网首页
node爬虫

node爬虫

作者: 王二麻子88 | 来源:发表于2020-10-16 23:05 被阅读0次

爬虫总结

1.爬虫介绍

通过模拟浏览器的请求,服务器就会根据我们的请求返回我们想要的数据,将数据解析出来,并且进行保存。

2.爬虫流程

1-目标:确定你想要获取的数据

  1. 确定想要的数据在什么页面上(一般详细的数据会在详情页)
  2. 确定在哪些页面可以链接到这些页面(一般分类列表页面会有详情页的链接数据)
  3. 寻找页面之间和数据之间的规律

2-分析页面

  1. 获取数据的方式(正则,cherrio)

    1. 分析数据是通过ajax请求的数据,还是html里自带的数据
      1. 如果是通过AJAX请求的数据,那么需要获取ajax请求的链接,一般请求到的数据都为JSON格式数据,那么就会比较容易解析。
        1. 如何数据在HTML里面,那么就用cherrio通过选择器将内容选中

3-编写单个数据获取的案例

  1. 解析出分类页的链接地址

    1. 解析出列表页的链接地址
      1. 解析出详情页的链接地址
        1. 解析详情页里面想要获取的数据
          1. 将数据进行保存到本地或者是数据库

4-如果遇到阻碍进行反爬虫对抗

  1. User-Agent是否是正常浏览器的信息

    1. 将请求头设置成跟浏览器一样的内容
      1. 因为爬虫的爬取速度过快,会导致封号。1那么可以降低速度进行解决,2可以使用代理进行解决
        1. 如果设置需要凭证,那么可以采用无界浏览器真实模拟。

3.请求数据的库

request,axios:通过库,帮助我们快速实现HTTP请求包的打包

request.get('请求地址', {
  '请求头字段': '请求头的value值'
},(res)=>{处理返回的内容});

axios优势会更明显,前后端通杀,前后端调用的方式一致。

axios.get('请求地址',参数对象).then(function (response) {
    console.log(response);
})

axios获取图片

axios({
  method:'get',
  url:'http://bit.ly/2mTM3nY',
  responseType:'stream'
})
.then(function(response) {
  response.data.pipe(fs.createWriteStream('ada_lovelace.jpg'))
});

puppeteer:完全模拟浏览器

打开浏览器

let options = {
    headless:true,//是否是无界面浏览器
    slowMo:250,//调试时可以减慢操作速度
    defaultViewport:{
        width:1200,//设置视窗的宽高
        height:800
    },
    timeout:3000,//默认超时3秒
}
let browser =await puppeteer.launch(options);

打开新标签页

let page = await browser.newPage()

获取所有浏览器中的页面

let pages = await browser.pages()

关闭浏览器

browser.close()

将页面跳转至

await page.goto(url)

获取页面的对象,并进行操作

let btn = await page.$(selector)
let input = await page.$(selector)
//点击按钮
btn.click()
//聚焦到输入框
input.forcus()

在页面上写入内容或者键盘按键

await page.keyboard.type('Hello World!');
await page.keyboard.press('ArrowLeft');
await page.keyboard.down('Shift');

设置鼠标的移动

await page.mouse.move(0, 0);
await page.mouse.down();
await page.mouse.move(0, 100);
await page.mouse.move(100, 100);
await page.mouse.move(100, 0);
await page.mouse.move(0, 0);
await page.mouse.up();

截获页面请求

await page.setRequestInterception(true);
page.on('request', request => {
request.url()//可以获取请求的网址,request,包含了所有的请求信息
    if(你想要的条件){
        request.continue()
    }else{
        request.abort([errorCode])
    }
});

获取浏览器的信息和内容

page.$eval(selector,(item)=>{return item})
page.$$eval(selectors,(items)=>{return items})

3.2 编码解析

以下代码没有任何实用性, 仅是对解析字体编码提供一种思路

3.2.1 获取随机字体文件的链接地址

let fontUrl = $("head > style").html()
let reg = /format.*?url\('(.*?woff)'\)/igs;
//console.log(fontUrl)
let result = reg.exec(fontUrl)
let fontPath = result[1]

3.2.2 将随机的字体文件下载并进行解析

//已文件流的形式下载字体图标库
let ws = fs.createWriteStream('a.woff') //下载的文件名暂定为"a.woff"
res.data.pipe(ws);

3.2.3 将编码切割成数组,逐一进行解析(循环解析)

let arr1 = aa.split("")
let b = 0;
let arr11 = []

3.2.4 编码解析

循环解析字符串编码, 循环每个item, 当成str传入解析函数中

async function parseNum(str){
    return new Promise(function(resolve,reject){
        //载入字体文件,并解析出字体对象
        opentype.load("a.woff", function(err, font) {
            if (err) {
                reject('Font could not be loaded: ' + err)
            } else {
                //通过字体对象,并在getPath方法中传入乱码的编码,获取出绘制该字体图像路径,0,100,72分别表示绘制的x坐标为0,y坐标为100,字体大小为72
                var path = font.getPath(str,0,100,72);
                //通过绘制的图像路径,得出SVG矢量图的字符串
                let a = path.toSVG();
                let max = 0;
                let key = 0;
                let arr = []
                for(let i=0;i<10;i++){
                    let temp = similar(a,svgPaths[i])
                    if(max<temp){
                        max = temp;
                        key = i;
                    }
                    arr.push({temp,i})
                }
                resolve({key,max})
                
                
            }
        });

    })
    //similar(a,b)
}

3.2.5 结果处理

判断相似度,最大相似度大于50%则采用,不然返回原值

arr11[i] = parseFloat(result.max)>0.5?result.key:item;

相关文章

  • node爬虫之路(一)

    最近对爬虫很感兴趣,我们node.js也是可以写爬虫。所以写一个node爬虫系列,记录我的爬虫之路,感兴趣的同学可...

  • node爬虫快速入门

    node爬虫 初入前端,刚刚接触node,对于耳闻已久的node爬虫非常神往,所以有了这篇文章,项目代码在文章末尾...

  • node入门场景之——爬虫

    边做边学效率更高,爬虫是node的适用场景之一,关于爬虫的另一篇文章node爬虫进阶之——登录为了验证“经验总结、...

  • node 爬虫

    clawer.js

  • node爬虫

    node爬虫用到的第三方模块 Cheerio 服务端的jQueryhttps://segmentfault.c...

  • Node爬虫

    使用cheerio爬虫模块抓取页面后获取元素信息跟jQuery基本一样

  • node爬虫

    /** 教程:https://blog.csdn.net/Qc1998/article/details/83154...

  • node 爬虫

  • node爬虫

    声明:所有文章都是转载整理的,只是为了自己学习,方便自己观看,如有侵权,请立即联系我,谢谢~ Node.js的学习...

  • node爬虫

    以下代码爬取豆瓣电影网的数据并且写入数据库首先安装cheerio和mysql

网友评论

      本文标题:node爬虫

      本文链接:https://www.haomeiwen.com/subject/lfatmktx.html