node爬虫

作者: 王二麻子88 | 来源:发表于2020-10-16 23:05 被阅读0次

node爬虫之路（一）
node爬虫快速入门
node入门场景之——爬虫
node 爬虫
node爬虫
Node爬虫
node爬虫
node 爬虫
node爬虫
node爬虫

爬虫总结

1.爬虫介绍

通过模拟浏览器的请求，服务器就会根据我们的请求返回我们想要的数据，将数据解析出来，并且进行保存。

2.爬虫流程

1-目标：确定你想要获取的数据

确定想要的数据在什么页面上（一般详细的数据会在详情页）
确定在哪些页面可以链接到这些页面（一般分类列表页面会有详情页的链接数据）
寻找页面之间和数据之间的规律

2-分析页面

获取数据的方式（正则，cherrio）
1. 分析数据是通过ajax请求的数据，还是html里自带的数据
  1. 如果是通过AJAX请求的数据，那么需要获取ajax请求的链接，一般请求到的数据都为JSON格式数据，那么就会比较容易解析。
    1. 如何数据在HTML里面，那么就用cherrio通过选择器将内容选中

3-编写单个数据获取的案例

解析出分类页的链接地址
1. 解析出列表页的链接地址
  1. 解析出详情页的链接地址
    1. 解析详情页里面想要获取的数据
      1. 将数据进行保存到本地或者是数据库

4-如果遇到阻碍进行反爬虫对抗

User-Agent是否是正常浏览器的信息
1. 将请求头设置成跟浏览器一样的内容
  1. 因为爬虫的爬取速度过快，会导致封号。1那么可以降低速度进行解决，2可以使用代理进行解决
    1. 如果设置需要凭证，那么可以采用无界浏览器真实模拟。

3.请求数据的库

request，axios：通过库，帮助我们快速实现HTTP请求包的打包

request.get('请求地址', {
  '请求头字段': '请求头的value值'
},(res)=>{处理返回的内容});

axios优势会更明显，前后端通杀，前后端调用的方式一致。

axios.get('请求地址',参数对象).then(function (response) {
    console.log(response);
})

axios获取图片

axios({
  method:'get',
  url:'http://bit.ly/2mTM3nY',
  responseType:'stream'
})
.then(function(response) {
  response.data.pipe(fs.createWriteStream('ada_lovelace.jpg'))
});

puppeteer:完全模拟浏览器

打开浏览器

let options = {
    headless:true,//是否是无界面浏览器
    slowMo:250,//调试时可以减慢操作速度
    defaultViewport:{
        width:1200,//设置视窗的宽高
        height:800
    },
    timeout:3000，//默认超时3秒
}
let browser =await puppeteer.launch(options);

打开新标签页

let page = await browser.newPage()

获取所有浏览器中的页面

let pages = await browser.pages()

关闭浏览器

browser.close()

将页面跳转至

await page.goto(url)

获取页面的对象,并进行操作

let btn = await page.$(selector)
let input = await page.$(selector)
//点击按钮
btn.click()
//聚焦到输入框
input.forcus()

在页面上写入内容或者键盘按键

await page.keyboard.type('Hello World!');
await page.keyboard.press('ArrowLeft');
await page.keyboard.down('Shift');

设置鼠标的移动

await page.mouse.move(0, 0);
await page.mouse.down();
await page.mouse.move(0, 100);
await page.mouse.move(100, 100);
await page.mouse.move(100, 0);
await page.mouse.move(0, 0);
await page.mouse.up();

截获页面请求

await page.setRequestInterception(true);
page.on('request', request => {
request.url()//可以获取请求的网址，request，包含了所有的请求信息
    if(你想要的条件){
        request.continue()
    }else{
        request.abort([errorCode])
    }
});

获取浏览器的信息和内容

page.$eval(selector,(item)=>{return item})
page.$$eval(selectors,(items)=>{return items})

3.2 编码解析

以下代码没有任何实用性, 仅是对解析字体编码提供一种思路

3.2.1 获取随机字体文件的链接地址

let fontUrl = $("head > style").html()
let reg = /format.*?url\('(.*?woff)'\)/igs;
//console.log(fontUrl)
let result = reg.exec(fontUrl)
let fontPath = result[1]

3.2.2 将随机的字体文件下载并进行解析

//已文件流的形式下载字体图标库
let ws = fs.createWriteStream('a.woff') //下载的文件名暂定为"a.woff"
res.data.pipe(ws);

3.2.3 将编码切割成数组,逐一进行解析(循环解析)

let arr1 = aa.split("")
let b = 0;
let arr11 = []

3.2.4 编码解析

循环解析字符串编码, 循环每个item, 当成str传入解析函数中

async function parseNum(str){
    return new Promise(function(resolve,reject){
        //载入字体文件，并解析出字体对象
        opentype.load("a.woff", function(err, font) {
            if (err) {
                reject('Font could not be loaded: ' + err)
            } else {
                //通过字体对象，并在getPath方法中传入乱码的编码，获取出绘制该字体图像路径，0，100，72分别表示绘制的x坐标为0，y坐标为100，字体大小为72
                var path = font.getPath(str,0,100,72);
                //通过绘制的图像路径，得出SVG矢量图的字符串
                let a = path.toSVG();
                let max = 0;
                let key = 0;
                let arr = []
                for(let i=0;i<10;i++){
                    let temp = similar(a,svgPaths[i])
                    if(max<temp){
                        max = temp;
                        key = i;
                    }
                    arr.push({temp,i})
                }
                resolve({key,max})
                
                
            }
        });

    })
    //similar(a,b)
}

3.2.5 结果处理

判断相似度,最大相似度大于50%则采用,不然返回原值

arr11[i] = parseFloat(result.max)>0.5?result.key:item;

网友评论

本文标题：node爬虫

本文链接：https://www.haomeiwen.com/subject/lfatmktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

node爬虫

爬虫总结

1.爬虫介绍

2.爬虫流程

1-目标：确定你想要获取的数据

2-分析页面

3-编写单个数据获取的案例

4-如果遇到阻碍进行反爬虫对抗

3.请求数据的库

3.2 编码解析

3.2.1 获取随机字体文件的链接地址

3.2.2 将随机的字体文件下载并进行解析

3.2.3 将编码切割成数组,逐一进行解析(循环解析)

3.2.4 编码解析

3.2.5 结果处理

相关文章

node爬虫之路（一）

node爬虫快速入门

node入门场景之——爬虫

node 爬虫

node爬虫

Node爬虫

node爬虫

node 爬虫

node爬虫

node爬虫

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读