美文网首页前端
jsmpeg系列一 基础知识 字符处理 ArrayBuffer

jsmpeg系列一 基础知识 字符处理 ArrayBuffer

作者: 合肥黑 | 来源:发表于2018-09-27 13:44 被阅读196次
    一、参考字符编码ASCII UTF8 字节序 大端 小端
    二、参考[HTML5] ArrayBuffer与类型化数组

    现代计算机中操作二进制数据的基本单位是字节(byte),故二进制数据一般以字节数组的形式存在于程序中。如:Java中的InputStream于OutputStream类,允许通过指定大小的字节数组(如:byte[] bytes = new byte[1024])对文件进行读写。
    然而回到JS,其设计之初也没有想过要处理二进制,故对于字节的概念并不清晰。再加上JS对数据类型的弱化,即使要表示字节数组,也只能通过普通数组的方式表示。
    HTML5的建立对前端而言是颠覆性的,一方面基于XHR2, 使上传下载二进制内容成为可能;另一方面,WebGL/Canvas等新技术需要JS与显卡之间进行大量的、实时的数据交换,而其数据通信的形式必须是二进制。这样,JS操作二进制成为了必然。
    在JS中,可以通过ArrayBuffer和类型化数组(Typed Array)在内存中对二进制数据进行操作。

    1.ArrayBuffer
    ArrayBuffer是一段连续的长度固定的字节序列,如:通过实例化ArrayBuffer对象在内存中创建一段二进制存储空间(或叫二进制缓冲区),

    // 创建一段字节长度为8的内存空间
    var buffer = new ArrayBuffer(8);
    // 获取字节长度
    console.log(buffer.byteLength); // 8
    

    由于是连续的内存空间,故在其上进行的读写操作都会比普通JS Array快很多。
    我们猜想这 8 个字节里面的值应该都是 0 ,因为我们并没有给 buffer 赋值。让我们确认一下吧,先看第一个字节:

    console.log(buffer[0])
    

    输出: undefined。咦?怎么是 undefined 呢?哦,原来 buffer[0] 的意思是查看 buffer 这个对象 的属性为 0 的值,因为 buffer 没有 0 这个属性,所以是 undefined。

    ArrayBuffer只是存储数据的区域,无法进行读写。若想进行访问,需要借助类型化数组(Typed Array)。故可以理解为:类型化数组是访问ArrayBuffer中数据的接口

    2.类型化数组
    类型化数组(或称视图view)是读写ArrayBuffer中数据的接口,JS可以通过8种不同的接口创建类型化数组,分别为:

    名称 描述 字节长度
    Int8Array 8位有符号整数 1
    Uint8Array 8位无符号整数 1
    Int16Array 16位有符号整数 2
    Uint16Array 16位无符号整数 2
    Int32Array 32位有符号整数 4
    Uint32Array 32位无符号整数 4
    Float32Array 32位浮点数 4
    Float64Array 64位浮点数 8

    通过类型化数组可以对ArrayBuffer中的数据进行读写,一段ArrayBuffer上可以重叠多个类型化数组。注意, Int8Array 和Uint8Array 是一个字节的长度,和 buffer 的单位一致(比如new ArrayBuffer(8)是让浏览器帮我们创建一段 8 个字节长度的内存区域)

    // 创建一段12字节的ArrayBuffer
    var b = new ArrayBuffer(12);
    // 在b上创建一个视图v1,视图中每个元素类型为Uint8(占1字节),开始于字节索引0,结束于ArrayBuffer结尾
    var v1 = new Uint8Array(b);
    // 在b上创建一个视图v2,视图中每个元素类型为Uint32(占4字节),开始于字节索引4,结束于ArrayBuffer结尾
    var v2 = new Uint32Array(b,4);
    // 在b上创建一个视图v3,视图中每个元素类型为Uint16(占2字节),开始于字节索引2,视图长度为2,结束于字节索引5
    var v3 = new Uint16Array(b,2,2);
    

    下面画图说明存储方式:

    image.png
    如图可见,一段ArrayBuffer上重叠了三个视图,可以通过三种方式访问ArrayBuffer中的数据
    此时做如下测试:
    通过v1向b中写入数据;然后通过v1、v2、v3从b中读取数据
    下面简单说明下各输出:
    首先通过v1为每个元素赋值为十进制1,则ArrayBuffer中每个元素存储的二进制为00000001
    通过v2读取,v2[0]和v2[1]中读取出的二进制均为00000001000000010000000100000001,转换为十进制即为16843009
    通过v3读取,v3[0]和v3[1]中读取出的二进制均为0000000100000001,转换为十进制即为257
    由此我们可以归纳出ArrayBuffer与类型化数组间的关系:
    • ArrayBuffer存储二进制数据,但只有通过类型化数组才能进行二进制数据的读写
    • 一段ArrayBuffer上可以重叠多个不同的类型化数组,不同类型化数组影响对ArrayBuffer中数据的读写方式

    这里再看一个例子,参考自JavaScript 读写二进制数据

    image.png
    let int8Array = new Int8Array(buffer);
    int8Array[0] = 30;
    int8Array[1] = 41;
    let int16Array = new Int16Array(buffer);
    console.log(int16Array[0]);
    

    按照上述分析,console的值应该是由30的二进制和41的二进制数据拼接而成:00011110(30) 00101001(41)。也就是parseInt(1111000101001, 2) //输出 7721

    但是,输出的却不是7721,而是10526。这就涉及到字节序的问题了。

    参考JS中的二进制操作简介:按照MDN的说法,Typed Array只会使用当前平台的字节序,例如我们现在用的桌面电脑不论PC还是Mac都是x86/x64的,也就是little-endian了。

    小端字节序体现在我们这个示例中即是 41、30的二进制顺序,我们刚才的计算顺序有问题,那按照 41、30 的二进制顺序计算一下parseInt(10100100011110, 2) //输出 10526

    三、JavaScript 之 ArrayBuffer

    1.ArrayBuffer.slice
    ArrayBuffer对象有一个slice方法,允许将内存区域的一部分,拷贝生成一个新的ArrayBuffer对象。

    const bf = new ArrayBuffer(40);
    const newBf = bf.slice(0, 10); // 从0 - 9 不包括 10
    

    上面代码拷贝buffer对象的前10个字节,生成一个新的ArrayBuffer对象。slice方法其实包含两步,第一步是先分配一段新内存,第二步是将原来那个ArrayBuffer对象拷贝过去。slice方法接受两个参数,第一个参数表示拷贝开始的字节序号,第二个参数表示拷贝截止的字节序号。如果省略第二个参数,则默认到原ArrayBuffer对象的结尾。
    除了slice方法,ArrayBuffer对象不提供任何直接读写内存的方法,只允许在其上方建立视图,然后通过视图读写。

    2.数据类型占据的字节数
    每一种视图都有一个BYTES_PER_ELEMENT常数,表示这种数据类型占据的字节数。

    Int8Array.BYTES_PER_ELEMENT  // 1
    Uint8Array.BYTES_PER_ELEMENT // 1
    //...
    

    3.直接生成
    视图还可以不通过ArrayBuffer对象,直接分配内存而生成。

    var f64a = new Float64Array(8);
    f64a[0] = 10;
    f64a[1] = 20;
    f64a[2] = f64a[0] + f64a[1];
    

    上面代码生成一个8个成员的Float64Array数组(共64字节),然后依次对每个成员赋值。这时,视图构造函数的参数就是成员的个数。可以看到,视图数组的赋值操作与普通数组的操作毫无两样。

    4.将普通数组转为视图数组

    var typedArray = new Uint8Array( [ 1, 2, 3, 4 ] );
    

    也可以将视图直接转化为数组

    Array.from(typeArray); 
    // Array.apply([],typeArray);
    

    5.视图的操作

    建立了视图以后,就可以进行各种操作了。这里需要明确的是,视图其实就是普通数组,语法完全没有什么不同,只不过它直接针对内存进行操作,而且每个成员都有确定的数据类型。所以,视图就被叫做“类型化数组”

    普通数组的操作方法和属性,对类型化数组完全适用。

    var buffer = new ArrayBuffer(16);
    var int32View = new Int32Array(buffer);
    for (var i=0; i<int32View.length; i++) {
      int32View[i] = i*2;
    }
    
    1. buffer属性

    类型化数组的buffer属性,返回整段内存区域对应的ArrayBuffer对象。该属性为只读属性。

    var bf = new Uint8Array([1,2,3,4]);
    bf.buffer;  // ArrayBuffer {}
    byteLength属性和byteOffset属性
    

    byteLength属性返回类型化数组占据的内存长度,单位为字节。byteOffset属性返回类型化数组从底层ArrayBuffer对象的哪个字节开始。这两个属性都是只读属性。

    var b = new ArrayBuffer(8);
    
    var v1 = new Int32Array(b);
    var v2 = new Uint8Array(b, 2);
    var v3 = new Int16Array(b, 2, 2);
    
    v1.byteLength // 8
    v2.byteLength // 6
    v3.byteLength // 4
    
    v1.byteOffset // 0
    v2.byteOffset // 2
    v3.byteOffset // 2
    

    注意将byteLength属性和length属性区分,前者是字节长度,后者是成员长度。byteLength = length * 每个数据占用字节数。

    7.set方法
    类型化数组的set方法用于复制数组,也就是将一段内容完全复制到另一段内存。

    var a = new Uint8Array(8);
    var b = new Uint8Array(8);
    
    b.set(a);
    

    上面代码复制a数组的内容到b数组,它是整段内存的复制,比一个个拷贝成员的那种复制快得多。set方法还可以接受第二个参数,表示从b对象哪一个成员开始复制a对象。

    var a = new Uint16Array(8);
    var b = new Uint16Array(10);
    
    b.set(a,2)
    

    上面代码的b数组比a数组多两个成员,意思是从b的第三个索引位置开始复制 a 中的数据。

    8.subarray方法
    subarray方法是对于类型化数组的一部分,再建立一个新的类型化数组。

    var a = new Uint16Array(8);
    var b = a.subarray(2,3);
    
    a.byteLength // 16
    b.byteLength // 2
    

    subarray方法的第一个参数是起始的成员序号,第二个参数是结束的成员序号(不含该成员),如果省略则包含剩余的全部成员。所以,上面代码的a.subarray(2,3),意味着b只包含a[2]一个成员,字节长度为2。

    9.ArrayBuffer与字符串的互相转换
    ArrayBuffer转为字符串,或者字符串转为ArrayBuffer,有一个前提,即字符串的编码方法是确定的。假定字符串采用UTF-16编码(JavaScript的内部编码方式),可以自己编写转换函数。

    // ArrayBuffer转为字符串,参数为ArrayBuffer对象
    function ab2str(buf) {
       return String.fromCharCode.apply(null, new Uint16Array(buf));
    }
    
    // 字符串转为ArrayBuffer对象,参数为字符串
    function str2ab(str) {
        var buf = new ArrayBuffer(str.length*2); // 每个字符占用2个字节
        var bufView = new Uint16Array(buf);
        for (var i=0, strLen=str.length; i<strLen; i++) {
             bufView[i] = str.charCodeAt(i);
        }
        return buf;
    }
    

    10.DataView视图
    如果一段数据包括多种类型(比如服务器传来的HTTP数据),这时除了建立ArrayBuffer对象的复合视图以外,还可以通过DataView视图进行操作。

    DataView视图提供更多操作选项,而且支持设定字节序。本来,在设计目的上,ArrayBuffer对象的各种类型化视图,是用来向网卡、声卡之类的本机设备传送数据,所以使用本机的字节序就可以了;而DataView的设计目的,是用来处理网络设备传来的数据,所以大端字节序或小端字节序是可以自行设定的。

    DataView本身也是构造函数,接受一个ArrayBuffer对象作为参数,生成视图。DataView(ArrayBuffer buffer [, 字节起始位置 [, 长度]]);

    var buffer = new ArrayBuffer(24);
    
    var dv = new DataView(buffer);
    

    DataView视图提供以下方法读取内存:

    getInt8:读取1个字节,返回一个8位整数。
    getUint8:读取1个字节,返回一个无符号的8位整数。
    getInt16:读取2个字节,返回一个16位整数。
    getUint16:读取2个字节,返回一个无符号的16位整数。
    getInt32:读取4个字节,返回一个32位整数。
    getUint32:读取4个字节,返回一个无符号的32位整数。
    getFloat32:读取4个字节,返回一个32位浮点数。
    getFloat64:读取8个字节,返回一个64位浮点数。
    

    这一系列get方法的参数都是一个字节序号,表示从哪个字节开始读取。

    var buffer = new ArrayBuffer(24);
    var dv = new DataView(buffer);
    
    // 从第1个字节读取一个8位无符号整数
    var v1 = dv.getUint8(0);
    
    // 从第2个字节读取一个16位无符号整数
    var v2 = dv.getUint16(1); 
    
    // 从第4个字节读取一个16位无符号整数
    var v3 = dv.getUint16(3);
    

    上面代码读取了ArrayBuffer对象的前5个字节,其中有一个8位整数和两个十六位整数。

    如果一次读取两个或两个以上字节,就必须明确数据的存储方式,到底是小端字节序还是大端字节序。默认情况下,DataView的get方法使用大端字节序解读数据,如果需要使用小端字节序解读,必须在get方法的第二个参数指定true。

    // 小端字节序
    var v1 = dv.getUint16(1, true);
    
    // 大端字节序
    var v2 = dv.getUint16(3, false);
    
    // 大端字节序
    var v3 = dv.getUint16(3);
    

    DataView视图提供以下方法写入内存:

    setInt8:写入1个字节的8位整数。
    setUint8:写入1个字节的8位无符号整数。
    setInt16:写入2个字节的16位整数。
    setUint16:写入2个字节的16位无符号整数。
    setInt32:写入4个字节的32位整数。
    setUint32:写入4个字节的32位无符号整数。
    setFloat32:写入4个字节的32位浮点数。
    setFloat64:写入8个字节的64位浮点数。
    

    这一系列set方法,接受两个参数,第一个参数是字节序号,表示从哪个字节开始写入,第二个参数为写入的数据。对于那些写入两个或两个以上字节的方法,需要指定第三个参数,false或者undefined表示使用大端字节序写入,true表示使用小端字节序写入。

    // 在第1个字节,以大端字节序写入值为25的32位整数
    dv.setInt32(0, 25, false); 
    
    // 在第5个字节,以大端字节序写入值为25的32位整数
    dv.setInt32(4, 25); 
    
    // 在第9个字节,以小端字节序写入值为2.5的32位浮点数
    dv.setFloat32(8, 2.5, true);
    

    如果不确定正在使用的计算机的字节序,可以采用下面的判断方式。

    var littleEndian = (function() {
      var buffer = new ArrayBuffer(2);
      new DataView(buffer).setInt16(0, 256, true);
      return new Int16Array(buffer)[0] === 256;
    })();
    

    如果返回true,就是小端字节序;如果返回false,就是大端字节序。

    11.Ajax应用
    传统上,服务器通过Ajax操作只能返回文本数据。XMLHttpRequest 第二版允许服务器返回二进制数据,这时分成两种情况。如果明确知道返回的二进制数据类型,可以把返回类型(responseType)设为arraybuffer;如果不知道,就设为blob。xhr.responseType = 'arraybuffer';
    如果知道传回来的是32位整数,可以像下面这样处理。

    xhr.onreadystatechange = function () {
    if (req.readyState === 4 ) {
        var arrayResponse = xhr.response;
        var dataView = new DataView(arrayResponse);
        var ints = new Uint32Array(dataView.byteLength / 4);
    
        xhrDiv.style.backgroundColor = "#00FF00";
        xhrDiv.innerText = "Array is " + ints.length + "uints long";
        }
    

    12.canvas应用
    网页Canvas元素输出的二进制像素数据,就是类型化数组。

    var canvas = document.getElementById('myCanvas');
    var ctx = canvas.getContext('2d');
    
    var imageData = ctx.getImageData(0,0, 200, 100);
    var typedArray = imageData.data;
    

    需要注意的是,上面代码的typedArray虽然是一个类型化数组,但是它的视图类型是一种针对Canvas元素的专有类型Uint8ClampedArray。这个视图类型的特点,就是专门针对颜色,把每个字节解读为无符号的8位整数,即只能取值0~255,而且发生运算的时候自动过滤高位溢出。这为图像处理带来了巨大的方便。

    举例来说,如果把像素的颜色值设为Uint8Array类型,那么乘以一个gamma值的时候,就必须这样计算:
    u8[i] = Math.min(255, Math.max(0, u8[i] * gamma));
    因为Uint8Array类型对于大于255的运算结果(比如0xFF+1),会自动变为0x00,所以图像处理必须要像上面这样算。这样做很麻烦,而且影响性能。如果将颜色值设为Uint8ClampedArray类型,计算就简化许多。
    pixels[i] *= gamma;
    Uint8ClampedArray类型确保将小于0的值设为0,将大于255的值设为255。注意,IE 10不支持该类型。

    13.File应用
    如果知道一个文件的二进制数据类型,也可以将这个文件读取为类型化数组。

    reader.readAsArrayBuffer(file);
    

    下面以处理bmp文件为例。假定file变量是一个指向bmp文件的文件对象,首先读取文件。

    var reader = new FileReader();
    reader.addEventListener("load", processimage, false); 
    reader.readAsArrayBuffer(file);
    

    然后,定义处理图像的回调函数:先在二进制数据之上建立一个DataView视图,再建立一个bitmap对象,用于存放处理后的数据,最后将图像展示在canvas元素之中。

    function processimage(e) { 
     var buffer = e.target.result; 
     var datav = new DataView(buffer); 
     var bitmap = {};
     // 具体的处理步骤
    }
    

    具体处理图像数据时,先处理bmp的文件头。具体每个文件头的格式和定义,请参阅有关资料。

    bitmap.fileheader = {}; 
    bitmap.fileheader.bfType = datav.getUint16(0, true); 
    bitmap.fileheader.bfSize = datav.getUint32(2, true); 
    bitmap.fileheader.bfReserved1 = datav.getUint16(6, true); 
    bitmap.fileheader.bfReserved2 = datav.getUint16(8, true); 
    bitmap.fileheader.bfOffBits = datav.getUint32(10, true);
    

    接着处理图像元信息部分。

    bitmap.infoheader = {};
    bitmap.infoheader.biSize = datav.getUint32(14, true);
    bitmap.infoheader.biWidth = datav.getUint32(18, true); 
    bitmap.infoheader.biHeight = datav.getUint32(22, true); 
    bitmap.infoheader.biPlanes = datav.getUint16(26, true); 
    bitmap.infoheader.biBitCount = datav.getUint16(28, true); 
    bitmap.infoheader.biCompression = datav.getUint32(30, true); 
    bitmap.infoheader.biSizeImage = datav.getUint32(34, true); 
    bitmap.infoheader.biXPelsPerMeter = datav.getUint32(38, true); 
    bitmap.infoheader.biYPelsPerMeter = datav.getUint32(42, true); 
    bitmap.infoheader.biClrUsed = datav.getUint32(46, true); 
    bitmap.infoheader.biClrImportant = datav.getUint32(50, true);
    

    最后处理图像本身的像素信息。

    var start = bitmap.fileheader.bfOffBits;
    bitmap.pixels = new Uint8Array(buffer, start);
    

    至此,图像文件的数据全部处理完成。下一步,可以根据需要,进行图像变形,或者转换格式,或者展示在Canvas网页元素之中。

    四、Web 直播流的解析

    1.websocket中应用
    在 fetch 使用中,我们可以通过 res.arrayBuffer(); 来直接获取 ArrayBuffer 对象。websocket 中,监听 message,返回来的 event.data 也是 arraybuffer。

    let socket = new WebSocket('ws://127.0.0.1:8080');
    socket.binaryType = 'arraybuffer';
    
    socket.addEventListener('message', function (event) {
        let arrayBuffer = event.data;
        ···
    });
    

    2.fetch应用

    fetch(url)
    .then(request => request.arrayBuffer())
    .then(arrayBuffer => ···);
    
    五、node.js Buffer简介

    参考Node.js Buffer(缓冲区)
    JavaScript 语言自身只有字符串数据类型,没有二进制数据类型。但在处理像TCP流或文件流时,必须使用到二进制数据。因此在 Node.js中,定义了一个 Buffer 类,该类用来创建一个专门存放二进制数据的缓存区。

    在Node.js 里有一个与ArrayBuffer 相似的类叫做Buffer,但更强大一些。在 Node.js 中,Buffer 类是随 Node 内核一起发布的核心库。Buffer 库为 Node.js 带来了一种存储原始数据的方法,可以让 Node.js 处理二进制数据,每当需要在 Node.js 中处理I/O操作中移动的数据时,就有可能使用 Buffer 库。原始数据存储在 Buffer 类的实例中。一个 Buffer 类似于一个整数数组,但它对应于 V8 堆内存之外的一块原始内存。

    相关文章

      网友评论

        本文标题:jsmpeg系列一 基础知识 字符处理 ArrayBuffer

        本文链接:https://www.haomeiwen.com/subject/vucjoftx.html