ECRC/LCRC

作者: 小学究鑫鑫 | 来源:发表于2021-08-18 20:28 被阅读0次

    PCIe总线错误检测囊括了链路(Link)上的错误以及包传递过程中的错误,如下图所示。用户设计的应用程序层中的错误不属于链路传输中的错误,不应当通过PCIe的错误检测与处理机制处理,一般可借助设备特殊中断(Device Specific Interrupt)等合适的方式进行报告与处理。

    包传递过程的错误主要通过CRC编码来检测。PCIe定义了两种CRC——LCRC和ECRC。其中LCRC(Link CRC)由数据链路层产生和校检,用于检测从一端的数据链路层发送到另一端的数据链路层的TLP是否发生的错误。而ECRC(End-to-end CRC)由事务层产生和校检,且ECRC是可选的。

    有人可能会质疑ECRC存在的必要性,因为LCRC已经对TLP进行了CRC校检,在此基础上多加一层ECRC可能是没有必要的。这里来简单地说明一下,一般情况下(尤其是没有Switch的简单PCIe总线系统中),ECRC的确是没有必要存在的。ECRC主要为解决Switch中传输的可能存在的传输错误问题的,换句话说,如果用户的设计中并没有Switch(只是简单的Root与Endpoint的端对端直连),完全可以不使用ECRC。

    如下图所示,假设来自Endpoint的TLP被正确地传输到Switch的Downstream输入端口(Ingress Port),Downstream输入端口中的数据链路层也完成了对其的LCRC校检,且未发现错误。然后Switch会将该LCRC移除,并添加新的序列号(Sequence Number),随后重新计算LCRC,再将该TLP发送至Switch的Upstream输出端口(Egress Port)。显然,在此过程中TLP是不受保护的,一旦期间数据传输遇到错误等异常,可能会导致重新计算LCRC前的数据已经受到了破坏,且仅仅使用LCRC是无法发现这样的错误的。

    注:关于序列号(Sequence Number),可以参考前面的关于Ack/Nak的相关文章。

    需要注意的是,ECRC是AER中的一部分,要想使用ECRC,该PCIe设备必须是支持AER的。

    如果按照错误产生的层(Layer)来分,则可以分为物理层错误,数据链路层错误和事务层错误。

    物理层错误(Physical Layer Errors)主要有:

    ·         8b/10b编解码异常

    ·         Framing异常(8b/10b编码中是可选的,128b/130b中是必选的)

    ·         Elastic Buffer错误(可选的)

    ·         起始字符失锁(Loss of Symbol Lock)或者通道对齐失锁(Lane Deskew)(可选的)

    数据链路层错误(Data Link Layer Errors)主要有:

    ·         LCRC校检失败

    ·         序列号(Sequence Number)异常

    ·         DLLP中的16-bit CRC校检失败

    ·         链路层协议错误(Link Layer Protocol Errors)

    事务层错误(Transaction Layer Errors)主要有:

    ·         ERCR校检失败(可选的)

    ·         异常的TLP(Malformed TLP)(即TLP的格式异常)

    ·         流量控制协议异常(Flow Control Protocol Violation)

    ·         不支持的请求

    ·         数据损坏(Data Corruption,又称为Poisoned Packet)

    ·         Completer Abort(可选的)

    ·         接收端溢出(Receiver Overflow)(可选的)

    ·         返回包超时(Completion Timeout)

    ·         不对应的返回包(Unexpected Completion,即Completion与发出的Request不一致)

    当接收端的物理层检测到TLP存在错误时,如果再将该TLP继续传送至数据链路层和事务层必然也会发现错误。而过多的错误会让错误分析与处理变得困难。因此,没有必要在向上传递该TLP,而是将其直接扔掉,并报告相应的错误。

    然而,即使这样,PCIe总线的错误报告中也有很多错误源自同一个错误源。因此需要对错误进行优先级排序,使得错误源(最底层的错误)的优先级更高,能够最先得到处理。PCIe总线中的错误优先级排序如下(优先级从高到低):

    ·         不可更正的内部错误(Uncorrectable Internal Error)

    ·         接收端Buffer溢出

    ·         流量控制协议错误

    ·         ECRC校检失败

    ·         异常的TLP(Malformed TLP)

    ·         AtomicOp Egress Blocked

    ·         TLP包头异常(TLP Prefix Blocked)

    ·         访问控制服务(Access Control Services,ACS)异常

    ·         MC(Multi-cast) Blocked TLP

    ·         不支持的请求(Unsupported Request,UR),Completer Abort(CA)或者不对应的返回包(Unexpected Completion)

    ·         接收到损坏的数据包(Poisoned Packet)

    相关文章

      网友评论

          本文标题:ECRC/LCRC

          本文链接:https://www.haomeiwen.com/subject/iuylbltx.html