【课程笔记】南大软件分析课程8——指针分析-上下文敏感（课时11

作者: bsauce | 来源:发表于2020-05-13 14:14 被阅读0次

【课程笔记】南大软件分析课程8——指针分析-上下文敏感（课时11
【课程笔记】南大软件分析课程6——指针分析介绍（课时8）
【课程笔记】南大软件分析课程7——指针分析基础（课时9/10）
【课程笔记】南大软件分析课程9——污点分析（课时13）
【课程笔记】南大软件分析课程5——过程间分析（课时7）
【课程笔记】南大软件分析课程12——Soundiness（课时1
【课程笔记】南大软件分析课程11——CFL可达性&IFDS（课时
【课程笔记】南大软件分析课程1——课程介绍
【课程笔记】南大软件分析课程2——IR
【课程笔记】南大软件分析课程4——数据流分析基础（课时5/6）

重点：

上下文敏感指针分析的完整算法（一般其他教程中很少涉及到）。
上下文敏感概念，堆对象的上下文敏感表示，上下文敏感指针分析的规则。
上下文的三种选择，以及效率、准确度的对比。

1.上下文不敏感的问题

说明：上下文敏感分析是对指针分析的准确性提升最有效的技术。

（1）问题

8-1-1-上下文不敏感.png

问题：上下文不敏感时，分析常量传播这个问题，由于没有明确调用id()的上下文，会把不同的调用混合在一起，对id函数内的变量n只有一种表示（没有对局部变量进行区分），导致n指向的对象集合增大，将i识别为非常量NAC。实际上，x.get()的值只来自于One()对象，i应该是常量1。

解决：根据调用的上下文（主要有3种：如根据调用点所在的行数——call-site sensitivity）来区分局部变量。

（2）上下文敏感分析

概念：

call-site sensitivity (call-string)：根据调用点位置的不同来区分上下文，3：id(n1) / 4：id(n2)。
Cloning-Based Context Sensitivity：每种上下文对应一个节点，标记调用者行数。克隆多少数据，后面会讨论。

8-1-2-上下文敏感.png
Context-Sensitive Heap：面向对象程序（如Java）会频繁修改堆对象，称为heap-insensitive。所以不仅要给变量加上下文，也要给堆抽象加上下文，称为heap context（本课程是基于allocate-site来进行堆抽象的）。

堆抽象上下文示例：

8-1-3-堆抽象上下文敏感.png

堆抽象上下文不敏感：如果不区分8 X x = new X();调用的堆抽象的上下文，导致只有1个o₈.f，把两个上下文调用产生的o₈.f指向集合都合并了，得出了o₈.f的错误指向的结果。

堆抽象上下文敏感：用不同的调用者来区分堆抽象，如3:o8、4:o8是不同的堆抽象。所以说，既要根据上下文的不同来区分局部变量，也要区分堆抽象，例如：3:p是给变量加上下文，3:o8是给堆抽象加上下文。

2.Context Sensitive Pointer Analysis：Rules

标记：根据调用者的行数来区分不同上下文，只要区分了函数、变量、堆对象，就能够区分实例域、上下文敏感的指针（变量+对象域）。C—上下文（暂时用调用点的行数表示），O—对象，F—对象中的域。

8-2-1-标记.png

规则：跟之前区别不大，只是增加了个上下文标记，注意load表示和之前有区别。

8-2-2-规则.png

call指令规则：

上下文对于Dispatch(o_i, k)（找目标函数）没有影响，根据o_i指向和函数签名k找到目标函数。select(c, l, c':o_i, m)根据调用时的信息来给调用目标函数选择上下文（c是调用者的上下文，l是调用者的行号，c':o_i是x对象的指向集合，m是目标函数），c^t表示目标函数的上下文（后面会将如何Select如何选择上下文）。c是可以累积的，一连串的调用，上下文将用一连串的行数来表示。
传递this变量：c^t:m_this是目标函数c^t:m的this变量
传递参数：c^t:m_pj是目标函数c^t:m的第j个形参。
传递返回值：c^t:m_ret是目标函数c^t:m的返回值
8-2-3-call规则.png

3.Context Sensitive Pointer Analysis：Algorithms

区别：和过程间指针分析相比，仍然分为两个过程，分别是构造PFG和根据PFG传递指向信息。主要区别是添加了上下文。

PFG构造：边添加规则和之前一样，Assign、Store、Load、Call，Call需要加参数传递、返回值传递的边。

8-3-1-上下文敏感PTA算法.png

符号：

S：可达语句的集合（就是RM中的语句）
S_m：函数m中的语句
RM：可达函数的集合
CG：调用图的边

算法：被调用函数的上下文暂时用c^t表示，之后会解释Select()函数。

先处理New、Assign指令。AddReachable(c:m)只多了上下文。
遍历WL，Propagate()和原来相同。
处理Store、Load指令，AddEdge()只多了上下文。
处理Call指令，ProcessCall()，多了一行c^t=Select(c,l,c':o_i,m)，在找到调用目标函数之后，需选择被调用的函数的上下文。

4.Context Sensitivity Variants—上下文的选取

上下文的选取主要采用3类：

Call-Site Sensitivity
Object Sensitivity
Type Sensitivity
...

说明：Select(c,l,c':o_i,m)，c—调用者上下文，l—调用者，c':o_i—接收对象（含堆的上下文信息）。

（1）Call-Site Sensitivity

原理：又称为k-call-site sensitivity / k-CFA，不断添加调用行号。1991年Olin Shivers提出。

Select(c,l,c':o_i,m) = (l',...,l'', l)

问题：如果函数调用自身，导致无限递归，如何限制上下文长度？

解决：k-limiting Context Abstraction。只取最后k个上下文，通常取k<=3。例如，函数的上下文通常取2，堆上下文通常取1。

示例：采用1-Call-Site。

interface Number { int get(); }
class One implements Number { public int get() { return 1; }}
class Two implements Number { public int get() { return 2; }}
1   class C {
2       static void main() {
3           C c = new C();
4           c.m();
5       }
6
7       Number id(Number n) {
8           return n;
9       }
10      void m() {
11          Number n1,n2,x,y;
12          n1 = new One();
13          n2 = new Two();
14          x = this.id(n1);
15          y = this.id(n2);
16          x.get();
17      }
18  }

	WL	正处理	PFG	指针集	RM	CG	处理语句	算法语句
1					{[]:C.main()}		3	AddReachable(m^entry)—加入RM
2	[<[]:c, {o₃}>]						3	AddReachable(m^entry)—处理New
3	[]	<[]:c, {o₃}>		pt([]:c) ={o₃}；				While开头，Propagate()—遍历WL更新指针
4	[⟨[4]:C.m_this, {o₃}⟩]						4	ProcessCall()—this指针加入WL
5	[⟨[4]:C.m_this, {o₃}⟩]					{[ ]:4 → [4]:C.m()}；		ProcessCall()——函数加入CG
6	[⟨[4]:C.m_this, {o₃}⟩，⟨[4]:n₁, {o₁₂⟩，⟨[4]:n₂, {o₁₃⟩]		没有参数/返回值		{[]:C.main(), [4]:C.m()}		12,13	ProcessCall():AddReachable(m)处理m函数中的New
7	[⟨[4]:n₁, {o₁₂⟩，⟨[4]:n₂, {o₁₃⟩]	⟨[4]:C.m_this, {o₃}⟩		pt([]:c) ={o₃}；pt([4]:C.m_this)={o₃}；				While开头，Propagate()—遍历WL更新指针
8	[⟨[4]:n₁, {o₁₂⟩，⟨[4]:n₂, {o₁₃⟩]							ProcessCall():处理m中的this调用
9	[⟨[4]:n₁, {o₁₂⟩，⟨[4]:n₂, {o₁₃⟩]						14	ProcessCall():Select(c,l,c':oⁱ)选择上下文c^t=[14]
10	[⟨[4]:n₁, {o₁₂⟩，⟨[4]:n₂, {o₁₃⟩]				{[]:C.main()， [4]:C.m()，[14]:C.id(Number)}	{[ ]:4 → [4]:C.m()；[4]:14 → [14]:C.id(Number)}；		ProcessCall():AddReachable([14]:C.id(Number))
11	[⟨[4]:n₁, {o₁₂⟩，⟨[4]:n₂, {o₁₃⟩]		[4]:n1→[14]:n→[4]:x；					ProcessCall():AddEdge()参数边/返回值边
12	[⟨[4]:n₁, {o₁₂⟩，⟨[4]:n₂, {o₁₃⟩]		[4]:n1→[14]:n→[4]:x；[4]:n2→[15]:n→[4]:y；		{[]:C.main()， [4]:C.m()，[14]:C.id(Number)，[15]:C.id(Number)}	{[ ]:4 → [4]:C.m()；[4]:14 → [14]:C.id(Number)，[4]:15 → [15]:C.id(Number)}；	15	ProcessCall()同理
13	[]	[⟨[4]:n₁, {o₁₂⟩，⟨[4]:n₂, {o₁₃⟩]	8-4-1-PFG.png					While开头—遍历WL更新指针
14	[]				8-4-2-RM.png	8-4-3-CG.png	16	While开头，ProcessCall()—处理`x.get()`

上下文不敏感vs上下文敏感（1-Call-Site）：

8-4-4-不敏感vs敏感.png

（2）Object Sensitivity

原理：针对面向对象语言，用receiver object来表示上下文。对比1层的调用点敏感和对象敏感，时间和准确性上对象敏感显然更优，这是由面向对象语言的特点所确定的。

Select(c,l,c':o_i,m) = [o_j, ... , o_k, o_i] （c' = [o_j, ... , o_k]）

示例：选取1-object，最终pt(x)=o₃。

8-4-5-对象上下文示例.png

对比：对比1-Call-Site和1-object上下文，在这个示例中1-object明显更准确。原因是面向对象语言的特性，多态性产生很多继承链，一层一层调用子对象，其中最关键的是receiver object，receiver object决定了调用者的根源。本例有多层调用，若采用2-Call-Site就不会出错。

8-4-6-callsite_vs_object.png

8-4-6-callsite_vs_object2.png

示例2：在本示例中，1-Call-Site明显更准确。因为同一个receiver object用不同参数多次调用了子函数，导致局部变量无法区分。

8-4-6-callsite_vs_object3.png

结论：所以理论上，对象敏感与callsite敏感的准确度无法比较。但是对于面向对象语言，对象敏感的准确度要优于callsite敏感。

（3）Type Sensitivity

原理：牺牲精度，提高速度。基于创建点所在的类型，是基于对象敏感粗粒度的抽象，精度较低。

Select(c,l,c':o_i,m) = [𝑡′,...,𝑡′′,InType(𝑜_𝑖)] 其中𝑐′ = [𝑡′, ... , 𝑡′′]

8-4-7-Type_vs_Object.png

（4）总体对比

精度：object > type > call-site

效率：type > object > call-site

本课老师提出选择上下文的方法，对代码的特点有针对性的选择上下文方法，见A Principled Approach to Selective Context Sensitivity for Pointer Analysis。厉害了！

课后问题

问题1：流敏感和上下文敏感对变量/堆抽象的表示有什么区别？

上下文敏感：某个变量在不同上下文的指向，以调用点位置作为区分度。
流敏感：比如说程序运行到第4行，在这个位置变量的指向是什么，第20行又指向哪些，以控制流的位置来作为区分度。

对于面向对象语言，Steensgaard算法不实用。

问题2：如果循环中同一行多次调用同一函数，会区分每次调用吗？循环展开还是不展开？

本课程分析的是流不敏感，所以不会展开循环。Java分析不需要流敏感，开销太大了，效果不明显。

【课程笔记】南大软件分析课程8——指针分析-上下文敏感（课时11
目录：介绍 Context Sensitive Pointer Analysis：Rules Context S...
【课程笔记】南大软件分析课程6——指针分析介绍（课时8）
目录： Motivation 指针分析介绍影响指针分析的关键要素分析哪些语句重点：什么是指针分析？影响指针...
【课程笔记】南大软件分析课程7——指针分析基础（课时9/10）
目录：指针分析规则如何实现指针分析指针分析算法指针分析如何处理函数调用（过程间指针分析）重点：理解指针...
【课程笔记】南大软件分析课程9——污点分析（课时13）
目录：信息流安全保密性和完整性显示流和隐藏信道-Explicit Flows and Covert Chan...
【课程笔记】南大软件分析课程5——过程间分析（课时7）
目录： Motivation 调用图构建过程间控制流分析过程间数据流分析重点：学习如何利用类层级分析来构建...
【课程笔记】南大软件分析课程12——Soundiness（课时1
目录 Soundness & Soundiness 复杂语言特性一：Java Reflection 复杂语言特性二...
【课程笔记】南大软件分析课程11——CFL可达性&IFDS（课时
目录： Infeasible and Realizable Paths——基本概念 CFL-Reachablity...
【课程笔记】南大软件分析课程1——课程介绍
侵权删。首先非常感谢南京大学李樾和谭添老师的无私分享，之前学习程序分析是看的北大熊英飞老师的ppt，但是很多地方...
【课程笔记】南大软件分析课程2——IR
目录：编译器和静态分析的关系 AST vs IR IR:3-地址代码（3AC）实际静态分析器的3AC—Soot...
【课程笔记】南大软件分析课程4——数据流分析基础（课时5/6）
关于这一节zcc的笔记已经够完美了，我就直接在他基础上记录了。目录：迭代算法-另一个角度偏序（Partial...