要谈到指针有什么用,先要知道指针是什么。直接的解释是:指针是内存的标签。首先把你可以把整个内存想象成一个小区,里面都是连户的小公寓。比如这个样子:
好吧,是简陋了一点,但是我一直觉得excel表格真的和内存挺像的。内存是这样一组一组的存储单元组成的(这里不讨论太多细节),然后他们排列在一起。为了定位每个单元,需要给单元一个唯一的身份识别码。我们称为地址。用表格举例,那么这个格子的地址就是C4
当然,实际上内存的地址排布是线性的,也就是从0到最大可寻址地址。对于32位寻址的内存,最大地址刚好是0xFFFFFFFF,从0到0xFFFFFFFF恰好是 4GBytes个单元。如此一来,就可以通过地址定位一套公寓了。
但是全部按照数字来定位实在是太难记忆了,不好理解,对人类不友好。这时候我们想给地址起个别名,通过这个别名来找这套房子,只要别名不重复(后面还有展开)就一样可以起到定位一套房子的作用对吧。于是:
MyHouse就可以代替C4这个地址帮助我们定位这套房子。
或者我们可以称:MyHouse指向了C4。
这就是指针。
那么光有指针没用啊,房子总归还是要住人的。
我啊,小屌丝,不是在办公室工作,就是在家宅着,顺便一说我是48G的6年老饭了,在家宅着就看看SNH的直播。
如果不是在上面两种状态,那就是在两种状态转换的过程中。
对于计算机中的数据也是这样的,数据不是在工作中(在CPU的寄存器内),就是在家宅(在Cache或内存中)。
我是个新人,刚来公司,大家都不认识我,只知道我住在MyHouse,所以老板叫我“住在MyHouse里的那个”。
C语言中的表示就是 *MyHouse
但是这么说别人不礼貌,于是老板给了我个工号zmarsarc,以后公司里面大家就以工号相称。于是大家就知道了zmarsarc = *MyHouse。
而这个zmarsarc,实际上指的就是我曾某了。
例子举够了,实际解释:
C4:代表了内存的实际地址,这是一个绝对地址,任何进程都可以使用这个地址找到这个地方。
指针 MyHouse:是代表了一块内存标号,这个标号可以是绝对的,也可以是相对的,总之拥有这个变量的进程(就是你的Boss)可以通过这个指针找到这个地方。
指针解引用 *MyHouse:意思就是指的这块内存存放的实际数据,在例子中就是曾某,这里的曾某就是这个数据的真实含义。
变量名zmarsarc:就是指代了这个变量,某种程度上可以和MyHouse等价,但是MyHouse指的是在C4地址中的数据,而zmarsarc指的就是数据曾某,变量名是变量的标签,而指针是地址的标签。在逻辑上,他们是不同的。
-------------------指针能做什么--------------------
提到指针能做什么还是要额外提一下变量作用域。指针有什么用还是离不开这个概念。其实也很好理解,还是上面的例子。
我们公司里除了我以外还有一个叫冯某的,巧了,他住的地方也叫MyHouse,但是和我不是同一个地址。
那这怎么办,在公司里如果说“住在MyHouse里的那个”不就分不清了?没关系,我和他不在一个部门,我在技术部,他在销售部。我们两个部的部长手上的花名册里面虽然都有一个叫做 “住在 MyHouse里的”,但是他们互相知道,指的不是同一个人。
两个部门好比同一个进程中的两个线程,两个线程各自维护自己的变量表,他们之间互相不干涉。
如果不用线程举例子,也可以理解成两个函数,函数在自己的内部维护自己的变量,在不同的作用域中可以各自存在一个相同的名称,但是在同一个作用域中,不能存在相同的名称。
为什么呢,因为C语言在运行时栈上维护函数的局部变量。
我借用别人的一张图,这是INTEL规定的x86架构调用过程栈帧(侵删):
从被保存的EBP(栈基址指针)开始,是当前栈的结构。可以看到,所有局部变量和临时变量都在栈上。同时调用过程的局部变量在调用过程自己的栈帧内部。假如在调用过程有一个变量叫foo,而当前帧也有一个变量叫foo,它们当然不会混淆,因为它们在不同的栈帧内部。
不仅如此,当前过程根本就不知道它的调用者还有一个做foo的变量,因为每一个过程只维护自己的栈帧,而对于栈的历史不需要了解。
如果,我们希望在当前过程当中修改其它过程的一个变量应该怎么办?这时候就需要传递这个变量的地址了。
*栈是在内存上的。
有很多同学学了两年都没搞清这个事情,所以很重要我要提一下。
我们通过指针就可以访问内存上任意一个变量(当然是权限允许访问的区域)。假设我们只传递一个参数,就是这个变量的指针,并且不使用寄存器传递参数。那么调用过程将把指针的值放在图中<参数1>的位置,然后调用子过程。进入子过程后,子过程首先将当前的栈基址指针压入栈,然后把当前的栈顶指针赋给栈基址指针,就是这样
PUSH EBP
MOV EBP, ESP
这样,子过程就和调用过程的栈隔离了。栈帧创建完毕之后,子过程通过EBP+4寻址到<参数1>的位置,取出这个值,然后使用这个值来寻找需要修改的变量。这样子过程就可以在不了解调用过程的情况下 ,修改调用过程局部变量。这个子过程看起来可以像是这样的:
void foo(int* arg){
*arg = new_value;
//return;
}
结合之前的例子,就可以看明白了。
但是注意到,对于自动变量,只能是子过程修改栈上历史的变量,而不能是调用者修改子过程的变量。
因为,当子过程退出调用时,会将当前栈帧释放,函数的返回值,放在寄存器EXA当中。弹出所有被保存的寄存器以恢复上下文,弹出保存的EBP值恢复栈基址,然后将返回地址装入PC中,返回到调用的位置。
当父过程尝试修改子过程的局部变量时,子过程的局部变量永远是不存在的。
不妨考虑这样两个过程:
void foo(void){
int* num;
num = foo_1(void);
*num++;
//return;
}
int* foo_1(void){
int never_try_this = 0;
return &never_try_this;
}
首先foo调用了foo_1,foo_1创建了变量never_try_this,然后将变量的地址放在寄存器EXA中,返回。foo使用一个指针num保存了foo_1返回的never_try_this的地址,然后尝试对这个地址的值自加。但是在上面的例子中我们已经知道,当foo得到never_try_this的地址时,foo_1已经释放了自己的栈帧,所以这时候never_try_this变量实际已经不存在了,通过它的地址,访问将造成不可预知的后果。
这就是很多教材不断提到的:绝对不要尝试返回局部变量的指针。
还有一种用途。比如我们的调用过程希望给子过程传递一个数组,假如这个数组有5000个数吧。那么在如果我们将这个数组作为参数传递会怎样?
在传值的方式下,调用过程会将这个数组在栈上全部复制一遍,就像上图中看到的,从<参数1>的位置开始,连续放5000个数。
栈当然不可能是无限大的,总是有一个到头的地方,如果到头了还放不下这5000个数,那么,恩,栈就直接爆掉。然后操作系统提示你栈溢出,程序崩溃了。
这时候我们就可以在其它地方开辟一块连续的内存,然后使用指针指向这段内存的起始位置,将指针传递给子过程。这样传递过程中,只需要在栈上传递一个数,不仅省空间,而且速度快。
可惜,传递过程中,C语言的编译器没有帮你一起把这段内存的长度一起传了,在子过程中,你要冒着数组下标越界的风险来处理数据。所以检查下标是否越界的责任就要交给程序员,你需要在传递指针的同时传递长度,或者,直接在子过程里写出长度。数组下标越界造成的后果也是不可知的,唯一可以知道的是,有名的蠕虫病毒正是利用了数组下标越界。
剩下的还有一个我常用的用法就属于硬件工程师常用的方式:使用指针直接访问一个特定的内存区域。比如在哈佛结构的处理器上,外设的访问端口也是映射到内存上的。
假设我们在手册上查到某GPIO的写入寄存器地址是
0x48000000
那么我就可以直接写:
#define GPIOx (*(volatile unsigned *)0x48000000)
这样就可以通过GPIOx来直接访问端口了。
就是这样。
网友评论