美文网首页
二十四、LLVM

二十四、LLVM

作者: Mjs | 来源:发表于2020-11-17 14:22 被阅读0次

LLVM概述

LLVM是构架编译器(compiler)的框架系统,以C++编写而成,用于优化以任意程 序语言编写的程序的编译时间(compile-time)、链接时间(link-time)、运行时间 (run-time)以及空闲时间(idle-time),对开发者保持开放,并兼容已有脚本。
LLVM计划启动于2000年,最初由美国UIUC大学的Chris Lattner博士主持开展。 2006年C hris Lattner加盟Apple Inc.并致力于LLVM在Apple开发体系中的应用。
Apple也是LLVM计划的主要资助者。
目前LLVM已经被苹果IOS开发工具、Xilinx Vivado、Facebook、Google等各大 公司采用。

传统编译器设计

传统编译器设计.png

编译器前端(Frontend)

编译器前端的任务是解析源代码。它会进行:词法分析,语法分析,语义分析, 检查源代码是否存在错误,然后构建抽象语法树(Abstract Syntax Tree,AST) ,LLVM的前端还会生成中间代码(intermediate representation , IR)。

优化器(Optimizer)

优化器负责进行各种优化。改善代码的运行时间,例如消除冗余计算等。

后端(Backend) /代码生成器(CodeGenerator)

将代码映射到目标指令集。生成机器语言,并且进行机器相关的代码优化。

iOS的编译器架构

Objective C/C/C++使用的编译器前端是Clang, Swift是Swift,后端都是LLVM。


iOS编译器架构.png

LLVM的设计

当编译器决定支持多种源语言或多种硬件架构时,LLVM最重要的地方就来了。 其他的编译器如GCC,它方法非常成功,但由于它是作为整体应用程序设计的, 因此它们的用途受到了很大的限制。
LLVM设计的最重要方面是,使用通用的代码表示形式(IR),它是用来在编译器中表示代码的形式。所以LLVM可以为任何编程语言独立编写前端,并且可以为任意硬件架构独立编写后端。


编译器架构.png

出了一个新的高级语言,添加设计一个前端就可以了。出现新的cpu,添加一个后端就可以。

Clang

Clang是LLVM项目中的一个子项目。它是基于LLVM架构的轻量级编译器,诞生 之初是为了替代GCC,提供更快的编译速度。它是负责编译C、C++、Objecte- C语言的编译器,它属于整个LLVM架构中的,编译器前端。对于开发者来说,研究Clang可以给我们带来很多好处。

编译流程

通过命令可以打印源码的编译阶段

clang -ccc-print-phases main.m

0: input, "main.m", objective-c
1: preprocessor, {0}, objective-c-cpp-output
2: compiler, {1}, ir
3: backend, {2}, assembler
4: assembler, {3}, object
5: linker, {4}, image
6: bind-arch, "x86_64", {5}, image

0:输入文件:找到源文件。
1:预处理阶段:这个过程处理包括宏的替换,头文件的导入。
2:编译阶段:进行词法分析、语法分析、检测语法是否正确,最终生成IR。
3:后端:这里LLVM会通过一个一个的Pass去优化,每个Pass做一些事情,最 终生成汇编代码。
4:生成目标文件。
5:链接:链接需要的动态库和静态库,生成可执行文件。
6:通过不同的架构,生成对应的可执行文件。

预处理阶段

#import <stdio.h>
#define C 30

typedef int HK_INT_64;

int main(int argc, const char * argv[]) {
    @autoreleasepool {
        HK_INT_64 a = 10;
        HK_INT_64 b = 20;
        printf("%d",a + b + C);
    }
    return 0;
}

执行如下命令

clang -E main.m
clang -E main.m >> mian2.m //输出到文件中

...
typedef int HK_INT_64;

int main(int argc, const char * argv[]) {
    @autoreleasepool {
        HK_INT_64 a = 10;
        HK_INT_64 b = 20;
        printf("%d",a + b + 30);
    }
    return 0;
}

执行完毕可以看到头文件的导入和宏的替换。类型别名没有被替换掉。

编译阶段

词法分析

预处理完成后就会进行词法分析.这里会把代码切成一个个Token,比如大小括 号,等于号还有字符串等。

clang -fmodules -fsyntax-only -Xclang -dump-tokens main.m


annot_module_include '#import <stdio.h>
#define C 30

typedef int HK_INT_64;

int main(int argc, const char * argv[]) {
    @autoreleasepool {
        HK_INT_6'       Loc=<main.m:9:1>
typedef 'typedef'    [StartOfLine]  Loc=<main.m:12:1>
int 'int'    [LeadingSpace] Loc=<main.m:12:9>
identifier 'HK_INT_64'   [LeadingSpace] Loc=<main.m:12:13>
semi ';'        Loc=<main.m:12:22>
int 'int'    [StartOfLine]  Loc=<main.m:14:1>
identifier 'main'    [LeadingSpace] Loc=<main.m:14:5>
l_paren '('     Loc=<main.m:14:9>
int 'int'       Loc=<main.m:14:10>
identifier 'argc'    [LeadingSpace] Loc=<main.m:14:14>
comma ','       Loc=<main.m:14:18>
const 'const'    [LeadingSpace] Loc=<main.m:14:20>
char 'char'  [LeadingSpace] Loc=<main.m:14:26>
star '*'     [LeadingSpace] Loc=<main.m:14:31>
identifier 'argv'    [LeadingSpace] Loc=<main.m:14:33>
l_square '['        Loc=<main.m:14:37>
r_square ']'        Loc=<main.m:14:38>
r_paren ')'     Loc=<main.m:14:39>
l_brace '{'  [LeadingSpace] Loc=<main.m:14:41>
at '@'   [StartOfLine] [LeadingSpace]   Loc=<main.m:15:5>
identifier 'autoreleasepool'        Loc=<main.m:15:6>
l_brace '{'  [LeadingSpace] Loc=<main.m:15:22>
identifier 'HK_INT_64'   [StartOfLine] [LeadingSpace]   Loc=<main.m:16:9>
identifier 'a'   [LeadingSpace] Loc=<main.m:16:19>
equal '='    [LeadingSpace] Loc=<main.m:16:21>
numeric_constant '10'    [LeadingSpace] Loc=<main.m:16:23>
semi ';'        Loc=<main.m:16:25>
identifier 'HK_INT_64'   [StartOfLine] [LeadingSpace]   Loc=<main.m:17:9>
identifier 'b'   [LeadingSpace] Loc=<main.m:17:19>
equal '='    [LeadingSpace] Loc=<main.m:17:21>
numeric_constant '20'    [LeadingSpace] Loc=<main.m:17:23>
semi ';'        Loc=<main.m:17:25>
identifier 'printf'  [StartOfLine] [LeadingSpace]   Loc=<main.m:18:9>
l_paren '('     Loc=<main.m:18:15>
string_literal '"%d"'       Loc=<main.m:18:16>
comma ','       Loc=<main.m:18:20>
identifier 'a'      Loc=<main.m:18:21>
plus '+'     [LeadingSpace] Loc=<main.m:18:23>
identifier 'b'   [LeadingSpace] Loc=<main.m:18:25>
plus '+'     [LeadingSpace] Loc=<main.m:18:27>
numeric_constant '30'    [LeadingSpace] Loc=<main.m:18:29 <Spelling=main.m:10:11>>
r_paren ')'     Loc=<main.m:18:30>
semi ';'        Loc=<main.m:18:31>
r_brace '}'  [StartOfLine] [LeadingSpace]   Loc=<main.m:19:5>
return 'return'  [StartOfLine] [LeadingSpace]   Loc=<main.m:20:5>
numeric_constant '0'     [LeadingSpace] Loc=<main.m:20:12>
semi ';'        Loc=<main.m:20:13>
r_brace '}'  [StartOfLine]  Loc

语法分析

词法分析完成之后就是语法分析,它的任务是验证语法是否正确。在词法分析的 基础上将单词序列组合成各类语法短语,如“程序”,“语句”,“表达式”等等,然 后将所有节点组成抽象语法树(Abstract Syntax Tree, AST)。语法分析程序判 断源程序在结构上是否正确。

clang -fmodules -fsyntax-only -Xclang -ast-dump main.m

如果导入头文件找不到,那么可以指定SDK

clang -isysroot/Applications/Xcode.app/Contents/Developer/Platforms/ iPhoneSimulator.platform/Developer/SDKs/iPhoneSimulator12.2.sdk (自己S DK 路径) -fmodules -fsyntax-only -Xclang -ast-dump main.m

TranslationUnitDecl 0x7f8da082e408 <<invalid sloc>> <invalid sloc> <undeserialized declarations>
|-TypedefDecl 0x7f8da082eca0 <<invalid sloc>> <invalid sloc> implicit __int128_t '__int128'
| `-BuiltinType 0x7f8da082e9a0 '__int128'
|-TypedefDecl 0x7f8da082ed10 <<invalid sloc>> <invalid sloc> implicit __uint128_t 'unsigned __int128'
| `-BuiltinType 0x7f8da082e9c0 'unsigned __int128'
|-TypedefDecl 0x7f8da082edb0 <<invalid sloc>> <invalid sloc> implicit SEL 'SEL *'
| `-PointerType 0x7f8da082ed70 'SEL *'
|   `-BuiltinType 0x7f8da082ec00 'SEL'
|-TypedefDecl 0x7f8da082ee98 <<invalid sloc>> <invalid sloc> implicit id 'id'
| `-ObjCObjectPointerType 0x7f8da082ee40 'id'
|   `-ObjCObjectType 0x7f8da082ee10 'id'
|-TypedefDecl 0x7f8da082ef78 <<invalid sloc>> <invalid sloc> implicit Class 'Class'
| `-ObjCObjectPointerType 0x7f8da082ef20 'Class'
|   `-ObjCObjectType 0x7f8da082eef0 'Class'
|-ObjCInterfaceDecl 0x7f8da082efd0 <<invalid sloc>> <invalid sloc> implicit Protocol
|-TypedefDecl 0x7f8da082f348 <<invalid sloc>> <invalid sloc> implicit __NSConstantString 'struct __NSConstantString_tag'
| `-RecordType 0x7f8da082f140 'struct __NSConstantString_tag'
|   `-Record 0x7f8da082f0a0 '__NSConstantString_tag'
|-TypedefDecl 0x7f8da100ac00 <<invalid sloc>> <invalid sloc> implicit __builtin_ms_va_list 'char *'
| `-PointerType 0x7f8da082f3a0 'char *'
|   `-BuiltinType 0x7f8da082e4a0 'char'
|-TypedefDecl 0x7f8da100aee8 <<invalid sloc>> <invalid sloc> implicit __builtin_va_list 'struct __va_list_tag [1]'
| `-ConstantArrayType 0x7f8da100ae90 'struct __va_list_tag [1]' 1 
|   `-RecordType 0x7f8da100acf0 'struct __va_list_tag'
|     `-Record 0x7f8da100ac58 '__va_list_tag'
|-ImportDecl 0x7f8da100b710 <main.m:9:1> col:1 implicit Darwin.C.stdio
|-TypedefDecl 0x7f8da100b768 <line:12:1, col:13> col:13 referenced HK_INT_64 'int'
| `-BuiltinType 0x7f8da082e500 'int'
`-FunctionDecl 0x7f8da100ba40 <line:14:1, line:21:1> line:14:5 main 'int (int, const char **)'
  |-ParmVarDecl 0x7f8da100b7d8 <col:10, col:14> col:14 argc 'int'
  |-ParmVarDecl 0x7f8da100b8f0 <col:20, col:38> col:33 argv 'const char **':'const char **'
  `-CompoundStmt 0x7f8da11681c0 <col:41, line:21:1>
    |-ObjCAutoreleasePoolStmt 0x7f8da1168178 <line:15:5, line:19:5>
    | `-CompoundStmt 0x7f8da1168150 <line:15:22, line:19:5>
    |   |-DeclStmt 0x7f8da1167a88 <line:16:9, col:25>
    |   | `-VarDecl 0x7f8da1167a00 <col:9, col:23> col:19 used a 'HK_INT_64':'int' cinit
    |   |   `-IntegerLiteral 0x7f8da1167a68 <col:23> 'int' 10
    |   |-DeclStmt 0x7f8da1167f18 <line:17:9, col:25>
    |   | `-VarDecl 0x7f8da1167ab0 <col:9, col:23> col:19 used b 'HK_INT_64':'int' cinit
    |   |   `-IntegerLiteral 0x7f8da1167b18 <col:23> 'int' 20
    |   `-CallExpr 0x7f8da11680f0 <line:18:9, col:30> 'int'
    |     |-ImplicitCastExpr 0x7f8da11680d8 <col:9> 'int (*)(const char *, ...)' <FunctionToPointerDecay>
    |     | `-DeclRefExpr 0x7f8da1167f30 <col:9> 'int (const char *, ...)' Function 0x7f8da1167b40 'printf' 'int (const char *, ...)'
    |     |-ImplicitCastExpr 0x7f8da1168138 <col:16> 'const char *' <NoOp>
    |     | `-ImplicitCastExpr 0x7f8da1168120 <col:16> 'char *' <ArrayToPointerDecay>
    |     |   `-StringLiteral 0x7f8da1167f88 <col:16> 'char [3]' lvalue "%d"
    |     `-BinaryOperator 0x7f8da1168088 <col:21, line:10:11> 'int' '+'
    |       |-BinaryOperator 0x7f8da1168048 <line:18:21, col:25> 'int' '+'
    |       | |-ImplicitCastExpr 0x7f8da1168018 <col:21> 'HK_INT_64':'int' <LValueToRValue>
    |       | | `-DeclRefExpr 0x7f8da1167fa8 <col:21> 'HK_INT_64':'int' lvalue Var 0x7f8da1167a00 'a' 'HK_INT_64':'int'
    |       | `-ImplicitCastExpr 0x7f8da1168030 <col:25> 'HK_INT_64':'int' <LValueToRValue>
    |       |   `-DeclRefExpr 0x7f8da1167fe0 <col:25> 'HK_INT_64':'int' lvalue Var 0x7f8da1167ab0 'b' 'HK_INT_64':'int'
    |       `-IntegerLiteral 0x7f8da1168068 <line:10:11> 'int' 30
    `-ReturnStmt 0x7f8da11681b0 <line:20:5, col:12>

生成中间代码 IR(intermediate representation )

完成以上步骤后就开始生成中间代码IR 了,代码生成器(Code Generation )会 将语法树自顶向下遍历逐步翻译成LLVM IR。通过下面命令可以生成.11的文本文 件,查看IR代码。

int test(int a,int b){
    return  a + b + 3;
}

int main(int argc, const char * argv[]) {
    int a = test(1, 2);
    printf("%d",a);
    return 0;
}

clang -S -fobjc-arc -emit-llvm main.m

Objective C代码在这一步会进行runtime的桥接:property合成,ARC处理等
IR的基本语法

; ModuleID = 'main.m'
source_filename = "main.m"
target datalayout = "e-m:o-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-apple-macosx10.15.0"

@.str = private unnamed_addr constant [3 x i8] c"%d\00", align 1

; Function Attrs: noinline nounwind optnone ssp uwtable
define i32 @test(i32, i32) #0 {; int a0,int a1
  %3 = alloca i32, align 4  ;int a3
  %4 = alloca i32, align 4  ;int b4
  store i32 %0, i32* %3, align 4  ;a3 = a0
  store i32 %1, i32* %4, align 4  ;a4 = a1
  %5 = load i32, i32* %3, align 4 ; int a5 = a3
  %6 = load i32, i32* %4, align 4 ; int a6 = a4
  %7 = add nsw i32 %5, %6         ; int a7 = a5 + a6
  %8 = add nsw i32 %7, 3          ; int a8 = a7 + 3    
  ret i32 %8                      ;return a8;
}

; Function Attrs: noinline optnone ssp uwtable
define i32 @main(i32, i8**) #1 {
  %3 = alloca i32, align 4
  %4 = alloca i32, align 4
  %5 = alloca i8**, align 8
  %6 = alloca i32, align 4
  store i32 0, i32* %3, align 4
  store i32 %0, i32* %4, align 4
  store i8** %1, i8*** %5, align 8
  %7 = call i32 @test(i32 1, i32 2)
  store i32 %7, i32* %6, align 4
  %8 = load i32, i32* %6, align 4
  %9 = call i32 (i8*, ...) @printf(i8* getelementptr inbounds ([3 x i8], [3 x i8]* @.str, i64 0, i64 0), i32 %8)
  ret i32 0
}

declare i32 @printf(i8*, ...) #2

attributes #0 = { noinline nounwind optnone ssp uwtable "correctly-rounded-divide-sqrt-fp-math"="false" "darwin-stkchk-strong-link" "disable-tail-calls"="false" "frame-pointer"="all" "less-precise-fpmad"="false" "min-legal-vector-width"="0" "no-infs-fp-math"="false" "no-jump-tables"="false" "no-nans-fp-math"="false" "no-signed-zeros-fp-math"="false" "no-trapping-math"="false" "probe-stack"="___chkstk_darwin" "stack-protector-buffer-size"="8" "target-cpu"="penryn" "target-features"="+cx16,+cx8,+fxsr,+mmx,+sahf,+sse,+sse2,+sse3,+sse4.1,+ssse3,+x87" "unsafe-fp-math"="false" "use-soft-float"="false" }
attributes #1 = { noinline optnone ssp uwtable "correctly-rounded-divide-sqrt-fp-math"="false" "darwin-stkchk-strong-link" "disable-tail-calls"="false" "frame-pointer"="all" "less-precise-fpmad"="false" "min-legal-vector-width"="0" "no-infs-fp-math"="false" "no-jump-tables"="false" "no-nans-fp-math"="false" "no-signed-zeros-fp-math"="false" "no-trapping-math"="false" "probe-stack"="___chkstk_darwin" "stack-protector-buffer-size"="8" "target-cpu"="penryn" "target-features"="+cx16,+cx8,+fxsr,+mmx,+sahf,+sse,+sse2,+sse3,+sse4.1,+ssse3,+x87" "unsafe-fp-math"="false" "use-soft-float"="false" }
attributes #2 = { "correctly-rounded-divide-sqrt-fp-math"="false" "darwin-stkchk-strong-link" "disable-tail-calls"="false" "frame-pointer"="all" "less-precise-fpmad"="false" "no-infs-fp-math"="false" "no-nans-fp-math"="false" "no-signed-zeros-fp-math"="false" "no-trapping-math"="false" "probe-stack"="___chkstk_darwin" "stack-protector-buffer-size"="8" "target-cpu"="penryn" "target-features"="+cx16,+cx8,+fxsr,+mmx,+sahf,+sse,+sse2,+sse3,+sse4.1,+ssse3,+x87" "unsafe-fp-math"="false" "use-soft-float"="false" }

!llvm.module.flags = !{!0, !1, !2, !3, !4, !5, !6, !7}
!llvm.ident = !{!8}

!0 = !{i32 2, !"SDK Version", [3 x i32] [i32 10, i32 15, i32 6]}
!1 = !{i32 1, !"Objective-C Version", i32 2}
!2 = !{i32 1, !"Objective-C Image Info Version", i32 0}
!3 = !{i32 1, !"Objective-C Image Info Section", !"__DATA,__objc_imageinfo,regular,no_dead_strip"}
!4 = !{i32 4, !"Objective-C Garbage Collection", i32 0}
!5 = !{i32 1, !"Objective-C Class Properties", i32 64}
!6 = !{i32 1, !"wchar_size", i32 4}
!7 = !{i32 7, !"PIC Level", i32 2}
!8 = !{!"Apple clang version 11.0.3 (clang-1103.0.32.62)"}

@全局标识
%局部标识
alloca开辟空间
align内存对齐
i32 32个bit, 4个字节
store写入内存
load读取数据
call调用函数
ret返回
IR的优化
编译器优化.png

LLVM的优化级别分别是-O0 -O1 -O2 -O3 -Os(第一个是大写英文字母O)

clang -Os -S -fobjc-arc -emit-llvm main.m -o main.ll

bitCode

xcode7以后开启bitcode苹果会做进一步的优化。生成.be的中间代码。 我们通过优化后的IR代码生成.be代码

clang -emit-llvm -c main.ll -o main.bc

生成汇编代码

我们通过最终的.be或者.ll代码生成汇编代码

clang -S -fobjc-arc main.bc -o main.s
clang -S -fobjc-arc main.ll -o main.s

生成汇编代码也可以进行优化

clang -Os -S -fobjc-arc main.m -o main.s

生成目标文件(汇编器)

目标文件的生成,是汇编器以汇编代码作为输入,将汇编代码转换为机器代码, 最后输出目标文件(object file)o

clang -fmodules -c main.s -o main.o

通过nm命令,查看下main.o中的符号

$xcrun nm -nm main.o

(undefined) external _printf
0000000000000000 (  _TEXT,  _text) external _test
000000000000000a (  TEXT,   text) external _main

_printf 是一个是 undefined externaI的。
undefined表示在当前文件暂时找不到符号_printf external表示这个符号是外部可以访问的。

生成可执行文件(链接)

连接器把编译产生的.o文件和(.dylib .a)文件,生成一个mach-o文件。

clang main.o -o main

查看链接之后的符号

$xcrun nm -nm main

(undefined) external _printf (from libSystem)//运行的时候动态的绑定
(undefined) external dyld_stub_binder (from libSyste
m)
0000000100000000 (  TEXT,   text) [referenced dynamically] external     
mh_execute_header
000000100000f6d (   _TEXT,  _text) external _test
000000100000f77 (   TEXT,   text) external _main

这就是将源代码编译成可执行的文件

相关文章

  • 二十四、LLVM

    LLVM概述 LLVM是构架编译器(compiler)的框架系统,以C++编写而成,用于优化以任意程 序语言编写的...

  • LLVM

    LLVM 什么是LLVM? 官网:https://llvm.org/ The LLVM Project is a ...

  • iOS_LLVM

    LLVM 官网:https://llvm.org/[https://llvm.org/] The LLVM Pro...

  • iOS 逆向 day 18 GCC LLVM Clang

    一、LLVM 1. 什么是 LLVM 官网:https://llvm.org/ The LLVM Project ...

  • 浅谈LLVM

    何为LLVM 在LLVM的官网(https://llvm.org/[https://llvm.org/])中写到T...

  • iOS逆向-day10:LLVM 编译器

    一、LLVM的简单介绍 1.1、什么是LLVM官网:https://llvm.org/LLVM官网解释:The L...

  • 初识LLVM&Clang-开发Xcode插件

    初识LLVM&Clang-开发Xcode插件 LLVM Xcode现在使用的编译器就是LLVM。LLVM比以前使用...

  • LLVM 初始 ①

    什么是LLVM 官网:https://llvm.org/ The LLVM Project is a collec...

  • LLVM 工具

    llvm-dis llvm-dis 是一个反汇编工具,通过 LLVM 字节码文件(.bc)得到 LLVM 汇编文件...

  • LLVM(1)LLVM了解

    一、什么是LLVM 1、官网:https://llvm.org/The LLVM Project is a col...

网友评论

      本文标题:二十四、LLVM

      本文链接:https://www.haomeiwen.com/subject/opdwbktx.html