13.2 内联、循环展开与编译器优化提示

听

Rust 编译器（基于 LLVM）在发布模式下会自动执行大量优化，其中函数内联（inlining）和循环展开（loop unrolling）是提升性能的关键手段。理解这些机制的工作方式，有助于编写更易被优化的代码，并在必要时提供提示以引导编译器做出更优决策。

函数内联

内联是指将函数调用替换为其函数体，从而消除调用开销（如栈帧建立、跳转指令），并为后续优化（如常量传播、死代码消除）创造条件。对于小型函数（如 getter、简单计算），内联几乎总是有益的。

在 Rust 中，编译器会自动内联许多函数，尤其是同一 crate 内的泛型函数或标记为 #[inline] 的函数。然而，跨 crate 调用时，若函数未显式标记为可内联，其定义可能不可见，导致无法内联。

例如：

// lib.rs in a library crate
pub fn add(a: i32, b: i32) -> i32 {
    a + b
}

// main.rs in binary crate
fn main() {
    let x = mylib::add(1, 2); // 若 add 未标记 #[inline]，可能不会内联
}

此时，即使 add 很小，也可能产生一次函数调用。解决方法是在库中使用 #[inline]（见 13.3 节）。

循环展开

循环展开通过复制循环体多次来减少分支判断次数，提高指令级并行度。例如：

for i in 0..4 {
    arr[i] *= 2;
}

编译器可能将其展开为：

arr[0] *= 2;
arr[1] *= 2;
arr[2] *= 2;
arr[3] *= 2;

这消除了循环计数和跳转，尤其在数组长度固定或较小的情况下效果显著。LLVM 通常能自动识别此类模式，但对动态长度或复杂控制流可能保守处理。

帮助编译器优化

虽然 LLVM 强大，但某些写法会阻碍优化：

过度抽象或间接调用：如通过函数指针或 trait 对象调用，阻止内联；
跨 crate 边界未导出符号：导致函数体不可见；
不必要的 panic 路径：如未检查的索引访问（vec[i]）会插入边界检查，而 get(i) 返回 Option 可能影响向量化。

可通过以下方式改善：

使用迭代器而非手写索引循环（迭代器经优化后常生成高效代码）；
避免在热路径中使用动态分发；
在性能关键路径上使用 unsafe 块（如 get_unchecked）仅当能保证安全时。

优化级别

Rust 的优化行为依赖于构建配置：

debug 模式（默认）：禁用几乎所有优化，便于调试；
release 模式（--release）：启用 -O3 级别优化，包括内联、循环展开、向量化等。

务必在 release 模式下进行性能评估。

小结

内联和循环展开是编译器提升性能的基础手段。虽然 Rust 和 LLVM 能自动处理多数情况，但开发者仍需注意代码结构对优化的影响。合理组织 crate 边界、避免不必要的间接性、并在关键函数上提供内联提示，可帮助编译器生成更高效的机器码。下一节将详细介绍如何使用 #[inline]、#[cold] 等属性进一步引导优化。

#Rust 入门教程分享于 1 周前

上一篇：13.1 零成本抽象理念下一篇：13.3 使用 #[inline]、#[cold] 等属性