

深度学习中的张量数据结构与步幅操作技巧

ai算法芯片与系统

2025-11-15

导读：本文深入探讨深度学习张量的底层数据结构，重点阐述as_strided操作的原理与应用。通过详细分析步幅机制，展示如何实现转置、切片、广播等操作而不复制数据，并讨论内存安全与硬件加速。

本文深入探讨深度学习张量的底层数据结构，重点阐述as_strided操作的原理与应用。通过详细分析步幅机制，展示如何实现转置、切片、广播等操作而不复制数据，并讨论内存安全与硬件加速。

1. 张量数据结构：从数学概念到计算机实现

在深度学习框架中，张量（tensor）是最核心的数据结构。虽然这个术语来源于数学和物理学，用于描述标量、向量、矩阵的高维推广，但在计算机科学语境中，多维数组（ndarray）是更准确的描述，因为它直观地反映了数据在内存中的存储方式。

张量的C语言数据结构表示

从底层实现角度看，张量通常包含以下核心成员：


   typedef struct {
    void* data;           // 数据指针，指向实际存储的内存块
    dtype_t dtype;        // 数据类型描述符
    int64_t* shape;       // 形状数组，每个元素表示对应维度的大小
    int64_t* strides;     // 步幅数组，每个元素表示对应维度在内存中移动的步长
    int64_t ndim;         // 维度数量
    int64_t offset;       // 相对于data指针的偏移量
    int64_t ref_count;    // 引用计数，用于内存管理
} tensor_t;

关键数据成员说明：

• data指针：指向实际数据存储的内存地址，管理内存的生命周期
• dtype：描述数据类型（如float32、int64等），确定每个元素占用的字节数
• shape数组：形状，定义张量每个维度的大小，如[3, 4, 5]表示3×4×5的张量
• strides数组：步幅，核心概念，定义在每个维度上索引增加1时需要跳过的元素数量
• offset：从data指针开始的字节偏移量，用于视图操作

张量视图的数据结构

张量视图（tensor view或ndarray view）与常规张量共享相同的数据成员，但关键区别在于不管理实际的内存分配和释放：


   typedef struct {
    void* data;           // 指向原始张量数据的指针（不拥有内存）
    dtype_t dtype;        // 数据类型
    int64_t* shape;       // 视图的形状
    int64_t* strides;     // 视图的步幅
    int64_t ndim;         // 维度数
    int64_t offset;       // 在原始数据中的字节偏移
    tensor_t* base;       // 指向基础张量的指针
} tensor_view_t;

视图与常规张量的本质区别：

特性	常规张量	张量视图
内存管理	拥有并管理内存	共享基础张量内存
创建成本	可能涉及内存分配	几乎零成本
内存使用	独立内存块	可能重叠或部分使用基础内存
写时复制	不适用	通常需要写时复制机制

2. 步幅（strides）的核心作用

步幅是理解张量内存布局的关键概念。对于形状为的张量，步幅数组定义了在每个维度上索引增加1时，在内存中需要跳过的元素数量（而非字节数）。

内存索引计算公式

给定索引，对应的内存位置可以通过以下公式计算：

其中是第k维的索引，是第k维的步幅。

连续与非连续存储

连续张量的步幅满足特定关系。以行主序（C顺序）为例，对于形状为的张量，连续存储的步幅为：

非连续张量则不满足上述关系，可能由转置、切片或其他视图操作产生。

步幅计算的实例分析：

假设有一个形状为[2, 3, 4]的张量，按行主序连续存储：

• 最后一个维度（最内层）步幅为1
• 中间维度步幅为4（最后一个维度的大小）
• 第一个维度步幅为3×4=12
• 完整步幅：[12, 4, 1]

3. as_strided函数的原理与实现

as_strided函数是创建张量视图的核心工具，它通过重新解释现有张量的形状、步幅和偏移来创建新视图，而不复制数据。

图解形状与步长：深入理解NumPy多维数组（第一部分）

图解形状与步长：深入理解NumPy多维数组（第二部分）

图解形状与步长：深入理解NumPy多维数组（第三部分）

函数签名


   def as_strided(x, shape, strides, offset=0):

参数详细说明：

• x：输入张量，作为视图的基础
• shape：新视图的形状元组，定义视图的维度结构
• strides：新视图的步幅元组，定义新视图的内存访问模式
• offset：字节偏移量，指定新视图在基础数据中的起始位置

底层实现机制

在系统层面，as_strided的实现涉及以下关键步骤：

1. 参数验证：检查新形状和步幅的兼容性，确保维度数量一致
2. 边界检查：确保新视图不会访问超出原始张量边界的内存
3. 视图创建：构建新的张量视图结构体，共享基础数据
4. 内存管理：设置正确的引用计数和基础张量指针

边界检查算法：

对于给定的形状和步幅，最大内存偏移为：

这个值必须小于基础张量的有效内存范围。

4. as_strided的应用实例

4.1 转置操作

转置操作通过交换形状和步幅实现，不移动任何数据：


   import numpy as np

def transpose(x, axes=None):
    if axes is None:
        axes = tuple(reversed(range(x.ndim)))
    new_shape = tuple(x.shape[i] for i in axes)
    new_strides = tuple(x.strides[i] for i in axes)
    return np.lib.stride_tricks.as_strided(x, shape=new_shape, strides=new_strides)

original = np.arange(12).reshape(3, 4)
transposed = transpose(original)

转置操作的关键点：

• 零拷贝操作：只改变元数据，不复制实际数据
• 内存布局变化：从行优先变为列优先或反之
• 性能优势：对于大张量，避免数据移动带来的性能开销

转置前后对比：

属性	原始张量	转置后张量
形状	`(3, 4)`	`(4, 3)`
步幅	`(32, 8)`	`(8, 32)`
内存连续性	连续	非连续

as_strided在转置中的具体应用：

转置操作的核心在于重新排列步幅和形状的顺序。当调用transpose函数时，as_strided通过以下步骤创建转置视图：

1. 确定轴顺序：如果没有指定axes参数，默认反转所有维度
2. 重新排列形状：按照新的轴顺序重新排列形状元组
3. 重新排列步幅：按照相同的轴顺序重新排列步幅元组
4. 创建视图：使用新的形状和步幅调用as_strided

这种方法的巧妙之处在于，相同的物理内存数据被重新解释为不同的逻辑结构。例如，原始数组中位于[i, j]的元素，在转置后的视图中可以通过[j, i]访问，但实际上它们指向相同的内存位置。

转置操作的内存访问模式：

• 原始数组：按行访问，内存连续
• 转置数组：按列访问，内存非连续
• 访问效率：转置视图可能导致缓存未命中，影响性能

4.2 切片操作

切片操作通过调整偏移量和形状实现部分数据视图：


   def strided_slice(x, slices):
    new_shape = []
    new_strides = []
    offset = 0
    
    for i, sl in enumerate(slices):
        start = sl.start if sl.start is not None else 0
        stop = sl.stop if sl.stop is not None else x.shape[i]
        step = sl.step if sl.step is not None else 1
        
        dim_size = (stop - start + step - 1) // step
        new_shape.append(dim_size)
        new_strides.append(x.strides[i] * step)
        offset += start * x.strides[i]
    
    return np.lib.stride_tricks.as_strided(
        x, shape=tuple(new_shape), strides=tuple(new_strides), 
        offset=offset * x.itemsize
    )

arr = np.arange(24).reshape(4, 6)
sliced = strided_slice(arr, (slice(1, 4, 2), slice(2, 6, 1)))

切片操作的技术细节：

• 偏移计算：起始位置通过offset参数实现
• 步幅调整：切片步长通过乘以原始步幅实现
• 形状重计算：根据切片参数计算新形状

切片参数的影响：

切片参数	对步幅的影响	对形状的影响
`start`	增加`offset`	减少维度大小
`stop`	无直接影响	限制维度大小
`step`	步幅乘以`step`	维度大小按步长缩减

as_strided在切片中的具体应用：

切片操作使用as_strided来创建一个指向原始数据子集的新视图。实现过程包括：

1. 计算新形状：根据每个维度的切片参数计算新的维度大小
2. 调整步幅：如果切片有步长，将原始步幅乘以步长值
3. 计算偏移：根据起始位置计算新视图在原始数据中的偏移量
4. 创建视图：使用新的形状、步幅和偏移调用as_strided

切片操作的关键优势：

• 零拷贝：不复制数据，只创建指向原始数据子集的视图
• 灵活性：支持复杂的切片模式，包括负索引和步长
• 性能：对于大型数组，避免不必要的数据复制

切片操作的内存布局变化：

• 连续切片：如果切片保持连续性，新视图也是连续的
• 非连续切片：如果切片包含步长或反转，新视图可能非连续
• 内存重叠：切片视图与原始数组共享内存，修改一个会影响另一个

4.3 广播操作

广播通过插入大小为1的维度并调整步幅实现维度扩展：


   def broadcast_to(x, new_shape):
    x_shape = x.shape
    x_strides = x.strides
    
    if len(x_shape) > len(new_shape):
        raise ValueError("无法广播到更少的维度")
    
    new_strides = [0] * len(new_shape)
    
    for i in range(1, len(x_shape) + 1):
        x_dim = x_shape[-i]
        new_dim = new_shape[-i]
        
        if x_dim == 1 and new_dim > 1:
            new_strides[-i] = 0
        elif x_dim == new_dim:
            new_strides[-i] = x_strides[-i]
        else:
            raise ValueError(f"形状不兼容: {x_shape} -> {new_shape}")
    
    for i in range(len(new_shape) - len(x_shape)):
        new_strides[i] = 0
    
    return np.lib.stride_tricks.as_strided(x, shape=new_shape, strides=tuple(new_strides))

small = np.array([[1, 2, 3]])
broadcasted = broadcast_to(small, (4, 3))

广播机制的核心原理：

• 维度对齐：从最右边维度开始对齐
• 维度扩展：在缺失维度前添加大小为1的维度
• 步幅零扩展：对于扩展的维度，步幅设置为0，实现数据复用

广播规则总结：

1. 如果两个张量的维度数不同，在较小维度数的张量形状前补1
2. 对于每个维度大小，两者必须相等，或其中一个为1，或其中一个不存在
3. 大小为1的维度会被扩展为另一个张量对应维度的大小

as_strided在广播中的具体应用：

广播操作使用as_strided创建虚拟扩展的数组视图，而不实际复制数据。实现过程包括：

1. 形状兼容性检查：确保原始形状可以广播到目标形状
2. 步幅计算：对于扩展的维度，设置步幅为0
3. 形状调整：添加大小为1的维度以匹配目标形状
4. 创建广播视图：使用新的形状和步幅调用as_strided

广播操作的关键技术：

• 零步幅技巧：通过将步幅设置为0，使不同索引访问相同的内存位置
• 虚拟维度：添加大小为1的维度，不增加实际内存使用
• 内存效率：对于大型广播操作，显著节省内存

广播操作的应用场景：

• 算术运算：不同形状数组之间的元素级运算
• 神经网络：权重和偏置的批量处理
• 图像处理：滤波器应用到整个图像

4.4 平铺操作

平铺通过调整形状和步幅实现数据重复：


   def tile(x, reps):
    new_shape = []
    new_strides = []
    
    for i, rep in enumerate(reps):
        new_shape.append(x.shape[i] * rep)
        new_strides.append(x.strides[i])
    
    return np.lib.stride_tricks.as_strided(x, shape=tuple(new_shape), strides=tuple(new_strides))

original = np.array([[1, 2], [3, 4]])
tiled = tile(original, (2, 3))

平铺操作的特点：

• 虚拟重复：通过视图实现，不实际复制数据
• 内存效率：对于大张量，显著节省内存
• 访问模式：重复模式通过步幅和形状的组合实现

as_strided在平铺中的具体应用：

平铺操作使用as_strided创建重复模式的虚拟视图。实现过程包括：

1. 形状扩展：将每个维度的大小乘以相应的重复次数
2. 步幅保持：保持原始步幅不变，允许索引自动回绕
3. 创建平铺视图：使用扩展后的形状和原始步幅调用as_strided

平铺操作的技术细节：

• 索引回绕：当索引超过原始维度大小时，由于步幅不变，会自动访问原始数据
• 内存布局：平铺视图在内存中创建虚拟的重复模式
• 性能考虑：对于需要实际数据复制的场景，平铺视图可能不是最佳选择

平铺操作的应用场景：

• 模式生成：创建重复的图像或纹理模式
• 数据增强：在机器学习中扩展数据集
• 矩阵操作：创建块对角矩阵或其他重复结构

4.5 im2col操作

im2col是卷积计算中的关键操作，将图像局部区域展开为矩阵：


   def im2col(x, kernel_size, stride=1, padding=0):
    batch_size, channels, height, width = x.shape
    kh, kw = kernel_size
    
    pad_h = padding if isinstance(padding, int) else padding[0]
    pad_w = padding if isinstance(padding, int) else padding[1]
    
    out_h = (height + 2 * pad_h - kh) // stride + 1
    out_w = (width + 2 * pad_w - kw) // stride + 1
    
    if padding > 0:
        x_padded = np.pad(x, ((0, 0), (0, 0), (pad_h, pad_h), (pad_w, pad_w)), mode='constant')
    else:
        x_padded = x
    
    new_shape = (batch_size, out_h, out_w, channels, kh, kw)
    
    s0, s1, s2, s3 = x_padded.strides
    new_strides = (s0, s1 * stride, s2 * stride, s3, s1, s2)
    
    col = np.lib.stride_tricks.as_strided(
        x_padded, shape=new_shape, strides=new_strides
    )
    
    col = col.transpose(0, 1, 2, 4, 5, 3).reshape(batch_size * out_h * out_w, -1)
    
    return col

input_tensor = np.random.randn(2, 3, 5, 5)
col_matrix = im2col(input_tensor, (3, 3), stride=1, padding=1)

im2col操作的技术价值：

• 卷积优化：将卷积操作转换为矩阵乘法，便于加速
• 内存视图：通过巧妙的步幅设置，创建卷积核滑动窗口的视图
• 硬件友好：转换为GEMM操作，更好地利用现代硬件特性

im2col转换过程：

阶段	输入形状	输出形状	操作类型
原始输入	`(N, C, H, W)`	`(N, C, H, W)`	卷积输入
填充后	`(N, C, H+2P, W+2P)`	`(N, C, H+2P, W+2P)`	边界处理
as_strided视图	`(N, C, H+2P, W+2P)`	`(N, OH, OW, C, KH, KW)`	滑动窗口
最终重塑	`(N, OH, OW, C, KH, KW)`	`(N×OH×OW, C×KH×KW)`	矩阵化

as_strided在im2col中的具体应用：

im2col操作是as_strided最复杂的应用之一，它通过精心设计的步幅创建卷积滑动窗口的虚拟视图。实现过程包括：

1. 填充处理：首先对输入进行填充以处理边界条件
2. 输出形状计算：根据卷积参数计算输出特征图的大小
3. 步幅设计：设计特殊的步幅模式，使每个窗口对应输出矩阵的一行
4. 窗口提取：使用as_strided创建滑动窗口的虚拟视图
5. 矩阵重塑：将窗口视图重塑为二维矩阵，便于矩阵乘法

im2col操作的技术优势：

• 计算效率：将卷积转换为高度优化的矩阵乘法
• 内存效率：通过视图避免实际提取窗口数据
• 硬件利用：充分利用现代硬件的矩阵运算单元

im2col操作的性能考虑：

• 内存占用：虽然避免数据复制，但视图可能占用大量虚拟内存
• 缓存性能：非连续访问模式可能影响缓存效率
• 实际应用：在深度学习框架中广泛用于卷积层实现

5. as_strided的高级应用与内存管理

自定义滑动窗口操作

除了im2col，as_strided还可以用于实现各种滑动窗口操作：


   def sliding_window_view(x, window_shape, axis=None):
    if axis is None:
        axis = tuple(range(x.ndim))
    elif isinstance(axis, int):
        axis = (axis,)
    
    out_shape = list(x.shape)
    for ax, size in zip(axis, window_shape):
        out_shape[ax] = out_shape[ax] - size + 1
    
    out_strides = list(x.strides)
    for ax, size in zip(axis, window_shape):
        out_strides.append(x.strides[ax])
    
    for i, (ax, size) in enumerate(zip(axis, window_shape)):
        out_shape.insert(len(x.shape) + i, size)
    
    return np.lib.stride_tricks.as_strided(x, shape=out_shape, strides=out_strides)

滑动窗口操作的应用：

• 时间序列分析：创建时间窗口进行序列预测
• 图像处理：实现各种滤波器和高斯金字塔
• 信号处理：频谱分析和特征提取

as_strided的内存管理考虑

使用as_strided时需要特别注意内存管理问题：

内存安全准则：

1. 生命周期管理：确保基础张量在视图使用期间保持有效
2. 边界检查：验证视图不会访问超出基础张量边界的内存
3. 写时复制：在可能修改视图时实现写时复制机制
4. 引用计数：正确管理基础张量的引用计数

常见内存错误：

• 悬空指针：基础张量已释放，但视图仍在访问
• 越界访问：视图参数导致访问无效内存位置
• 内存泄漏：未能正确释放基础张量

6. 硬件加速与性能优化

Hopper架构的Tensor Memory Accelerator

NVIDIA的Hopper架构引入了Tensor Memory Accelerator，专门优化张量内存操作。TMA通过以下机制加速as_strided类操作：

1. 描述符存储：将张量形状、步幅等元数据存储在专用寄存器中
2. 地址生成单元：专用硬件计算复杂内存访问模式
3. 批量传输：一次性处理整个张量块而非单个元素
4. 内存合并：将非连续访问转换为更高效的内存访问模式

TMA的性能优势：

• 减少开销：专用硬件处理地址计算，减轻CPU/GPU负担
• 提高吞吐量：批量传输提高内存带宽利用率
• 能效提升：专用电路比通用处理器更高效

性能优化策略

优化策略	实现方式	适用场景	性能收益
内存布局优化	调整步幅使访问模式更连续	频繁转置或切片操作	高
分块计算	将大张量分解为小块处理	内存受限场景	中到高
预取策略	提前加载可能访问的数据	规律的内存访问模式	中
专用指令	使用硬件提供的特殊指令	特定形状的张量操作	高

优化策略实施要点：

1. 数据局部性：尽可能保持内存访问的连续性
2. 缓存友好：设计访问模式以最大化缓存命中率
3. 并行化：利用多核架构并行处理独立视图操作
4. 向量化：使用SIMD指令处理连续数据块

7. 内存安全与边界检查

使用as_strided时必须注意内存安全问题，因为错误的步幅参数可能导致越界访问：

安全使用准则

1. 边界验证：确保新视图不超出原始张量边界
2. 步幅合理性检查：验证步幅参数不会导致无效内存访问
3. 对齐要求：考虑硬件对内存访问的对齐要求
4. 生命周期管理：确保基础张量在视图使用期间保持有效

边界检查算法

对于形状为、步幅为、偏移为的视图，有效的内存访问范围是：

此范围必须完全包含在基础张量的有效内存范围内。

常见内存错误场景：

错误类型	原因	后果
越界访问	步幅或形状参数过大	段错误或数据损坏
错误对齐	偏移不符合硬件要求	性能下降或硬件异常
悬空指针	基础张量已释放	未定义行为

8. 高级应用与最佳实践

自定义张量操作

利用as_strided可以实现各种自定义张量操作，而无需编写复杂的C扩展：


   def sliding_window_view(x, window_shape, axis=None):
    if axis is None:
        axis = tuple(range(x.ndim))
    elif isinstance(axis, int):
        axis = (axis,)
    
    out_shape = list(x.shape)
    for ax, size in zip(axis, window_shape):
        out_shape[ax] = out_shape[ax] - size + 1
    
    out_strides = list(x.strides)
    for ax, size in zip(axis, window_shape):
        out_strides.append(x.strides[ax])
    
    for i, (ax, size) in enumerate(zip(axis, window_shape)):
        out_shape.insert(len(x.shape) + i, size)
    
    return np.lib.stride_tricks.as_strided(x, shape=out_shape, strides=out_strides)

性能基准测试

不同操作的性能特征对比：

操作类型	内存影响	计算复杂度	适用场景
常规as_strided	零额外内存	O(1)	视图创建
转置	零额外内存	O(1)	改变数据方向
切片	零额外内存	O(1)	部分数据访问
广播	零额外内存	O(1)	维度扩展
实际复制	线性内存增长	O(n)	需要连续存储时

最佳实践总结

1. 优先使用视图：在可能的情况下使用视图而非副本
2. 适时物化：当视图导致性能下降时，适时创建副本
3. 监控内存：注意视图可能导致的内存碎片
4. 测试边界：充分测试边界情况，确保内存安全

9. 结论

张量作为深度学习的核心数据结构，其高效实现依赖于对内存布局的精细控制。as_strided操作通过调整形状、步幅和偏移来创建张量视图，避免了不必要的数据复制，显著提升了计算效率。

现代AI加速器如Hopper架构的TMA专门优化这类操作，进一步提升了深度学习工作负载的性能。理解as_strided的原理和应用，对于开发高效的深度学习模型和系统至关重要。

在实际应用中，开发者需要在灵活性和安全性之间找到平衡，确保在利用视图操作提升性能的同时，避免内存访问错误和未定义行为。通过掌握as_strided的高级用法，可以解锁更多张量操作的优化可能性，为深度学习应用带来显著的性能提升。

【声明】内容源于网络