“Parker 流处理器”并不是一个独立的、与 CUDA 核心或 Tensor 核心并列的硬件单元。

它实际上指的是 Parker SoC 中集成的一个特殊的、可编程的处理器集群,其核心是 NVIDIA 的第二代 Maxwell 架构 GPU,之所以被称为“流处理器”,是因为这个 GPU 的设计理念和工作方式就是基于“流处理器”(Streaming Processor)模型,非常适合处理高度并行化的数据流。
我们可以从以下几个层面来理解它:
它是什么?—— Parker SoC 的核心组件
NVIDIA Tegra Parker 是一款面向汽车和嵌入式市场的片上系统,主要用于高级驾驶辅助系统和自动驾驶计算平台,它由以下几个关键部分组成:
- CPU 部分: 采用 Denver 2 自研核心与 ARM Cortex-A57 核心组成的“大小核”(Big.LITTLE)异构架构。
- GPU 部分: 这就是我们所说的“Parker 流处理器”,它基于 Maxwell 架构。
- DLA (Deep Learning Accelerator): 深度学习加速器,这是 Parker 的一大亮点,专门用于高效运行深度神经网络,减轻 GPU 的负担。
- PVA (Programmable Vision Accelerator): 可编程视觉加速器,用于处理传统的计算机视觉任务,如光流、特征点检测等。
当人们谈论“Parker 流处理器”时,他们指的就是 Parker SoC 中的 Maxwell GPU,它在整个系统中主要负责图形渲染、并行计算和视觉感知任务中未被 DLA/PVA 处理的部分。

技术架构与特性 —— Maxwell 架构的精髓
Parker 的 GPU 是 NVIDIA 在移动和嵌入式领域的第二代 Maxwell 架构(与 Tegra X1 的第一代 Maxwell 相比),它在性能和能效上都有显著提升。
a. 核心特性
-
CUDA 核心流处理器:
- 这是 GPU 的基本计算单元,Maxwell 架构的 CUDA 核心在能效比上进行了优化,每个核心可以处理更多的浮点运算。
- 它们被组织成多个 流式多处理器,每个 SM 都包含了多个 CUDA 核心、调度单元、缓存和纹理单元,能够高效地调度和执行成百上千个线程。
-
L1/L2 缓存:
- 每个 SM 都有自己的 L1 缓存和共享内存,用于加速数据在核心间的共享。
- 整个 GPU 拥有更大的 L2 缓存,作为不同 SM 之间以及与 CPU 之间的数据桥梁,减少了对慢速主内存的访问。
-
纹理单元:
(图片来源网络,侵删)专门用于从纹理内存中高效获取数据,这对图形渲染和某些图像处理算法至关重要。
-
硬件调度器:
Maxwell 架构引入了更智能的硬件调度器,能够更高效地管理线程的启动和执行,减少了 CPU 的干预开销,提升了并行计算效率。
b. 性能与能效优化
- 统一内存架构:
CPU 和 GPU 共享同一个物理内存空间,这简化了编程模型,数据无需在 CPU 和 GPU 之间进行昂贵的拷贝,可以直接访问,非常适合处理像摄像头视频流这样的大数据。
- 先进的功耗管理:
Parker 针对汽车应用场景进行了深度优化,支持精细的功耗控制,GPU 可以根据负载动态调整频率和电压,在提供澎湃性能的同时,最大限度地降低功耗和发热,这对于车载计算平台至关重要。
在自动驾驶系统中的关键作用
在基于 Tegra Parker 的自动驾驶平台(如 NVIDIA DRIVE PX 系列)中,“流处理器”(即 Maxwell GPU)扮演着核心角色,与 DLA 和 PVA 协同工作。
-
传感器数据融合与预处理:
- 接收来自多个摄像头、雷达、激光雷达的原始数据流。
- GPU 可以高效地执行图像去畸变、色彩空间转换、金字塔生成等预处理任务,为后续的感知算法“清洗”和“准备”数据。
-
计算机视觉算法:
- 执行传统的、非深度学习的视觉算法,光流计算(用于运动估计)、特征点提取与匹配(如 SURF, ORB)、立体视觉测距 等,这些算法天然适合在 GPU 上进行并行化处理。
-
图形渲染与仿真:
- 可视化:实时渲染 3D 环境模型,用于驾驶员监控或系统状态的可视化展示。
- 仿真:在开发自动驾驶算法时,GPU 可以用来渲染高保真的虚拟场景,用于大规模的路测和算法验证,极大地降低了实车测试的成本和风险。
-
通用并行计算:
作为 CUDA 平台,它可以运行各种自定义的并行计算程序,例如路径规划、决策逻辑中需要大量计算的部分,或者运行一些不适合 DLA 硬件加速的特定神经网络。
“流处理器”与其他加速器的协同
理解 Parker 的关键在于其 异构计算 架思想:
- GPU (流处理器):擅长处理不规则、数据密集型的并行任务,如图形渲染、通用并行计算、传统视觉算法,它非常灵活,可以通过软件编程来适应各种算法。
- DLA (深度学习加速器):擅长处理规则、计算密集型的深度神经网络推理任务(如 CNN),它的硬件是为特定计算模式(如卷积、池化)量身定制的,因此在能效比上远超 GPU。
- PVA (可编程视觉加速器):擅长处理传统的、固定的计算机视觉算法,如光流、特征点,它介于 GPU 和 DLA 之间,为特定视觉任务提供了高效的硬件加速能力。
工作流程示例: 一辆汽车的前视摄像头捕获视频流。
- PVA 可能首先处理部分数据,提取初步的特征。
- 视频帧被送到 GPU,进行畸变校正和缩放。
- 校正后的图像帧被同时送到 DLA 和 GPU。
- DLA 运行一个高效的 CNN(如 YOLO)来检测行人、车辆。
- GPU 运行一个更灵活但能效稍低的自定义算法,或者进行光流计算来分析物体运动。
- GPU 最后将所有感知结果(来自 DLA、PVA 和自身计算)进行融合,并渲染出最终的 3D 可视化场景。
Tegra Parker 流处理器 本质上是 Parker SoC 中基于 NVIDIA Maxwell 架构的 GPU,它不是一个孤立的单元,而是整个异构计算系统的核心成员之一。
- 身份:它是一个高度并行、可编程的处理器,专为处理数据流而生。
- 技术:基于 Maxwell 架构,拥有优化的 CUDA 核心、缓存和调度器,具备出色的能效比。
- 角色:在自动驾驶系统中,它负责图形渲染、通用并行计算、传统计算机视觉算法,并与 DLA、PVA 协同工作,构成一个强大而高效的感知计算平台。
可以说,正是以 Parker 流处理器为代表的这种异构计算架构,奠定了 NVIDIA 在自动驾驶计算领域的领先地位。
