Tegra Parker流处理器性能如何？-处理器-佑然科技平台

“Parker 流处理器”并不是一个独立的、与 CUDA 核心或 Tensor 核心并列的硬件单元。

（图片来源网络，侵删）

它实际上指的是 Parker SoC 中集成的一个特殊的、可编程的处理器集群，其核心是 NVIDIA 的第二代 Maxwell 架构 GPU，之所以被称为“流处理器”，是因为这个 GPU 的设计理念和工作方式就是基于“流处理器”（Streaming Processor）模型，非常适合处理高度并行化的数据流。

我们可以从以下几个层面来理解它：

它是什么？—— Parker SoC 的核心组件

NVIDIA Tegra Parker 是一款面向汽车和嵌入式市场的片上系统，主要用于高级驾驶辅助系统和自动驾驶计算平台，它由以下几个关键部分组成：

CPU 部分: 采用 Denver 2 自研核心与 ARM Cortex-A57 核心组成的“大小核”（Big.LITTLE）异构架构。
GPU 部分: 这就是我们所说的“Parker 流处理器”，它基于 Maxwell 架构。
DLA (Deep Learning Accelerator): 深度学习加速器，这是 Parker 的一大亮点，专门用于高效运行深度神经网络，减轻 GPU 的负担。
PVA (Programmable Vision Accelerator): 可编程视觉加速器，用于处理传统的计算机视觉任务，如光流、特征点检测等。

当人们谈论“Parker 流处理器”时，他们指的就是 Parker SoC 中的 Maxwell GPU，它在整个系统中主要负责图形渲染、并行计算和视觉感知任务中未被 DLA/PVA 处理的部分。

（图片来源网络，侵删）

技术架构与特性 —— Maxwell 架构的精髓

Parker 的 GPU 是 NVIDIA 在移动和嵌入式领域的第二代 Maxwell 架构（与 Tegra X1 的第一代 Maxwell 相比），它在性能和能效上都有显著提升。

a. 核心特性

CUDA 核心流处理器：
- 这是 GPU 的基本计算单元，Maxwell 架构的 CUDA 核心在能效比上进行了优化，每个核心可以处理更多的浮点运算。
- 它们被组织成多个 流式多处理器，每个 SM 都包含了多个 CUDA 核心、调度单元、缓存和纹理单元，能够高效地调度和执行成百上千个线程。
L1/L2 缓存：
- 每个 SM 都有自己的 L1 缓存和共享内存，用于加速数据在核心间的共享。
- 整个 GPU 拥有更大的 L2 缓存，作为不同 SM 之间以及与 CPU 之间的数据桥梁，减少了对慢速主内存的访问。
纹理单元：
（图片来源网络，侵删）

专门用于从纹理内存中高效获取数据,这对图形渲染和某些图像处理算法至关重要。
硬件调度器：

Maxwell 架构引入了更智能的硬件调度器，能够更高效地管理线程的启动和执行，减少了 CPU 的干预开销，提升了并行计算效率。

b. 性能与能效优化

统一内存架构：
CPU 和 GPU 共享同一个物理内存空间，这简化了编程模型，数据无需在 CPU 和 GPU 之间进行昂贵的拷贝，可以直接访问，非常适合处理像摄像头视频流这样的大数据。
先进的功耗管理：
Parker 针对汽车应用场景进行了深度优化，支持精细的功耗控制，GPU 可以根据负载动态调整频率和电压，在提供澎湃性能的同时，最大限度地降低功耗和发热，这对于车载计算平台至关重要。

在自动驾驶系统中的关键作用

在基于 Tegra Parker 的自动驾驶平台（如 NVIDIA DRIVE PX 系列）中，“流处理器”（即 Maxwell GPU）扮演着核心角色，与 DLA 和 PVA 协同工作。

传感器数据融合与预处理：
- 接收来自多个摄像头、雷达、激光雷达的原始数据流。
- GPU 可以高效地执行图像去畸变、色彩空间转换、金字塔生成等预处理任务，为后续的感知算法“清洗”和“准备”数据。
计算机视觉算法：
- 执行传统的、非深度学习的视觉算法，光流计算（用于运动估计）、特征点提取与匹配（如 SURF, ORB）、立体视觉测距 等，这些算法天然适合在 GPU 上进行并行化处理。
图形渲染与仿真：
- 可视化：实时渲染 3D 环境模型，用于驾驶员监控或系统状态的可视化展示。
- 仿真：在开发自动驾驶算法时，GPU 可以用来渲染高保真的虚拟场景，用于大规模的路测和算法验证，极大地降低了实车测试的成本和风险。
通用并行计算：

作为 CUDA 平台，它可以运行各种自定义的并行计算程序，例如路径规划、决策逻辑中需要大量计算的部分，或者运行一些不适合 DLA 硬件加速的特定神经网络。

“流处理器”与其他加速器的协同

理解 Parker 的关键在于其 异构计算 架思想：

GPU (流处理器)：擅长处理不规则、数据密集型的并行任务，如图形渲染、通用并行计算、传统视觉算法，它非常灵活，可以通过软件编程来适应各种算法。
DLA (深度学习加速器)：擅长处理规则、计算密集型的深度神经网络推理任务（如 CNN），它的硬件是为特定计算模式（如卷积、池化）量身定制的，因此在能效比上远超 GPU。
PVA (可编程视觉加速器)：擅长处理传统的、固定的计算机视觉算法，如光流、特征点，它介于 GPU 和 DLA 之间，为特定视觉任务提供了高效的硬件加速能力。

工作流程示例：一辆汽车的前视摄像头捕获视频流。

PVA 可能首先处理部分数据，提取初步的特征。
视频帧被送到 GPU，进行畸变校正和缩放。
校正后的图像帧被同时送到 DLA 和 GPU。
- DLA 运行一个高效的 CNN（如 YOLO）来检测行人、车辆。
- GPU 运行一个更灵活但能效稍低的自定义算法，或者进行光流计算来分析物体运动。
GPU 最后将所有感知结果（来自 DLA、PVA 和自身计算）进行融合，并渲染出最终的 3D 可视化场景。

Tegra Parker 流处理器 本质上是 Parker SoC 中基于 NVIDIA Maxwell 架构的 GPU，它不是一个孤立的单元，而是整个异构计算系统的核心成员之一。

身份：它是一个高度并行、可编程的处理器，专为处理数据流而生。
技术：基于 Maxwell 架构，拥有优化的 CUDA 核心、缓存和调度器，具备出色的能效比。
角色：在自动驾驶系统中，它负责图形渲染、通用并行计算、传统计算机视觉算法，并与 DLA、PVA 协同工作，构成一个强大而高效的感知计算平台。

可以说,正是以 Parker 流处理器为代表的这种异构计算架构，奠定了 NVIDIA 在自动驾驶计算领域的领先地位。