TensorRT – 使用trtexec工具转换模型、运行模型、测试网络性能-StubbornHuang Blog

TensorRT – 使用trtexec工具转换模型、运行模型、测试网络性能

StubbornHuang TensorRT 发布于2021-09-19 阅读 9,597次 0次评论 3次点赞本文共1851个字，阅读需要5分钟。

1 转换模型

1.1 Caffe模型转换为TensorRT模型

将Caffe模型转换为TensorRT模型，启动所有精度以达到最佳性能

trtexec --deploy=mnist.prototex --model=mnist.caffe --saveEngine=mnist.trt --best

将Caffe模型转换为TensorRT模型，启动所有精度以达到最佳性能，并跳过推理性能测试

trtexec --deploy=mnist.prototex --model=mnist.caffe --saveEngine=mnist.trt --best --buildOnly

1.2 ONNX模型转换为TensorRT模型

将ONNX模型转换为静态batchsize的TensorRT模型，启动所有精度以达到最佳性能，工作区大小设置为1024M

trtexec --onnx=mnist.onnx --explicitBatch --saveEngine=mnist.trt --workspace=1024 --best

将ONNX模型转换为动态batchsize的TensorRT模型，启动所有精度以达到最佳性能，工作区大小设置为1024M

trtexec --onnx=mnist.onnx --minShapes=input:<shape_of_min_batch> --optShapes=input:<shape_of_opt_batch> --maxShapes=input:<shape_of_max_batch> --saveEngine=mnist.trt --best --workspace=1024 --best

--minShapes，--optShapes ，--maxShapes必须全部设置，设置的形式为：batchsize x 通道数 x 输入尺寸x x 输入尺寸y

例如：

--minShapes=input:1x3x416x416
--optShapes=input:8x3x416x416
--maxShapes=input:8x3x416x416

1.3 UFF模型转换为TensorRT模型

待补充

2 运行ONNX模型

在具有静态输入形状的全维模式下运行 ONNX 模型

trtexec --onnx=model.onnx

使用给定的输入形状在全维模式下运行 ONNX 模型

trtexec --onnx=model.onnx --shapes=input:32x3x244x244

使用一系列可能的输入形状对 ONNX 模型进行基准测试

trtexec --onnx=model.onnx --minShapes=input:1x3x244x244 --optShapes=input:16x3x244x244 --maxShapes=input:32x3x244x244 --shapes=input:5x3x244x244

3 网络性能测试

加载转换后的TensorRT模型进行性能测试，指定batch大小

trtexec --loadEngine=mnist16.trt --batch=1

收集和打印时序跟踪信息

trtexec --deploy=data/AlexNet/AlexNet_N2.prototxt --output=prob --exportTimes=trace.json

使用多流调整吞吐量

调整吞吐量可能需要运行多个并发执行流。例如，当实现的延迟完全在所需阈值内时，我们可以增加吞吐量，即使以一些延迟为代价。例如，为批量大小 1 和 2 保存引擎并假设两者都在 2ms 内执行，延迟阈值：

trtexec --deploy=GoogleNet_N2.prototxt --output=prob --batch=1 --saveEngine=g1.trt --int8 --buildOnly
trtexec --deploy=GoogleNet_N2.prototxt --output=prob --batch=2 --saveEngine=g2.trt --int8 --buildOnly

保存的引擎可以尝试找到低于 2 ms 的组合批次/流，以最大化吞吐量：

trtexec --loadEngine=g1.trt --batch=1 --streams=2
trtexec --loadEngine=g1.trt --batch=1 --streams=3
trtexec --loadEngine=g1.trt --batch=1 --streams=4
trtexec --loadEngine=g2.trt --batch=2 --streams=2

联系我

资助我们

随机推荐

Ubuntu – 安装高版本的gcc/g++，多版本切换以及配置环境

资源分享 – GPU Pro 7 – Advanced Rendering Techniques 英文PDF下载

资源分享 – Graphics Gems IV 英文PDF下载

资源分享 – Ray Tracing Gems – High-Quality and Real-Time Rendering with DXR and Other APIs 英文PDF下载

C++ – 使用Crypto++对字符串进行md5加密和md5校验

Duilib – 在同一台电脑上限制只能运行一个程序，防止软件多开

最新评论

TensorRT – 使用trtexec工具转换模型、运行模型、测试网络性能

1 转换模型

1.1 Caffe模型转换为TensorRT模型

1.2 ONNX模型转换为TensorRT模型

1.3 UFF模型转换为TensorRT模型

2 运行ONNX模型

3 网络性能测试

发表评论点击这里取消回复。

联系我

资助我们

随机推荐

Ubuntu – 安装高版本的gcc/g++，多版本切换以及配置环境

资源分享 – GPU Pro 7 – Advanced Rendering Techniques 英文PDF下载

资源分享 – Graphics Gems IV 英文PDF下载

资源分享 – Ray Tracing Gems – High-Quality and Real-Time Rendering with DXR and Other APIs 英文PDF下载

C++ – 使用Crypto++对字符串进行md5加密和md5校验

Duilib – 在同一台电脑上限制只能运行一个程序，防止软件多开

最新评论

TensorRT – 使用trtexec工具转换模型、运行模型、测试网络性能

1 转换模型

1.1 Caffe模型转换为TensorRT模型

1.2 ONNX模型转换为TensorRT模型

1.3 UFF模型转换为TensorRT模型

2 运行ONNX模型

3 网络性能测试

发表评论 点击这里取消回复。

大家都在搜

关注我们的公众号

发表评论点击这里取消回复。