OpenCV | C++ – convertTo函数的执行效率问题,AI模型部署数据预处理的瓶颈
1 convertTo的执行效率问题
最近几天在使用TensorRT对BackgroundMattingV2抠图模型进行推理的时候,使用OpenCV作为图片数据的前处理工具,在这个模型部署的过程中,我发现OpenCV的转换图片数据类型的函数convertTo在处理大图片时非常耗时,可能这个时间比模型推理的时间还要长。
由于BackgroundMattingV2的TensorRT模型在输入端只接收float型的数组,而OpenCV在读取图片数据时又是默认使用的CV_8UC3的uchar类型的数据格式,如果不使用convertTo函数进行数据类型转换,在拷贝数据到GPU上时就会导致程序崩溃。
针对于这个问题,我专门写了一个测试的代码,分别测试图片分辨率在256x256,512x512,1280x720,1920x1080下convertTo的耗时。
代码如下:
#include <iostream>
#include <opencv2/opencv.hpp>
int main()
{
// 256x256
cv::Mat input_mat_256x256(256, 256, CV_8UC3, cv::Scalar(0, 0, 255));
double total_time_256x256 = 0.0;
for (int i = 0; i < 50; ++i)
{
auto beforeTime = std::chrono::steady_clock::now();
cv::Mat input_mat_convert;
input_mat_256x256.convertTo(input_mat_convert, CV_32FC3);
auto afterTime = std::chrono::steady_clock::now();
double duration_millsecond = std::chrono::duration<double, std::milli>(afterTime - beforeTime).count();
total_time_256x256 += duration_millsecond;
}
std::cout << "256x256 平均耗时:" << total_time_256x256 / 50 << "ms" << std::endl;
// 256x256
cv::Mat input_mat_512x512(512, 512, CV_8UC3, cv::Scalar(0, 0, 255));
double total_time_512x512 = 0.0;
for (int i = 0; i < 50; ++i)
{
auto beforeTime = std::chrono::steady_clock::now();
cv::Mat input_mat_convert;
input_mat_512x512.convertTo(input_mat_convert, CV_32FC3);
auto afterTime = std::chrono::steady_clock::now();
double duration_millsecond = std::chrono::duration<double, std::milli>(afterTime - beforeTime).count();
total_time_512x512 += duration_millsecond;
}
std::cout << "512x512 平均耗时:" << total_time_512x512 / 50 << "ms" << std::endl;
// 1280x720
cv::Mat input_mat_1280x720(720, 1280, CV_8UC3, cv::Scalar(0, 0, 255));
double total_time_1280x720 = 0.0;
for (int i = 0; i < 50; ++i)
{
auto beforeTime = std::chrono::steady_clock::now();
cv::Mat input_mat_convert;
input_mat_1280x720.convertTo(input_mat_convert, CV_32FC3);
auto afterTime = std::chrono::steady_clock::now();
double duration_millsecond = std::chrono::duration<double, std::milli>(afterTime - beforeTime).count();
total_time_1280x720 += duration_millsecond;
}
std::cout << "1280x720 平均耗时:" << total_time_1280x720 / 50 << "ms" << std::endl;
// 1920x1080
cv::Mat input_mat_1920x1080(1080, 1920, CV_8UC3, cv::Scalar(0, 0, 255));
double total_time_1920x1080 = 0.0;
for (int i = 0; i < 50; ++i)
{
auto beforeTime = std::chrono::steady_clock::now();
cv::Mat input_mat_convert;
input_mat_1920x1080.convertTo(input_mat_convert, CV_32FC3);
auto afterTime = std::chrono::steady_clock::now();
double duration_millsecond = std::chrono::duration<double, std::milli>(afterTime - beforeTime).count();
total_time_1920x1080 += duration_millsecond;
}
std::cout << "1920x1080 平均耗时:" << total_time_1920x1080 / 50 << "ms" << std::endl;
return 0;
}
测试结果如下:
256x256 平均耗时:0.038886ms
512x512 平均耗时:0.861928ms
1280x720 平均耗时:2.82133ms
1920x1080 平均耗时:7.163ms
从上述的测试结果,我们可以看出,OpenCV将一张1920x1080的图片从CV_8UC3转换为CV_32FC3需要将近7ms的时间,而这个时间可能比模型在GPU推理的时间还要长。
我之后尝试过其他的方式,比如说自己写一个C++模板函数进行转换
template<typename _Tp>
std::vector<_Tp> convert_mat_to_vector(const cv::Mat& mat)
{
return (std::vector<_Tp>)(mat.reshape(1, 1));
}
但是这个函数的时间比convertTo函数还要慢1ms左右。
2 CV-CUDA? 未来也许可行的加速方案
不过最近看到了CV-CUDA,它是NVIDIA开源的,使用GPU计算加速图片和视频预处理和后处理的库,支持常用的CV操作,具体的可以看NVIDIA的官方博客:[https://developer.nvidia.com/zh-cn/blog/cv-cuda-high-performance-image-processing/] 。不过现在这个库操作系统还只支持Ubuntu,暂且不支持Windows。也有人提了issue,但是官方的回答是还没有制定支持计划。
本文作者:StubbornHuang
版权声明:本文为站长原创文章,如果转载请注明原文链接!
原文标题:OpenCV | C++ – convertTo函数的执行效率问题,AI模型部署数据预处理的瓶颈
原文链接:https://www.stubbornhuang.com/2649/
发布于:2023年06月07日 15:57:49
修改于:2023年06月07日 15:59:57
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论
52