1 convertTo执行效率问题

最近几天在使用TensorRT对BackgroundMattingV2抠图模型进行推理的时候,使用OpenCV作为图片数据的前处理工具,在这个模型部署的过程中,我发现OpenCV的转换图片数据类型的函数convertTo在处理大图片时非常耗时,可能这个时间比模型推理的时间还要长。

由于BackgroundMattingV2的TensorRT模型在输入端只接收float型的数组,而OpenCV在读取图片数据时又是默认使用的CV_8UC3的uchar类型的数据格式,如果不使用convertTo函数进行数据类型转换,在拷贝数据到GPU上时就会导致程序崩溃。

针对于这个问题,我专门写了一个测试的代码,分别测试图片分辨率在256x256,512x512,1280x720,1920x1080下convertTo的耗时。

代码如下:

#include <iostream>
#include <opencv2/opencv.hpp>

int main() 
{
    // 256x256
    cv::Mat input_mat_256x256(256, 256, CV_8UC3, cv::Scalar(0, 0, 255));
    double total_time_256x256 = 0.0;
    for (int i = 0; i < 50; ++i)
    {
        auto beforeTime = std::chrono::steady_clock::now();

        cv::Mat input_mat_convert;
        input_mat_256x256.convertTo(input_mat_convert, CV_32FC3);

        auto afterTime = std::chrono::steady_clock::now();

        double duration_millsecond = std::chrono::duration<double, std::milli>(afterTime - beforeTime).count();

        total_time_256x256 += duration_millsecond;
    }

    std::cout << "256x256 平均耗时:" << total_time_256x256 / 50 << "ms"  << std::endl;

    // 256x256
    cv::Mat input_mat_512x512(512, 512, CV_8UC3, cv::Scalar(0, 0, 255));
    double total_time_512x512 = 0.0;
    for (int i = 0; i < 50; ++i)
    {
        auto beforeTime = std::chrono::steady_clock::now();

        cv::Mat input_mat_convert;
        input_mat_512x512.convertTo(input_mat_convert, CV_32FC3);

        auto afterTime = std::chrono::steady_clock::now();

        double duration_millsecond = std::chrono::duration<double, std::milli>(afterTime - beforeTime).count();

        total_time_512x512 += duration_millsecond;
    }

    std::cout << "512x512 平均耗时:" << total_time_512x512 / 50 << "ms" << std::endl;

    // 1280x720
    cv::Mat input_mat_1280x720(720, 1280, CV_8UC3, cv::Scalar(0, 0, 255));
    double total_time_1280x720 = 0.0;
    for (int i = 0; i < 50; ++i)
    {
        auto beforeTime = std::chrono::steady_clock::now();

        cv::Mat input_mat_convert;
        input_mat_1280x720.convertTo(input_mat_convert, CV_32FC3);

        auto afterTime = std::chrono::steady_clock::now();

        double duration_millsecond = std::chrono::duration<double, std::milli>(afterTime - beforeTime).count();

        total_time_1280x720 += duration_millsecond;
    }

    std::cout << "1280x720 平均耗时:" << total_time_1280x720 / 50 << "ms" << std::endl;

    // 1920x1080
    cv::Mat input_mat_1920x1080(1080, 1920, CV_8UC3, cv::Scalar(0, 0, 255));
    double total_time_1920x1080 = 0.0;
    for (int i = 0; i < 50; ++i)
    {
        auto beforeTime = std::chrono::steady_clock::now();

        cv::Mat input_mat_convert;
        input_mat_1920x1080.convertTo(input_mat_convert, CV_32FC3);

        auto afterTime = std::chrono::steady_clock::now();

        double duration_millsecond = std::chrono::duration<double, std::milli>(afterTime - beforeTime).count();

        total_time_1920x1080 += duration_millsecond;
    }

    std::cout << "1920x1080 平均耗时:" << total_time_1920x1080 / 50 << "ms" << std::endl;

    return 0;
}

测试结果如下:

256x256 平均耗时:0.038886ms
512x512 平均耗时:0.861928ms
1280x720 平均耗时:2.82133ms
1920x1080 平均耗时:7.163ms

从上述的测试结果,我们可以看出,OpenCV将一张1920x1080的图片从CV_8UC3转换为CV_32FC3需要将近7ms的时间,而这个时间可能比模型在GPU推理的时间还要长。

我之后尝试过其他的方式,比如说自己写一个C++模板函数进行转换

template<typename _Tp>
std::vector<_Tp> convert_mat_to_vector(const cv::Mat& mat)
{
    return (std::vector<_Tp>)(mat.reshape(1, 1));
}

但是这个函数的时间比convertTo函数还要慢1ms左右。

2 CV-CUDA? 未来也许可行的加速方案

不过最近看到了CV-CUDA,它是NVIDIA开源的,使用GPU计算加速图片和视频预处理和后处理的库,支持常用的CV操作,具体的可以看NVIDIA的官方博客:[https://developer.nvidia.com/zh-cn/blog/cv-cuda-high-performance-image-processing/] 。不过现在这个库操作系统还只支持Ubuntu,暂且不支持Windows。也有人提了issue,但是官方的回答是还没有制定支持计划。

OpenCV | C++ –  convertTo函数的执行效率问题,AI模型部署数据预处理的瓶颈-StubbornHuang Blog