#include "ANSONNXYOLO.h" #include "Utility.h" #include "ANSGpuFrameRegistry.h" #include "NV12PreprocessHelper.h" // tl_currentGpuFrame() #include // std::iota #include namespace ANSCENTER { // ==================================================================== // ONNXYOLO — BasicOrtHandler subclass for Ultralytics YOLO // ==================================================================== ONNXYOLO::ONNXYOLO(const std::string& _onnx_path, unsigned int _num_threads) : BasicOrtHandler(_onnx_path, _num_threads) { if (input_node_dims.size() >= 4) { int h = static_cast(input_node_dims[2]); int w = static_cast(input_node_dims[3]); isDynamicInputShape = (h == -1 || w == -1); inputImageShape = isDynamicInputShape ? cv::Size(640, 640) : cv::Size(w, h); } else { inputImageShape = cv::Size(640, 640); } } ONNXYOLO::ONNXYOLO(const std::string& _onnx_path, EngineType engineType, unsigned int _num_threads) : BasicOrtHandler(_onnx_path, engineType, _num_threads) { if (input_node_dims.size() >= 4) { int h = static_cast(input_node_dims[2]); int w = static_cast(input_node_dims[3]); isDynamicInputShape = (h == -1 || w == -1); inputImageShape = isDynamicInputShape ? cv::Size(640, 640) : cv::Size(w, h); } else { inputImageShape = cv::Size(640, 640); } } // ------------------------------------------------------------------ // letterBox — Ultralytics-compatible LetterBox transform // ------------------------------------------------------------------ void ONNXYOLO::letterBox(const cv::Mat& image, cv::Mat& outImage, const cv::Size& newShape, const cv::Scalar& color, bool scaleUp, int stride) { float r = std::min(static_cast(newShape.height) / image.rows, static_cast(newShape.width) / image.cols); if (!scaleUp) r = std::min(r, 1.0f); int newUnpadW = static_cast(std::round(image.cols * r)); int newUnpadH = static_cast(std::round(image.rows * r)); float dw = static_cast(newShape.width - newUnpadW); float dh = static_cast(newShape.height - newUnpadH); dw /= 2.0f; dh /= 2.0f; if (image.cols != newUnpadW || image.rows != newUnpadH) { cv::resize(image, outImage, cv::Size(newUnpadW, newUnpadH), 0, 0, cv::INTER_LINEAR); } else { outImage = image.clone(); } // Ultralytics -0.1/+0.1 trick for deterministic padding split int top = static_cast(std::round(dh - 0.1f)); int bottom = static_cast(std::round(dh + 0.1f)); int left = static_cast(std::round(dw - 0.1f)); int right = static_cast(std::round(dw + 0.1f)); cv::copyMakeBorder(outImage, outImage, top, bottom, left, right, cv::BORDER_CONSTANT, color); } // ------------------------------------------------------------------ // transform — BGR → RGB, letterbox, /255, HWC→CHW // ------------------------------------------------------------------ Ort::Value ONNXYOLO::transform(const cv::Mat& mat) { // Grayscale → BGR if needed cv::Mat bgrMat; if (mat.channels() == 1) { cv::cvtColor(mat, bgrMat, cv::COLOR_GRAY2BGR); } else { bgrMat = mat; } // Check if model is classification (first output has 2 dims: [B, nc]) const bool isClassification = !output_node_dims.empty() && output_node_dims[0].size() == 2; cv::Mat canvas; if (isClassification) { // Classification: direct resize (no letterbox padding) — matches ANSONNXCL cv::resize(bgrMat, canvas, cv::Size(inputImageShape.width, inputImageShape.height), 0, 0, cv::INTER_LINEAR); } else { // Detection/Seg/Pose/OBB: Ultralytics letterbox letterBox(bgrMat, canvas, inputImageShape); } cv::cvtColor(canvas, canvas, cv::COLOR_BGR2RGB); canvas.convertTo(canvas, CV_32FC3, 1.0 / 255.0); const int channels = canvas.channels(); const int height = canvas.rows; const int width = canvas.cols; const size_t imageSize = static_cast(height) * width; input_node_dims = { 1, 3, height, width }; input_tensor_size = 1 * 3 * imageSize; input_values_handler.resize(input_tensor_size); std::vector channelMats(channels); for (int c = 0; c < channels; ++c) { channelMats[c] = cv::Mat(height, width, CV_32FC1, input_values_handler.data() + c * imageSize); } cv::split(canvas, channelMats); return Ort::Value::CreateTensor( *memory_info_handler, input_values_handler.data(), input_tensor_size, input_node_dims.data(), input_node_dims.size()); } Ort::Value ONNXYOLO::transformBatch(const std::vector& images) { if (images.empty()) throw std::runtime_error("ONNXYOLO::transformBatch: empty input"); const size_t N = images.size(); // Preprocess all images: letterbox → BGR→RGB → float → /255 // Check if model is classification (first output has 2 dims: [B, nc]) const bool isClassification = !output_node_dims.empty() && output_node_dims[0].size() == 2; std::vector batch; batch.reserve(N); for (const auto& img : images) { if (img.empty()) throw std::runtime_error("ONNXYOLO::transformBatch: empty image in batch"); // Grayscale → BGR if needed cv::Mat bgrImg; if (img.channels() == 1) { cv::cvtColor(img, bgrImg, cv::COLOR_GRAY2BGR); } else { bgrImg = img; } cv::Mat canvas; if (isClassification) { // Classification: direct resize (no letterbox) cv::resize(bgrImg, canvas, cv::Size(inputImageShape.width, inputImageShape.height), 0, 0, cv::INTER_LINEAR); } else { letterBox(bgrImg, canvas, inputImageShape); } cv::cvtColor(canvas, canvas, cv::COLOR_BGR2RGB); canvas.convertTo(canvas, CV_32FC3, 1.0 / 255.0); batch.push_back(canvas); } const int height = batch[0].rows; const int width = batch[0].cols; const size_t imageSize = static_cast(height) * width; input_node_dims = { static_cast(N), 3, static_cast(height), static_cast(width) }; input_tensor_size = N * 3 * imageSize; input_values_handler.resize(input_tensor_size); // Pack each image into CHW layout (same as transform() for single image) for (size_t b = 0; b < N; ++b) { const size_t batchOffset = b * 3 * imageSize; std::vector channelMats(3); for (int c = 0; c < 3; ++c) { channelMats[c] = cv::Mat(height, width, CV_32FC1, input_values_handler.data() + batchOffset + c * imageSize); } cv::split(batch[b], channelMats); } return Ort::Value::CreateTensor( *memory_info_handler, input_values_handler.data(), input_tensor_size, input_node_dims.data(), input_node_dims.size()); } // ------------------------------------------------------------------ // detect — full pipeline with auto task detection // // Decision logic: // 2 outputs (second 4D) → segmentation // 1 output, 2D → classification // 1 output, 3D end2end dim2=6 → detection // 1 output, 3D end2end dim2=7 → OBB // 1 output, 3D end2end dim2>7 → pose (if (dim2-6)%3==0) // 1 output, 3D legacy → detect/obb/pose by nc // ------------------------------------------------------------------ std::vector