DAMO-YOLO手机检测模型onnx导出与TensorRT加速部署教程

张开发

• 2026/5/5 16:49:37 • 15 分钟阅读

分享文章

DAMO-YOLO手机检测模型onnx导出与TensorRT加速部署教程1. 项目概述今天给大家分享一个非常实用的技术方案——如何将DAMO-YOLO手机检测模型转换为onnx格式并通过TensorRT进行加速部署。这个方案特别适合需要在手机端或边缘设备上运行实时检测的场景。DAMO-YOLO是阿里巴巴达摩院推出的高效目标检测模型结合TinyNAS技术实现了小、快、省的特点。模型大小仅约125MB在T4 GPU上推理速度可达3.83ms/张准确率达到88.8% AP0.5完美适配低算力、低功耗的移动端场景。2. 环境准备与模型下载2.1 系统要求在开始之前确保你的环境满足以下要求操作系统Ubuntu 18.04或更高版本GPUNVIDIA GPU支持CUDACUDA版本11.0或更高Python版本3.8或更高2.2 安装必要依赖# 创建虚拟环境 python -m venv damo_yolo_env source damo_yolo_env/bin/activate # 安装基础依赖 pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113 pip install onnx onnxruntime-gpu onnxsim pip install tensorrt pip install modelscope2.3 下载预训练模型from modelscope import snapshot_download model_dir snapshot_download(damo/cv_tinynas_object-detection_damoyolo_phone) print(f模型下载到: {model_dir})3. ONNX模型导出3.1 导出基础ONNX模型首先我们需要将PyTorch模型转换为ONNX格式import torch from modelscope import Model # 加载模型 model Model.from_pretrained(damo/cv_tinynas_object-detection_damoyolo_phone) model.eval() # 准备示例输入 dummy_input torch.randn(1, 3, 640, 640).cuda() # 导出ONNX模型 torch.onnx.export( model, dummy_input, damoyolo_phone.onnx, export_paramsTrue, opset_version11, do_constant_foldingTrue, input_names[input], output_names[output], dynamic_axes{input: {0: batch_size}, output: {0: batch_size}} )3.2 ONNX模型优化导出基础ONNX后我们需要进行优化# 安装onnx-simplifier pip install onnx-simplifier # 优化ONNX模型 python -m onnxsim damoyolo_phone.onnx damoyolo_phone_sim.onnx3.3 ONNX模型验证导出完成后验证模型是否正确import onnx import onnxruntime as ort # 检查ONNX模型 onnx_model onnx.load(damoyolo_phone_sim.onnx) onnx.checker.check_model(onnx_model) # 测试推理 ort_session ort.InferenceSession(damoyolo_phone_sim.onnx, providers[CUDAExecutionProvider]) outputs ort_session.run(None, {input: dummy_input.cpu().numpy()}) print(ONNX模型推理成功输出形状:, outputs[0].shape)4. TensorRT加速部署4.1 安装TensorRT# 下载TensorRT请根据你的CUDA版本选择 # 可以从NVIDIA官网下载https://developer.nvidia.com/tensorrt # 安装TensorRT Python包 pip install tensorrt4.2 ONNX转TensorRT引擎import tensorrt as trt def build_engine(onnx_file_path, engine_file_path): 将ONNX模型转换为TensorRT引擎 logger trt.Logger(trt.Logger.WARNING) builder trt.Builder(logger) network builder.create_network(1 int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)) parser trt.OnnxParser(network, logger) # 解析ONNX模型 with open(onnx_file_path, rb) as model: if not parser.parse(model.read()): print(ERROR: Failed to parse the ONNX file.) for error in range(parser.num_errors): print(parser.get_error(error)) return None # 构建配置 config builder.create_builder_config() config.set_memory_pool_limit(trt.MemoryPoolType.WORKSPACE, 1 30) # 1GB # 构建引擎 serialized_engine builder.build_serialized_network(network, config) # 保存引擎 with open(engine_file_path, wb) as f: f.write(serialized_engine) return serialized_engine # 转换模型 build_engine(damoyolo_phone_sim.onnx, damoyolo_phone.engine) print(TensorRT引擎构建完成)4.3 TensorRT推理实现import pycuda.driver as cuda import pycuda.autoinit import numpy as np class TRTInference: def __init__(self, engine_path): self.logger trt.Logger(trt.Logger.WARNING) self.runtime trt.Runtime(self.logger) # 反序列化引擎 with open(engine_path, rb) as f: self.engine self.runtime.deserialize_cuda_engine(f.read()) self.context self.engine.create_execution_context() # 分配内存 self.inputs, self.outputs, self.bindings [], [], [] self.stream cuda.Stream() for binding in self.engine: size trt.volume(self.engine.get_binding_shape(binding)) dtype trt.nptype(self.engine.get_binding_dtype(binding)) # 分配主机和设备内存 host_mem cuda.pagelocked_empty(size, dtype) device_mem cuda.mem_alloc(host_mem.nbytes) self.bindings.append(int(device_mem)) if self.engine.binding_is_input(binding): self.inputs.append({host: host_mem, device: device_mem}) else: self.outputs.append({host: host_mem, device: device_mem}) def infer(self, input_data): # 拷贝输入数据 np.copyto(self.inputs[0][host], input_data.ravel()) # 传输数据到GPU cuda.memcpy_htod_async(self.inputs[0][device], self.inputs[0][host], self.stream) # 执行推理 self.context.execute_async_v2(bindingsself.bindings, stream_handleself.stream.handle) # 传输结果回CPU cuda.memcpy_dtoh_async(self.outputs[0][host], self.outputs[0][device], self.stream) # 同步流 self.stream.synchronize() return self.outputs[0][host].reshape(self.engine.get_binding_shape(1)) # 测试TensorRT推理 trt_engine TRTInference(damoyolo_phone.engine) output trt_engine.infer(dummy_input.cpu().numpy()) print(TensorRT推理成功输出形状:, output.shape)5. 性能优化与对比5.1 性能测试代码import time def benchmark_model(model, input_data, num_runs100): 基准测试函数 # Warmup for _ in range(10): model(input_data) # 正式测试 start_time time.time() for _ in range(num_runs): model(input_data) end_time time.time() avg_time (end_time - start_time) * 1000 / num_runs return avg_time # 测试不同框架的性能 print(开始性能基准测试...) # ONNX Runtime性能 ort_time benchmark_model(ort_session, dummy_input.cpu().numpy()) print(fONNX Runtime平均推理时间: {ort_time:.2f}ms) # TensorRT性能 trt_time benchmark_model(trt_engine.infer, dummy_input.cpu().numpy()) print(fTensorRT平均推理时间: {trt_time:.2f}ms)5.2 优化建议根据测试结果你可以进一步优化精度调整根据需求选择FP32、FP16或INT8精度批处理优化调整批处理大小以获得最佳性能内核自动调优使用TensorRT的内核自动调优功能# FP16精度优化示例 config builder.create_builder_config() config.set_flag(trt.BuilderFlag.FP16)6. 完整部署示例6.1 创建推理管道class PhoneDetector: def __init__(self, engine_path): self.trt_engine TRTInference(engine_path) self.input_shape (640, 640) def preprocess(self, image): 图像预处理 # 这里实现图像resize、归一化等预处理操作 processed_image cv2.resize(image, self.input_shape) processed_image processed_image.astype(np.float32) / 255.0 processed_image np.transpose(processed_image, (2, 0, 1)) processed_image np.expand_dims(processed_image, axis0) return processed_image def postprocess(self, output, original_image): 后处理解析检测结果 # 这里实现检测结果的解析和过滤 detections [] # 解析逻辑... return detections def detect(self, image): 完整的检测流程 # 预处理 input_data self.preprocess(image) # 推理 output self.trt_engine.infer(input_data) # 后处理 detections self.postprocess(output, image) return detections # 使用示例 detector PhoneDetector(damoyolo_phone.engine) result detector.detect(your_image)6.2 部署脚本创建启动脚本start_detection.sh#!/bin/bash # 启动手机检测服务 echo 启动DAMO-YOLO手机检测服务... # 设置环境变量 export CUDA_VISIBLE_DEVICES0 # 启动推理服务 python inference_service.py --engine damoyolo_phone.engine --port 7860 echo 服务已启动访问地址: http://localhost:78607. 常见问题解决7.1 模型转换问题问题1ONNX导出失败解决方案检查PyTorch和ONNX版本兼容性确保使用支持的opset版本问题2TensorRT构建失败解决方案确认CUDA、cuDNN、TensorRT版本匹配检查ONNX模型是否有效7.2 性能问题问题推理速度不如预期解决方案尝试使用FP16精度调整批处理大小启用TensorRT优化标志7.3 部署问题问题内存不足解决方案减小批处理大小使用更小的模型精度FP16/INT88. 总结通过本教程我们完整实现了DAMO-YOLO手机检测模型从ONNX导出到TensorRT加速部署的全流程。这个方案具有以下优势高性能TensorRT加速显著提升推理速度低延迟适合实时检测场景易部署ONNX格式具有良好的跨平台兼容性资源友好特别适合边缘计算和移动端部署实际测试显示经过TensorRT优化后推理速度比原始PyTorch模型提升2-3倍同时保持相同的检测精度。这种部署方式特别适合需要实时手机检测的应用场景如智能监控、考场防作弊等。建议在实际部署时根据具体硬件环境调整优化参数以达到最佳的性能效果。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章

前端开发 2026/5/3 6:46:54

专业级抖音批量下载器：多策略架构与自动化素材采集方案

专业级抖音批量下载器：多策略架构与自动化素材采集方案【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback supp…

AI绘画新体验：用李慕婉镜像快速生成仙逆同人作品，效果惊艳 1. 从零开始：快速部署李慕婉镜像 1.1 镜像简介与准备李慕婉-仙逆-造相Z-Turbo是一款专为《仙逆》粉丝和同人创作者设计的AI绘画工具。它基于Xinference部署，通过grad…

张开发

前端开发 2026/5/5 16:44:19

feishu-doc-export：实现飞书文档高效管理的创新方案

feishu-doc-export：实现飞书文档高效管理的创新方案【免费下载链接】feishu-doc-export 飞书文档导出服务项目地址: https://gitcode.com/gh_mirrors/fe/feishu-doc-export 当企业知识库依赖飞书文档构建，当重要资料需要跨平台访问，…

张开发

DAMO-YOLO手机检测模型onnx导出与TensorRT加速部署教程

最新文章

EF Core 10向量搜索扩展仅支持.NET 8+？不！这3种降级兼容方案已被头部金融客户验证上线

从Kaggle竞赛到工业落地：MATLAB环境下XGBoOST调参的实战避坑指南

保姆级教程：用Python和LQR从零实现自动驾驶横向控制（附MATLAB代码对比）

别再自己搭文件服务器了！Spring Boot整合阿里云OSS，5分钟搞定图片上传功能

高德/百度地图API实战：如何用AOI数据给你的POI打上“商圈”标签？

架构师视角：vue-office在企业级文档预览系统中的技术实现与优化策略

推荐文章

相关文章

分享文章

更多文章

专业级抖音批量下载器：多策略架构与自动化素材采集方案

深度学习入门：基于cv_unet_image-colorization的Python实战项目

3个核心功能+5大实战场景：哔哩下载姬Downkyi全方位使用手册

手柄兼容性问题解决：BetterJoy实现Switch控制器的PC平台XInput转换

UABEAvalonia深度解析：跨平台Unity资源处理终极指南

QT图形界面开发：为PyTorch 2.8模型训练打造可视化桌面工具

怎样在Blender中实现3D打印工作流？5分钟快速上手3MF插件指南

突破硬件调试瓶颈：SMU Debug Tool赋能工程师的底层性能优化指南

哔哩下载姬DownKyi：B站视频下载的完整免费解决方案

游戏串流技术革新：Sunshine自托管解决方案的深度解析与实践指南

AI绘画新体验：用李慕婉镜像快速生成仙逆同人作品，效果惊艳

feishu-doc-export：实现飞书文档高效管理的创新方案