@DataXujing Hi,请问是否尝试过使用TensorRT-API方式从量化训练导出的Q/DQ-onnx模型构建trt_int8 engine? 我尝试直接使用trtexec对Q/DQ-onnx进行转换,nsight分析发现推理过程transpose+reshape耗时占用高,想结合api的方式优化这部分性能,可否给一些建议?多谢~