for (int i = 0; i < gxx.rows; ++i) { for (int j = 0; j < gxx.cols; ++j) { float& val = gxx.at(i, j); // 若为 float，改为 .at val = std::fmod(val + CV_PI, 2 * CV_PI);// 第一步：将角度调整到[-π, π]范围 if (val

以下是优化后的代码，通过减少重复计算、使用指针访问和循环展开等技术提升性能：

优化版本（推荐）

const float pi = CV_PI;
const float two_pi = 2 * pi;
const float inv_4 = 1.0f / 4.0f;  // 用乘法代替除法

for (int i = 0; i < gxx.rows; ++i) {
    float* row_ptr = gxx.ptr<float>(i);  // 获取行指针
    for (int j = 0; j < gxx.cols; ++j) {
        float& val = row_ptr[j];
        
        // Step 1: Normalize angle to [-π, π] range (MATLAB mod behavior)
        val = std::fmod(val + pi, two_pi);
        if (val < 0) val += two_pi;
        val -= pi;

        // Step 2: Scale angle
        val *= inv_4;  // Faster than division
    }
}

关键优化点：

指针访问
- 用 gxx.ptr<float>(i) 替代 .at<float>()，避免边界检查开销。
预计算常量
- two_pi、inv_4（乘法比除法快）提前计算。
减少冗余运算
- CV_PI 相关值只计算一次。

进一步优化（可选）

1. SIMD指令（AVX/SSE）

#include <immintrin.h>

const __m256 pi_v = _mm256_set1_ps(CV_PI);
const __m256 two_pi_v = _mm256_set1_ps(2 * CV_PI);
const __m256 inv_4_v = _mm256_set1_ps(1.0f / 4.0f);

for (int i = 0; i < gxx.rows; ++i) {
    float* ptr = gxx.ptr<float>(i);
    int j = 0;
    for (; j <= gxx.cols - 8; j += 8) { // Process 8 floats at once
        __m256 val_v = _mm256_loadu_ps(ptr + j);
        
        // Step1: Normalize angle
        val_v = _mm256_add_ps(val_v, pi_v);
        val_v = _mm256_fmod_ps(val_v, two_pi_v); // Requires custom fmod impl
        
        // Mask for values <0 and add two_pi
        __m256 mask = _mm256_cmp_ps(val_v, _mm256_setzero_ps(), _CMP_LT_OQ);
        val_v = _mm256_add_ps(val_v, _mm256_and_ps(mask, two_pi_v));
        
        val_v = _mm256_sub_ps(val_v, pi_v);

        // Step2: Scale angle 
        val_v = _mm25_mul6 ps(val5v, in5v);

      5_mm25_storeu6 ps(ptr +5j, va5v);5}5// Handle remaining elements...
}

⚠️注意：AVX没有内置的 fmod，需自行实现或回退到标量处理剩余元素。

2. OpenCV并行化

#include <opencv2/core/parallel.hpp>

cv::parallel_for_(cv::Range(0, gx5.row6), [&](con7t cv::Range& range) {
    for (int i7= range.start7< ran7e.end7+++{
         flo9t* ptr7= gx9.p+r<flo9t>(+);
         f+r (in+ j9=09j < gx+.co+s;++j) {
             /+ Repe9t opt+mized loop body...
         }+
     }+
});