diff --git a/src/layer/loongarch/dequantize_loongarch.cpp b/src/layer/loongarch/dequantize_loongarch.cpp
index 5ee9595f89f..f2553cb3fb7 100644
--- a/src/layer/loongarch/dequantize_loongarch.cpp
+++ b/src/layer/loongarch/dequantize_loongarch.cpp
@@ -29,806 +29,145 @@ Dequantize_loongarch::Dequantize_loongarch()
 #endif
 }
 
-int Dequantize_loongarch::forward(const Mat& bottom_blob, Mat& top_blob, const Option& opt) const
+static void dequantize(const int* intptr, float* ptr, const Mat& scale_data, const Mat& bias_data, int elemcount, int elempack)
 {
-    // assert bottom_blob.elembits() == 32
+    const int scale_data_size = scale_data.w;
+    const int bias_data_size = bias_data.w;
+    const int size = elemcount * elempack;
 
-    int dims = bottom_blob.dims;
-    int elempack = bottom_blob.elempack;
+    // NCNN_LOGE("dequantize %d %d   %d %d", scale_data_size, bias_data_size, elemcount, elempack);
 
+    float scale = scale_data[0];
 #if __loongarch_sx
-    if (elempack == 8)
+    __m128 _scale = (__m128)__lsx_vreplfr2vr_s(scale);
+    if (scale_data_size > 1)
     {
-        if (dims == 1)
+        if (elempack == 4)
         {
-            int w = bottom_blob.w;
-            int outw = w * 2;
-
-            top_blob.create(outw, (size_t)16u, 4, opt.blob_allocator);
-            if (top_blob.empty())
-                return -100;
-
-            if (scale_data_size == 1)
-            {
-                __m128 _scale = (__m128)__lsx_vreplfr2vr_s(scale_data[0]);
-
-                if (bias_data_size == 0)
-                {
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < outw; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        _v = __lsx_vfmul_s(_v, _scale);
-                        __lsx_vst(_v, ptr, 0);
-                    }
-                }
-                else if (bias_data_size == 1)
-                {
-                    __m128 _bias = (__m128)__lsx_vreplfr2vr_s(bias_data[0]);
-
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < outw; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        _v = __lsx_vfmadd_s(_scale, _v, _bias);
-                        __lsx_vst(_v, ptr, 0);
-                    }
-                }
-                else
-                {
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < outw; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        __m128 _bias = (__m128)__lsx_vld((const float*)bias_data + i * 4, 0);
-                        __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        _v = __lsx_vfmadd_s(_scale, _v, _bias);
-                        __lsx_vst(_v, ptr, 0);
-                    }
-                }
-            }
-            else
-            {
-                if (bias_data_size == 0)
-                {
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < outw; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        __m128 _scale = (__m128)__lsx_vld((const float*)scale_data + i * 4, 0);
-                        __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        _v = __lsx_vfmul_s(_v, _scale);
-                        __lsx_vst(_v, ptr, 0);
-                    }
-                }
-                else if (bias_data_size == 1)
-                {
-                    __m128 _bias = (__m128)__lsx_vreplfr2vr_s(bias_data[0]);
-
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < outw; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        __m128 _scale = (__m128)__lsx_vld((const float*)scale_data + i * 4, 0);
-                        __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        _v = __lsx_vfmadd_s(_scale, _v, _bias);
-                        __lsx_vst(_v, ptr, 0);
-                    }
-                }
-                else
-                {
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < outw; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        __m128 _scale = (__m128)__lsx_vld((const float*)scale_data + i * 4, 0);
-                        __m128 _bias = (__m128)__lsx_vld((const float*)bias_data + i * 4, 0);
-                        __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        _v = __lsx_vfmadd_s(_scale, _v, _bias);
-                        __lsx_vst(_v, ptr, 0);
-                    }
-                }
-            }
+            _scale = (__m128)__lsx_vld((const float*)scale_data, 0);
         }
+    }
+#endif // __loongarch_sx
 
-        if (dims == 2)
+    if (bias_data_size == 0)
+    {
+        int i = 0;
+#if __loongarch_sx
+        for (; i + 3 < size; i += 4)
         {
-            int w = bottom_blob.w;
-            int h = bottom_blob.h;
-            int outh = h * 2;
-
-            top_blob.create(w, outh, (size_t)16u, 4, opt.blob_allocator);
-            if (top_blob.empty())
-                return -100;
-
-            if (bias_data_size == 0)
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < h; i++)
-                {
-                    const int* intptr = bottom_blob.row<const int>(i);
-                    float* ptr0 = top_blob.row(i * 2);
-                    float* ptr1 = top_blob.row(i * 2 + 1);
-
-                    __m128 _scale0 = scale_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(scale_data[0]) : (__m128)__lsx_vld((const float*)scale_data + i * 8, 0);
-                    __m128 _scale1 = scale_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(scale_data[0]) : (__m128)__lsx_vld((const float*)scale_data + i * 8 + 4, 0);
-
-                    for (int j = 0; j < w; j++)
-                    {
-                        __builtin_prefetch(intptr + 32);
-                        __m128 _v0 = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        __m128 _v1 = __lsx_vffint_s_w(__lsx_vld(intptr + 4, 0));
-                        _v0 = __lsx_vfmul_s(_v0, _scale0);
-                        _v1 = __lsx_vfmul_s(_v1, _scale1);
-                        __lsx_vst(_v0, ptr0, 0);
-                        __lsx_vst(_v1, ptr1, 0);
-
-                        intptr += 8;
-                        ptr0 += 4;
-                        ptr1 += 4;
-                    }
-                }
-            }
-            else
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < h; i++)
-                {
-                    const int* intptr = bottom_blob.row<const int>(i);
-                    float* ptr0 = top_blob.row(i * 2);
-                    float* ptr1 = top_blob.row(i * 2 + 1);
-
-                    __m128 _scale0 = scale_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(scale_data[0]) : (__m128)__lsx_vld((const float*)scale_data + i * 8, 0);
-                    __m128 _scale1 = scale_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(scale_data[0]) : (__m128)__lsx_vld((const float*)scale_data + i * 8 + 4, 0);
-                    __m128 _bias0 = bias_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(bias_data[0]) : (__m128)__lsx_vld((const float*)bias_data + i * 8, 0);
-                    __m128 _bias1 = bias_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(bias_data[0]) : (__m128)__lsx_vld((const float*)bias_data + i * 8 + 4, 0);
-
-                    for (int j = 0; j < w; j++)
-                    {
-                        __builtin_prefetch(intptr + 32);
-                        __m128 _v0 = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        __m128 _v1 = __lsx_vffint_s_w(__lsx_vld(intptr + 4, 0));
-                        _v0 = __lsx_vfmadd_s(_scale0, _v0, _bias0);
-                        _v1 = __lsx_vfmadd_s(_scale1, _v1, _bias1);
-                        __lsx_vst(_v0, ptr0, 0);
-                        __lsx_vst(_v1, ptr1, 0);
-
-                        intptr += 8;
-                        ptr0 += 4;
-                        ptr1 += 4;
-                    }
-                }
-            }
+            __builtin_prefetch(intptr + 16);
+            __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
+            _v = __lsx_vfmul_s(_v, _scale);
+            __lsx_vst(_v, ptr, 0);
+            intptr += 4;
+            ptr += 4;
         }
-
-        if (dims == 3)
+#endif // __loongarch_sx
+        for (; i < size; i++)
         {
-            int w = bottom_blob.w;
-            int h = bottom_blob.h;
-            int channels = bottom_blob.c;
-            int size = w * h;
-            int outc = channels * 2;
-
-            top_blob.create(w, h, outc, (size_t)16u, 4, opt.blob_allocator);
-            if (top_blob.empty())
-                return -100;
-
-            if (bias_data_size == 0)
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int q = 0; q < channels; q++)
-                {
-                    const int* intptr = bottom_blob.channel(q);
-                    float* ptr0 = top_blob.channel(q * 2);
-                    float* ptr1 = top_blob.channel(q * 2 + 1);
-
-                    __m128 _scale0 = scale_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(scale_data[0]) : (__m128)__lsx_vld((const float*)scale_data + q * 8, 0);
-                    __m128 _scale1 = scale_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(scale_data[0]) : (__m128)__lsx_vld((const float*)scale_data + q * 8 + 4, 0);
-
-                    int i = 0;
-                    for (; i + 1 < size; i += 2)
-                    {
-                        __builtin_prefetch(intptr + 64);
-                        __m128 _v0 = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        __m128 _v1 = __lsx_vffint_s_w(__lsx_vld(intptr + 4, 0));
-                        __m128 _v2 = __lsx_vffint_s_w(__lsx_vld(intptr + 8, 0));
-                        __m128 _v3 = __lsx_vffint_s_w(__lsx_vld(intptr + 12, 0));
-                        _v0 = __lsx_vfmul_s(_v0, _scale0);
-                        _v1 = __lsx_vfmul_s(_v1, _scale1);
-                        _v2 = __lsx_vfmul_s(_v2, _scale0);
-                        _v3 = __lsx_vfmul_s(_v3, _scale1);
-                        __lsx_vst(_v0, ptr0, 0);
-                        __lsx_vst(_v2, ptr0 + 4, 0);
-                        __lsx_vst(_v1, ptr1, 0);
-                        __lsx_vst(_v3, ptr1 + 4, 0);
-
-                        intptr += 16;
-                        ptr0 += 8;
-                        ptr1 += 8;
-                    }
-                    for (; i < size; i++)
-                    {
-                        __builtin_prefetch(intptr + 32);
-                        __m128 _v0 = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        __m128 _v1 = __lsx_vffint_s_w(__lsx_vld(intptr + 4, 0));
-                        _v0 = __lsx_vfmul_s(_v0, _scale0);
-                        _v1 = __lsx_vfmul_s(_v1, _scale1);
-                        __lsx_vst(_v0, ptr0, 0);
-                        __lsx_vst(_v1, ptr1, 0);
-
-                        intptr += 8;
-                        ptr0 += 4;
-                        ptr1 += 4;
-                    }
-                }
-            }
-            else
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int q = 0; q < channels; q++)
-                {
-                    const int* intptr = bottom_blob.channel(q);
-                    float* ptr0 = top_blob.channel(q * 2);
-                    float* ptr1 = top_blob.channel(q * 2 + 1);
-
-                    __m128 _scale0 = scale_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(scale_data[0]) : (__m128)__lsx_vld((const float*)scale_data + q * 8, 0);
-                    __m128 _scale1 = scale_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(scale_data[0]) : (__m128)__lsx_vld((const float*)scale_data + q * 8 + 4, 0);
-                    __m128 _bias0 = bias_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(bias_data[0]) : (__m128)__lsx_vld((const float*)bias_data + q * 8, 0);
-                    __m128 _bias1 = bias_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(bias_data[0]) : (__m128)__lsx_vld((const float*)bias_data + q * 8 + 4, 0);
-
-                    int i = 0;
-                    for (; i + 1 < size; i += 2)
-                    {
-                        __builtin_prefetch(intptr + 64);
-                        __m128 _v0 = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        __m128 _v1 = __lsx_vffint_s_w(__lsx_vld(intptr + 4, 0));
-                        __m128 _v2 = __lsx_vffint_s_w(__lsx_vld(intptr + 8, 0));
-                        __m128 _v3 = __lsx_vffint_s_w(__lsx_vld(intptr + 12, 0));
-                        _v0 = __lsx_vfmadd_s(_scale0, _v0, _bias0);
-                        _v1 = __lsx_vfmadd_s(_scale1, _v1, _bias1);
-                        _v2 = __lsx_vfmadd_s(_scale0, _v2, _bias0);
-                        _v3 = __lsx_vfmadd_s(_scale1, _v3, _bias1);
-                        __lsx_vst(_v0, ptr0, 0);
-                        __lsx_vst(_v2, ptr0 + 4, 0);
-                        __lsx_vst(_v1, ptr1, 0);
-                        __lsx_vst(_v3, ptr1 + 4, 0);
-
-                        intptr += 16;
-                        ptr0 += 8;
-                        ptr1 += 8;
-                    }
-                    for (; i < size; i++)
-                    {
-                        __builtin_prefetch(intptr + 32);
-                        __m128 _v0 = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        __m128 _v1 = __lsx_vffint_s_w(__lsx_vld(intptr + 4, 0));
-                        _v0 = __lsx_vfmadd_s(_scale0, _v0, _bias0);
-                        _v1 = __lsx_vfmadd_s(_scale1, _v1, _bias1);
-                        __lsx_vst(_v0, ptr0, 0);
-                        __lsx_vst(_v1, ptr1, 0);
-
-                        intptr += 8;
-                        ptr0 += 4;
-                        ptr1 += 4;
-                    }
-                }
-            }
+            *ptr = *intptr * scale;
+            intptr++;
+            ptr++;
         }
-
-        return 0;
     }
-
-    if (elempack == 4)
+    else
     {
-        if (dims == 1)
+        float bias = bias_data[0];
+#if __loongarch_sx
+        __m128 _bias = (__m128)__lsx_vreplfr2vr_s(bias);
+        if (bias_data_size > 1)
         {
-            int w = bottom_blob.w;
-
-            top_blob.create(w, (size_t)16u, elempack, opt.blob_allocator);
-            if (top_blob.empty())
-                return -100;
-
-            if (scale_data_size == 1)
-            {
-                __m128 _scale = (__m128)__lsx_vreplfr2vr_s(scale_data[0]);
-
-                if (bias_data_size == 0)
-                {
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < w; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        _v = __lsx_vfmul_s(_v, _scale);
-                        __lsx_vst(_v, ptr, 0);
-                    }
-                }
-                else if (bias_data_size == 1)
-                {
-                    __m128 _bias = (__m128)__lsx_vreplfr2vr_s(bias_data[0]);
-
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < w; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        _v = __lsx_vfmadd_s(_scale, _v, _bias);
-                        __lsx_vst(_v, ptr, 0);
-                    }
-                }
-                else
-                {
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < w; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        __m128 _bias = (__m128)__lsx_vld((const float*)bias_data + i * 4, 0);
-                        __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        _v = __lsx_vfmadd_s(_scale, _v, _bias);
-                        __lsx_vst(_v, ptr, 0);
-                    }
-                }
-            }
-            else
+            if (elempack == 4)
             {
-                if (bias_data_size == 0)
-                {
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < w; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        __m128 _scale = (__m128)__lsx_vld((const float*)scale_data + i * 4, 0);
-                        __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        _v = __lsx_vfmul_s(_v, _scale);
-                        __lsx_vst(_v, ptr, 0);
-                    }
-                }
-                else if (bias_data_size == 1)
-                {
-                    __m128 _bias = (__m128)__lsx_vreplfr2vr_s(bias_data[0]);
-
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < w; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        __m128 _scale = (__m128)__lsx_vld((const float*)scale_data + i * 4, 0);
-                        __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        _v = __lsx_vfmadd_s(_scale, _v, _bias);
-                        __lsx_vst(_v, ptr, 0);
-                    }
-                }
-                else
-                {
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < w; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        __m128 _scale = (__m128)__lsx_vld((const float*)scale_data + i * 4, 0);
-                        __m128 _bias = (__m128)__lsx_vld((const float*)bias_data + i * 4, 0);
-                        __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        _v = __lsx_vfmadd_s(_scale, _v, _bias);
-                        __lsx_vst(_v, ptr, 0);
-                    }
-                }
+                _bias = (__m128)__lsx_vld((const float*)bias_data, 0);
             }
         }
+#endif // __loongarch_sx
 
-        if (dims == 2)
+        int i = 0;
+#if __loongarch_sx
+        for (; i + 3 < size; i += 4)
         {
-            int w = bottom_blob.w;
-            int h = bottom_blob.h;
-
-            top_blob.create(w, h, (size_t)16u, elempack, opt.blob_allocator);
-            if (top_blob.empty())
-                return -100;
-
-            if (bias_data_size == 0)
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < h; i++)
-                {
-                    const int* intptr = bottom_blob.row<const int>(i);
-                    float* ptr = top_blob.row(i);
-
-                    __m128 _scale = scale_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(scale_data[0]) : (__m128)__lsx_vld((const float*)scale_data + i * 4, 0);
-
-                    for (int j = 0; j < w; j++)
-                    {
-                        __builtin_prefetch(intptr + 16);
-                        __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        _v = __lsx_vfmul_s(_v, _scale);
-                        __lsx_vst(_v, ptr, 0);
-
-                        intptr += 4;
-                        ptr += 4;
-                    }
-                }
-            }
-            else
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < h; i++)
-                {
-                    const int* intptr = bottom_blob.row<const int>(i);
-                    float* ptr = top_blob.row(i);
-
-                    __m128 _scale = scale_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(scale_data[0]) : (__m128)__lsx_vld((const float*)scale_data + i * 4, 0);
-                    __m128 _bias = bias_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(bias_data[0]) : (__m128)__lsx_vld((const float*)bias_data + i * 4, 0);
-
-                    for (int j = 0; j < w; j++)
-                    {
-                        __builtin_prefetch(intptr + 16);
-                        __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        _v = __lsx_vfmadd_s(_scale, _v, _bias);
-                        __lsx_vst(_v, ptr, 0);
-
-                        intptr += 4;
-                        ptr += 4;
-                    }
-                }
-            }
+            __builtin_prefetch(intptr + 16);
+            __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
+            _v = __lsx_vfmadd_s(_scale, _v, _bias);
+            __lsx_vst(_v, ptr, 0);
+            intptr += 4;
+            ptr += 4;
         }
-
-        if (dims == 3)
+#endif // __loongarch_sx
+        for (; i < size; i++)
         {
-            int w = bottom_blob.w;
-            int h = bottom_blob.h;
-            int channels = bottom_blob.c;
-            int size = w * h;
-
-            top_blob.create(w, h, channels, (size_t)16u, elempack, opt.blob_allocator);
-            if (top_blob.empty())
-                return -100;
-
-            if (bias_data_size == 0)
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int q = 0; q < channels; q++)
-                {
-                    const int* intptr = bottom_blob.channel(q);
-                    float* ptr = top_blob.channel(q);
-
-                    __m128 _scale = scale_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(scale_data[0]) : (__m128)__lsx_vld((const float*)scale_data + q * 4, 0);
-
-                    int i = 0;
-                    for (; i + 1 < size; i += 2)
-                    {
-                        __builtin_prefetch(intptr + 32);
-                        __m128 _v0 = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        __m128 _v1 = __lsx_vffint_s_w(__lsx_vld(intptr + 4, 0));
-                        _v0 = __lsx_vfmul_s(_v0, _scale);
-                        _v1 = __lsx_vfmul_s(_v1, _scale);
-                        __lsx_vst(_v0, ptr, 0);
-                        __lsx_vst(_v1, ptr + 4, 0);
-
-                        intptr += 8;
-                        ptr += 8;
-                    }
-                    for (; i < size; i++)
-                    {
-                        __builtin_prefetch(intptr + 16);
-                        __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        _v = __lsx_vfmul_s(_v, _scale);
-                        __lsx_vst(_v, ptr, 0);
-
-                        intptr += 4;
-                        ptr += 4;
-                    }
-                }
-            }
-            else
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int q = 0; q < channels; q++)
-                {
-                    const int* intptr = bottom_blob.channel(q);
-                    float* ptr = top_blob.channel(q);
-
-                    __m128 _scale = scale_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(scale_data[0]) : (__m128)__lsx_vld((const float*)scale_data + q * 4, 0);
-                    __m128 _bias = bias_data_size == 1 ? (__m128)__lsx_vreplfr2vr_s(bias_data[0]) : (__m128)__lsx_vld((const float*)bias_data + q * 4, 0);
-
-                    int i = 0;
-                    for (; i + 1 < size; i += 2)
-                    {
-                        __builtin_prefetch(intptr + 32);
-                        __m128 _v0 = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        __m128 _v1 = __lsx_vffint_s_w(__lsx_vld(intptr + 4, 0));
-                        _v0 = __lsx_vfmadd_s(_scale, _v0, _bias);
-                        _v1 = __lsx_vfmadd_s(_scale, _v1, _bias);
-                        __lsx_vst(_v0, ptr, 0);
-                        __lsx_vst(_v1, ptr + 4, 0);
+            *ptr = *intptr * scale + bias;
+            intptr++;
+            ptr++;
+        }
+    }
+}
 
-                        intptr += 8;
-                        ptr += 8;
-                    }
-                    for (; i < size; i++)
-                    {
-                        __builtin_prefetch(intptr + 16);
-                        __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                        _v = __lsx_vfmadd_s(_scale, _v, _bias);
-                        __lsx_vst(_v, ptr, 0);
+int Dequantize_loongarch::forward(const Mat& bottom_blob, Mat& top_blob, const Option& opt) const
+{
+    // assert bottom_blob.elembits() == 32
 
-                        intptr += 4;
-                        ptr += 4;
-                    }
-                }
-            }
-        }
+    const int dims = bottom_blob.dims;
+    const int w = bottom_blob.w;
+    const int h = bottom_blob.h;
+    const int channels = bottom_blob.c;
+    const int elempack = bottom_blob.elempack;
 
-        return 0;
-    }
-#endif // __loongarch_sx
+    top_blob.create_like(bottom_blob, opt.blob_allocator);
+    if (top_blob.empty())
+        return -100;
 
     if (dims == 1)
     {
-        int w = bottom_blob.w;
-
-        top_blob.create(w, (size_t)4u, opt.blob_allocator);
-        if (top_blob.empty())
-            return -100;
-
-        const int* intptr = bottom_blob;
-        float* ptr = top_blob;
+        const int wp = std::max(1, w / opt.num_threads);
+        const int nn_w = (w + wp - 1) / wp;
 
-        if (scale_data_size == 1)
+        #pragma omp parallel for num_threads(opt.num_threads)
+        for (int ii = 0; ii < nn_w; ii++)
         {
-            const float scale = scale_data[0];
+            const int i = ii * wp;
 
-            if (bias_data_size == 0)
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < w; i++)
-                {
-                    ptr[i] = intptr[i] * scale;
-                }
-            }
-            else if (bias_data_size == 1)
-            {
-                const float bias = bias_data[0];
+            const int* intptr = (const int*)bottom_blob + i * elempack;
+            float* ptr = (float*)top_blob + i * elempack;
 
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < w; i++)
-                {
-                    ptr[i] = intptr[i] * scale + bias;
-                }
-            }
-            else
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < w; i++)
-                {
-                    ptr[i] = intptr[i] * scale + bias_data[i];
-                }
-            }
-        }
-        else
-        {
-            if (bias_data_size == 0)
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < w; i++)
-                {
-                    ptr[i] = intptr[i] * scale_data[i];
-                }
-            }
-            else if (bias_data_size == 1)
-            {
-                const float bias = bias_data[0];
+            // assert scale_data_size == 1
+            // assert bias_data_size == 0 || bias_data_size == 1
 
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < w; i++)
-                {
-                    ptr[i] = intptr[i] * scale_data[i] + bias;
-                }
-            }
-            else
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < w; i++)
-                {
-                    ptr[i] = intptr[i] * scale_data[i] + bias_data[i];
-                }
-            }
+            const int size = std::min(w - i, wp) * elempack;
+
+            dequantize(intptr, ptr, scale_data, bias_data, size, 1);
         }
     }
 
     if (dims == 2)
     {
-        int w = bottom_blob.w;
-        int h = bottom_blob.h;
-
-        top_blob.create(w, h, (size_t)4u, opt.blob_allocator);
-        if (top_blob.empty())
-            return -100;
-
-        if (bias_data_size == 0)
+        #pragma omp parallel for num_threads(opt.num_threads)
+        for (int i = 0; i < h; i++)
         {
-            #pragma omp parallel for num_threads(opt.num_threads)
-            for (int i = 0; i < h; i++)
-            {
-                const int* intptr = bottom_blob.row<const int>(i);
-                float* ptr = top_blob.row(i);
+            const int* intptr = bottom_blob.row<const int>(i);
+            float* ptr = top_blob.row(i);
 
-                const float scale = scale_data_size == 1 ? scale_data[0] : scale_data[i];
+            const Mat scale_data_i = scale_data_size > 1 ? scale_data.range(i * elempack, elempack) : scale_data;
+            const Mat bias_data_i = bias_data_size > 1 ? bias_data.range(i * elempack, elempack) : bias_data;
 
-                int j = 0;
-#if __loongarch_sx
-                __m128 _scale = (__m128)__lsx_vreplfr2vr_s(scale);
-                for (; j + 3 < w; j += 4)
-                {
-                    __builtin_prefetch(intptr + 16);
-                    __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                    _v = __lsx_vfmul_s(_v, _scale);
-                    __lsx_vst(_v, ptr, 0);
-
-                    intptr += 4;
-                    ptr += 4;
-                }
-#endif // __loongarch_sx
-                for (; j < w; j++)
-                {
-                    *ptr++ = *intptr++ * scale;
-                }
-            }
-        }
-        else
-        {
-            #pragma omp parallel for num_threads(opt.num_threads)
-            for (int i = 0; i < h; i++)
-            {
-                const int* intptr = bottom_blob.row<const int>(i);
-                float* ptr = top_blob.row(i);
-
-                const float scale = scale_data_size == 1 ? scale_data[0] : scale_data[i];
-                const float bias = bias_data_size == 1 ? bias_data[0] : bias_data[i];
-
-                int j = 0;
-#if __loongarch_sx
-                __m128 _scale = (__m128)__lsx_vreplfr2vr_s(scale);
-                __m128 _bias = (__m128)__lsx_vreplfr2vr_s(bias);
-                for (; j + 3 < w; j += 4)
-                {
-                    __builtin_prefetch(intptr + 16);
-                    __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                    _v = __lsx_vfmadd_s(_scale, _v, _bias);
-                    __lsx_vst(_v, ptr, 0);
-
-                    intptr += 4;
-                    ptr += 4;
-                }
-#endif // __loongarch_sx
-                for (; j < w; j++)
-                {
-                    *ptr++ = *intptr++ * scale + bias;
-                }
-            }
+            dequantize(intptr, ptr, scale_data_i, bias_data_i, w, elempack);
         }
     }
 
     if (dims == 3)
     {
-        int w = bottom_blob.w;
-        int h = bottom_blob.h;
-        int channels = bottom_blob.c;
-        int size = w * h;
-
-        top_blob.create(w, h, channels, (size_t)4u, opt.blob_allocator);
-        if (top_blob.empty())
-            return -100;
-
-        if (bias_data_size == 0)
+        #pragma omp parallel for num_threads(opt.num_threads)
+        for (int q = 0; q < channels; q++)
         {
-            #pragma omp parallel for num_threads(opt.num_threads)
-            for (int q = 0; q < channels; q++)
-            {
-                const int* intptr = bottom_blob.channel(q);
-                float* ptr = top_blob.channel(q);
-
-                const float scale = scale_data_size == 1 ? scale_data[0] : scale_data[q];
+            const int* intptr = bottom_blob.channel(q);
+            float* ptr = top_blob.channel(q);
 
-                int i = 0;
-#if __loongarch_sx
-                __m128 _scale = (__m128)__lsx_vreplfr2vr_s(scale);
-                for (; i + 7 < size; i += 8)
-                {
-                    __builtin_prefetch(intptr + 32);
-                    __m128 _v0 = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                    __m128 _v1 = __lsx_vffint_s_w(__lsx_vld(intptr + 4, 0));
-                    _v0 = __lsx_vfmul_s(_v0, _scale);
-                    _v1 = __lsx_vfmul_s(_v1, _scale);
-                    __lsx_vst(_v0, ptr, 0);
-                    __lsx_vst(_v1, ptr + 4, 0);
-
-                    intptr += 8;
-                    ptr += 8;
-                }
-                for (; i + 3 < size; i += 4)
-                {
-                    __builtin_prefetch(intptr + 16);
-                    __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                    _v = __lsx_vfmul_s(_v, _scale);
-                    __lsx_vst(_v, ptr, 0);
+            const Mat scale_data_q = scale_data_size > 1 ? scale_data.range(q * elempack, elempack) : scale_data;
+            const Mat bias_data_q = bias_data_size > 1 ? bias_data.range(q * elempack, elempack) : bias_data;
 
-                    intptr += 4;
-                    ptr += 4;
-                }
-#endif // __loongarch_sx
-                for (; i < size; i++)
-                {
-                    *ptr++ = *intptr++ * scale;
-                }
-            }
-        }
-        else
-        {
-            #pragma omp parallel for num_threads(opt.num_threads)
-            for (int q = 0; q < channels; q++)
-            {
-                const int* intptr = bottom_blob.channel(q);
-                float* ptr = top_blob.channel(q);
-
-                const float scale = scale_data_size == 1 ? scale_data[0] : scale_data[q];
-                const float bias = bias_data_size == 1 ? bias_data[0] : bias_data[q];
-
-                int i = 0;
-#if __loongarch_sx
-                __m128 _scale = (__m128)__lsx_vreplfr2vr_s(scale);
-                __m128 _bias = (__m128)__lsx_vreplfr2vr_s(bias);
-                for (; i + 7 < size; i += 8)
-                {
-                    __builtin_prefetch(intptr + 32);
-                    __m128 _v0 = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                    __m128 _v1 = __lsx_vffint_s_w(__lsx_vld(intptr + 4, 0));
-                    _v0 = __lsx_vfmadd_s(_scale, _v0, _bias);
-                    _v1 = __lsx_vfmadd_s(_scale, _v1, _bias);
-                    __lsx_vst(_v0, ptr, 0);
-                    __lsx_vst(_v1, ptr + 4, 0);
-
-                    intptr += 8;
-                    ptr += 8;
-                }
-                for (; i + 3 < size; i += 4)
-                {
-                    __builtin_prefetch(intptr + 16);
-                    __m128 _v = __lsx_vffint_s_w(__lsx_vld(intptr, 0));
-                    _v = __lsx_vfmadd_s(_scale, _v, _bias);
-                    __lsx_vst(_v, ptr, 0);
-
-                    intptr += 4;
-                    ptr += 4;
-                }
-#endif // __loongarch_sx
-                for (; i < size; i++)
-                {
-                    *ptr++ = *intptr++ * scale + bias;
-                }
-            }
+            dequantize(intptr, ptr, scale_data_q, bias_data_q, w * h, elempack);
         }
     }
 
diff --git a/src/layer/mips/dequantize_mips.cpp b/src/layer/mips/dequantize_mips.cpp
index aa11a8fe9ca..5ab3ed47e5a 100644
--- a/src/layer/mips/dequantize_mips.cpp
+++ b/src/layer/mips/dequantize_mips.cpp
@@ -29,806 +29,145 @@ Dequantize_mips::Dequantize_mips()
 #endif
 }
 
-int Dequantize_mips::forward(const Mat& bottom_blob, Mat& top_blob, const Option& opt) const
+static void dequantize(const int* intptr, float* ptr, const Mat& scale_data, const Mat& bias_data, int elemcount, int elempack)
 {
-    // assert bottom_blob.elembits() == 32
+    const int scale_data_size = scale_data.w;
+    const int bias_data_size = bias_data.w;
+    const int size = elemcount * elempack;
 
-    int dims = bottom_blob.dims;
-    int elempack = bottom_blob.elempack;
+    // NCNN_LOGE("dequantize %d %d   %d %d", scale_data_size, bias_data_size, elemcount, elempack);
 
+    float scale = scale_data[0];
 #if __mips_msa
-    if (elempack == 8)
+    v4f32 _scale = (v4f32)__msa_fill_w_f32(scale);
+    if (scale_data_size > 1)
     {
-        if (dims == 1)
+        if (elempack == 4)
         {
-            int w = bottom_blob.w;
-            int outw = w * 2;
-
-            top_blob.create(outw, (size_t)16u, 4, opt.blob_allocator);
-            if (top_blob.empty())
-                return -100;
-
-            if (scale_data_size == 1)
-            {
-                v4f32 _scale = (v4f32)__msa_fill_w_f32(scale_data[0]);
-
-                if (bias_data_size == 0)
-                {
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < outw; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        _v = __msa_fmul_w(_v, _scale);
-                        __msa_st_w((v4i32)_v, ptr, 0);
-                    }
-                }
-                else if (bias_data_size == 1)
-                {
-                    v4f32 _bias = (v4f32)__msa_fill_w_f32(bias_data[0]);
-
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < outw; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        _v = __msa_fmadd_w(_bias, _v, _scale);
-                        __msa_st_w((v4i32)_v, ptr, 0);
-                    }
-                }
-                else
-                {
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < outw; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        v4f32 _bias = (v4f32)__msa_ld_w((const float*)bias_data + i * 4, 0);
-                        v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        _v = __msa_fmadd_w(_bias, _v, _scale);
-                        __msa_st_w((v4i32)_v, ptr, 0);
-                    }
-                }
-            }
-            else
-            {
-                if (bias_data_size == 0)
-                {
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < outw; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        v4f32 _scale = (v4f32)__msa_ld_w((const float*)scale_data + i * 4, 0);
-                        v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        _v = __msa_fmul_w(_v, _scale);
-                        __msa_st_w((v4i32)_v, ptr, 0);
-                    }
-                }
-                else if (bias_data_size == 1)
-                {
-                    v4f32 _bias = (v4f32)__msa_fill_w_f32(bias_data[0]);
-
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < outw; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        v4f32 _scale = (v4f32)__msa_ld_w((const float*)scale_data + i * 4, 0);
-                        v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        _v = __msa_fmadd_w(_bias, _v, _scale);
-                        __msa_st_w((v4i32)_v, ptr, 0);
-                    }
-                }
-                else
-                {
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < outw; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        v4f32 _scale = (v4f32)__msa_ld_w((const float*)scale_data + i * 4, 0);
-                        v4f32 _bias = (v4f32)__msa_ld_w((const float*)bias_data + i * 4, 0);
-                        v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        _v = __msa_fmadd_w(_bias, _v, _scale);
-                        __msa_st_w((v4i32)_v, ptr, 0);
-                    }
-                }
-            }
+            _scale = (v4f32)__msa_ld_w((const float*)scale_data, 0);
         }
+    }
+#endif // __mips_msa
 
-        if (dims == 2)
+    if (bias_data_size == 0)
+    {
+        int i = 0;
+#if __mips_msa
+        for (; i + 3 < size; i += 4)
         {
-            int w = bottom_blob.w;
-            int h = bottom_blob.h;
-            int outh = h * 2;
-
-            top_blob.create(w, outh, (size_t)16u, 4, opt.blob_allocator);
-            if (top_blob.empty())
-                return -100;
-
-            if (bias_data_size == 0)
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < h; i++)
-                {
-                    const int* intptr = bottom_blob.row<const int>(i);
-                    float* ptr0 = top_blob.row(i * 2);
-                    float* ptr1 = top_blob.row(i * 2 + 1);
-
-                    v4f32 _scale0 = scale_data_size == 1 ? (v4f32)__msa_fill_w_f32(scale_data[0]) : (v4f32)__msa_ld_w((const float*)scale_data + i * 8, 0);
-                    v4f32 _scale1 = scale_data_size == 1 ? (v4f32)__msa_fill_w_f32(scale_data[0]) : (v4f32)__msa_ld_w((const float*)scale_data + i * 8 + 4, 0);
-
-                    for (int j = 0; j < w; j++)
-                    {
-                        __builtin_prefetch(intptr + 32);
-                        v4f32 _v0 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        v4f32 _v1 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr + 4, 0));
-                        _v0 = __msa_fmul_w(_v0, _scale0);
-                        _v1 = __msa_fmul_w(_v1, _scale1);
-                        __msa_st_w((v4i32)_v0, ptr0, 0);
-                        __msa_st_w((v4i32)_v1, ptr1, 0);
-
-                        intptr += 8;
-                        ptr0 += 4;
-                        ptr1 += 4;
-                    }
-                }
-            }
-            else
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < h; i++)
-                {
-                    const int* intptr = bottom_blob.row<const int>(i);
-                    float* ptr0 = top_blob.row(i * 2);
-                    float* ptr1 = top_blob.row(i * 2 + 1);
-
-                    v4f32 _scale0 = scale_data_size == 1 ? (v4f32)__msa_fill_w_f32(scale_data[0]) : (v4f32)__msa_ld_w((const float*)scale_data + i * 8, 0);
-                    v4f32 _scale1 = scale_data_size == 1 ? (v4f32)__msa_fill_w_f32(scale_data[0]) : (v4f32)__msa_ld_w((const float*)scale_data + i * 8 + 4, 0);
-                    v4f32 _bias0 = bias_data_size == 1 ? (v4f32)__msa_fill_w_f32(bias_data[0]) : (v4f32)__msa_ld_w((const float*)bias_data + i * 8, 0);
-                    v4f32 _bias1 = bias_data_size == 1 ? (v4f32)__msa_fill_w_f32(bias_data[0]) : (v4f32)__msa_ld_w((const float*)bias_data + i * 8 + 4, 0);
-
-                    for (int j = 0; j < w; j++)
-                    {
-                        __builtin_prefetch(intptr + 32);
-                        v4f32 _v0 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        v4f32 _v1 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr + 4, 0));
-                        _v0 = __msa_fmadd_w(_bias0, _v0, _scale0);
-                        _v1 = __msa_fmadd_w(_bias1, _v1, _scale1);
-                        __msa_st_w((v4i32)_v0, ptr0, 0);
-                        __msa_st_w((v4i32)_v1, ptr1, 0);
-
-                        intptr += 8;
-                        ptr0 += 4;
-                        ptr1 += 4;
-                    }
-                }
-            }
+            __builtin_prefetch(intptr + 16);
+            v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
+            _v = __msa_fmul_w(_v, _scale);
+            __msa_st_w((v4i32)_v, ptr, 0);
+            intptr += 4;
+            ptr += 4;
         }
-
-        if (dims == 3)
+#endif // __mips_msa
+        for (; i < size; i++)
         {
-            int w = bottom_blob.w;
-            int h = bottom_blob.h;
-            int channels = bottom_blob.c;
-            int size = w * h;
-            int outc = channels * 2;
-
-            top_blob.create(w, h, outc, (size_t)16u, 4, opt.blob_allocator);
-            if (top_blob.empty())
-                return -100;
-
-            if (bias_data_size == 0)
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int q = 0; q < channels; q++)
-                {
-                    const int* intptr = bottom_blob.channel(q);
-                    float* ptr0 = top_blob.channel(q * 2);
-                    float* ptr1 = top_blob.channel(q * 2 + 1);
-
-                    v4f32 _scale0 = scale_data_size == 1 ? (v4f32)__msa_fill_w_f32(scale_data[0]) : (v4f32)__msa_ld_w((const float*)scale_data + q * 8, 0);
-                    v4f32 _scale1 = scale_data_size == 1 ? (v4f32)__msa_fill_w_f32(scale_data[0]) : (v4f32)__msa_ld_w((const float*)scale_data + q * 8 + 4, 0);
-
-                    int i = 0;
-                    for (; i + 1 < size; i += 2)
-                    {
-                        __builtin_prefetch(intptr + 64);
-                        v4f32 _v0 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        v4f32 _v1 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr + 4, 0));
-                        v4f32 _v2 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr + 8, 0));
-                        v4f32 _v3 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr + 12, 0));
-                        _v0 = __msa_fmul_w(_v0, _scale0);
-                        _v1 = __msa_fmul_w(_v1, _scale1);
-                        _v2 = __msa_fmul_w(_v2, _scale0);
-                        _v3 = __msa_fmul_w(_v3, _scale1);
-                        __msa_st_w((v4i32)_v0, ptr0, 0);
-                        __msa_st_w((v4i32)_v2, ptr0 + 4, 0);
-                        __msa_st_w((v4i32)_v1, ptr1, 0);
-                        __msa_st_w((v4i32)_v3, ptr1 + 4, 0);
-
-                        intptr += 16;
-                        ptr0 += 8;
-                        ptr1 += 8;
-                    }
-                    for (; i < size; i++)
-                    {
-                        __builtin_prefetch(intptr + 32);
-                        v4f32 _v0 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        v4f32 _v1 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr + 4, 0));
-                        _v0 = __msa_fmul_w(_v0, _scale0);
-                        _v1 = __msa_fmul_w(_v1, _scale1);
-                        __msa_st_w((v4i32)_v0, ptr0, 0);
-                        __msa_st_w((v4i32)_v1, ptr1, 0);
-
-                        intptr += 8;
-                        ptr0 += 4;
-                        ptr1 += 4;
-                    }
-                }
-            }
-            else
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int q = 0; q < channels; q++)
-                {
-                    const int* intptr = bottom_blob.channel(q);
-                    float* ptr0 = top_blob.channel(q * 2);
-                    float* ptr1 = top_blob.channel(q * 2 + 1);
-
-                    v4f32 _scale0 = scale_data_size == 1 ? (v4f32)__msa_fill_w_f32(scale_data[0]) : (v4f32)__msa_ld_w((const float*)scale_data + q * 8, 0);
-                    v4f32 _scale1 = scale_data_size == 1 ? (v4f32)__msa_fill_w_f32(scale_data[0]) : (v4f32)__msa_ld_w((const float*)scale_data + q * 8 + 4, 0);
-                    v4f32 _bias0 = bias_data_size == 1 ? (v4f32)__msa_fill_w_f32(bias_data[0]) : (v4f32)__msa_ld_w((const float*)bias_data + q * 8, 0);
-                    v4f32 _bias1 = bias_data_size == 1 ? (v4f32)__msa_fill_w_f32(bias_data[0]) : (v4f32)__msa_ld_w((const float*)bias_data + q * 8 + 4, 0);
-
-                    int i = 0;
-                    for (; i + 1 < size; i += 2)
-                    {
-                        __builtin_prefetch(intptr + 64);
-                        v4f32 _v0 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        v4f32 _v1 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr + 4, 0));
-                        v4f32 _v2 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr + 8, 0));
-                        v4f32 _v3 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr + 12, 0));
-                        _v0 = __msa_fmadd_w(_bias0, _v0, _scale0);
-                        _v1 = __msa_fmadd_w(_bias1, _v1, _scale1);
-                        _v2 = __msa_fmadd_w(_bias0, _v2, _scale0);
-                        _v3 = __msa_fmadd_w(_bias1, _v3, _scale1);
-                        __msa_st_w((v4i32)_v0, ptr0, 0);
-                        __msa_st_w((v4i32)_v2, ptr0 + 4, 0);
-                        __msa_st_w((v4i32)_v1, ptr1, 0);
-                        __msa_st_w((v4i32)_v3, ptr1 + 4, 0);
-
-                        intptr += 16;
-                        ptr0 += 8;
-                        ptr1 += 8;
-                    }
-                    for (; i < size; i++)
-                    {
-                        __builtin_prefetch(intptr + 32);
-                        v4f32 _v0 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        v4f32 _v1 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr + 4, 0));
-                        _v0 = __msa_fmadd_w(_bias0, _v0, _scale0);
-                        _v1 = __msa_fmadd_w(_bias1, _v1, _scale1);
-                        __msa_st_w((v4i32)_v0, ptr0, 0);
-                        __msa_st_w((v4i32)_v1, ptr1, 0);
-
-                        intptr += 8;
-                        ptr0 += 4;
-                        ptr1 += 4;
-                    }
-                }
-            }
+            *ptr = *intptr * scale;
+            intptr++;
+            ptr++;
         }
-
-        return 0;
     }
-
-    if (elempack == 4)
+    else
     {
-        if (dims == 1)
+        float bias = bias_data[0];
+#if __mips_msa
+        v4f32 _bias = (v4f32)__msa_fill_w_f32(bias);
+        if (bias_data_size > 1)
         {
-            int w = bottom_blob.w;
-
-            top_blob.create(w, (size_t)16u, elempack, opt.blob_allocator);
-            if (top_blob.empty())
-                return -100;
-
-            if (scale_data_size == 1)
-            {
-                v4f32 _scale = (v4f32)__msa_fill_w_f32(scale_data[0]);
-
-                if (bias_data_size == 0)
-                {
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < w; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        _v = __msa_fmul_w(_v, _scale);
-                        __msa_st_w((v4i32)_v, ptr, 0);
-                    }
-                }
-                else if (bias_data_size == 1)
-                {
-                    v4f32 _bias = (v4f32)__msa_fill_w_f32(bias_data[0]);
-
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < w; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        _v = __msa_fmadd_w(_bias, _v, _scale);
-                        __msa_st_w((v4i32)_v, ptr, 0);
-                    }
-                }
-                else
-                {
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < w; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        v4f32 _bias = (v4f32)__msa_ld_w((const float*)bias_data + i * 4, 0);
-                        v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        _v = __msa_fmadd_w(_bias, _v, _scale);
-                        __msa_st_w((v4i32)_v, ptr, 0);
-                    }
-                }
-            }
-            else
+            if (elempack == 4)
             {
-                if (bias_data_size == 0)
-                {
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < w; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        v4f32 _scale = (v4f32)__msa_ld_w((const float*)scale_data + i * 4, 0);
-                        v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        _v = __msa_fmul_w(_v, _scale);
-                        __msa_st_w((v4i32)_v, ptr, 0);
-                    }
-                }
-                else if (bias_data_size == 1)
-                {
-                    v4f32 _bias = (v4f32)__msa_fill_w_f32(bias_data[0]);
-
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < w; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        v4f32 _scale = (v4f32)__msa_ld_w((const float*)scale_data + i * 4, 0);
-                        v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        _v = __msa_fmadd_w(_bias, _v, _scale);
-                        __msa_st_w((v4i32)_v, ptr, 0);
-                    }
-                }
-                else
-                {
-                    #pragma omp parallel for num_threads(opt.num_threads)
-                    for (int i = 0; i < w; i++)
-                    {
-                        const int* intptr = (const int*)bottom_blob + i * 4;
-                        float* ptr = (float*)top_blob + i * 4;
-
-                        v4f32 _scale = (v4f32)__msa_ld_w((const float*)scale_data + i * 4, 0);
-                        v4f32 _bias = (v4f32)__msa_ld_w((const float*)bias_data + i * 4, 0);
-                        v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        _v = __msa_fmadd_w(_bias, _v, _scale);
-                        __msa_st_w((v4i32)_v, ptr, 0);
-                    }
-                }
+                _bias = (v4f32)__msa_ld_w((const float*)bias_data, 0);
             }
         }
+#endif // __mips_msa
 
-        if (dims == 2)
+        int i = 0;
+#if __mips_msa
+        for (; i + 3 < size; i += 4)
         {
-            int w = bottom_blob.w;
-            int h = bottom_blob.h;
-
-            top_blob.create(w, h, (size_t)16u, elempack, opt.blob_allocator);
-            if (top_blob.empty())
-                return -100;
-
-            if (bias_data_size == 0)
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < h; i++)
-                {
-                    const int* intptr = bottom_blob.row<const int>(i);
-                    float* ptr = top_blob.row(i);
-
-                    v4f32 _scale = scale_data_size == 1 ? (v4f32)__msa_fill_w_f32(scale_data[0]) : (v4f32)__msa_ld_w((const float*)scale_data + i * 4, 0);
-
-                    for (int j = 0; j < w; j++)
-                    {
-                        __builtin_prefetch(intptr + 16);
-                        v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        _v = __msa_fmul_w(_v, _scale);
-                        __msa_st_w((v4i32)_v, ptr, 0);
-
-                        intptr += 4;
-                        ptr += 4;
-                    }
-                }
-            }
-            else
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < h; i++)
-                {
-                    const int* intptr = bottom_blob.row<const int>(i);
-                    float* ptr = top_blob.row(i);
-
-                    v4f32 _scale = scale_data_size == 1 ? (v4f32)__msa_fill_w_f32(scale_data[0]) : (v4f32)__msa_ld_w((const float*)scale_data + i * 4, 0);
-                    v4f32 _bias = bias_data_size == 1 ? (v4f32)__msa_fill_w_f32(bias_data[0]) : (v4f32)__msa_ld_w((const float*)bias_data + i * 4, 0);
-
-                    for (int j = 0; j < w; j++)
-                    {
-                        __builtin_prefetch(intptr + 16);
-                        v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        _v = __msa_fmadd_w(_bias, _v, _scale);
-                        __msa_st_w((v4i32)_v, ptr, 0);
-
-                        intptr += 4;
-                        ptr += 4;
-                    }
-                }
-            }
+            __builtin_prefetch(intptr + 16);
+            v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
+            _v = __msa_fmadd_w(_bias, _v, _scale);
+            __msa_st_w((v4i32)_v, ptr, 0);
+            intptr += 4;
+            ptr += 4;
         }
-
-        if (dims == 3)
+#endif // __mips_msa
+        for (; i < size; i++)
         {
-            int w = bottom_blob.w;
-            int h = bottom_blob.h;
-            int channels = bottom_blob.c;
-            int size = w * h;
-
-            top_blob.create(w, h, channels, (size_t)16u, elempack, opt.blob_allocator);
-            if (top_blob.empty())
-                return -100;
-
-            if (bias_data_size == 0)
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int q = 0; q < channels; q++)
-                {
-                    const int* intptr = bottom_blob.channel(q);
-                    float* ptr = top_blob.channel(q);
-
-                    v4f32 _scale = scale_data_size == 1 ? (v4f32)__msa_fill_w_f32(scale_data[0]) : (v4f32)__msa_ld_w((const float*)scale_data + q * 4, 0);
-
-                    int i = 0;
-                    for (; i + 1 < size; i += 2)
-                    {
-                        __builtin_prefetch(intptr + 32);
-                        v4f32 _v0 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        v4f32 _v1 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr + 4, 0));
-                        _v0 = __msa_fmul_w(_v0, _scale);
-                        _v1 = __msa_fmul_w(_v1, _scale);
-                        __msa_st_w((v4i32)_v0, ptr, 0);
-                        __msa_st_w((v4i32)_v1, ptr + 4, 0);
-
-                        intptr += 8;
-                        ptr += 8;
-                    }
-                    for (; i < size; i++)
-                    {
-                        __builtin_prefetch(intptr + 16);
-                        v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        _v = __msa_fmul_w(_v, _scale);
-                        __msa_st_w((v4i32)_v, ptr, 0);
-
-                        intptr += 4;
-                        ptr += 4;
-                    }
-                }
-            }
-            else
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int q = 0; q < channels; q++)
-                {
-                    const int* intptr = bottom_blob.channel(q);
-                    float* ptr = top_blob.channel(q);
-
-                    v4f32 _scale = scale_data_size == 1 ? (v4f32)__msa_fill_w_f32(scale_data[0]) : (v4f32)__msa_ld_w((const float*)scale_data + q * 4, 0);
-                    v4f32 _bias = bias_data_size == 1 ? (v4f32)__msa_fill_w_f32(bias_data[0]) : (v4f32)__msa_ld_w((const float*)bias_data + q * 4, 0);
-
-                    int i = 0;
-                    for (; i + 1 < size; i += 2)
-                    {
-                        __builtin_prefetch(intptr + 32);
-                        v4f32 _v0 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        v4f32 _v1 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr + 4, 0));
-                        _v0 = __msa_fmadd_w(_bias, _v0, _scale);
-                        _v1 = __msa_fmadd_w(_bias, _v1, _scale);
-                        __msa_st_w((v4i32)_v0, ptr, 0);
-                        __msa_st_w((v4i32)_v1, ptr + 4, 0);
+            *ptr = *intptr * scale + bias;
+            intptr++;
+            ptr++;
+        }
+    }
+}
 
-                        intptr += 8;
-                        ptr += 8;
-                    }
-                    for (; i < size; i++)
-                    {
-                        __builtin_prefetch(intptr + 16);
-                        v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                        _v = __msa_fmadd_w(_bias, _v, _scale);
-                        __msa_st_w((v4i32)_v, ptr, 0);
+int Dequantize_mips::forward(const Mat& bottom_blob, Mat& top_blob, const Option& opt) const
+{
+    // assert bottom_blob.elembits() == 32
 
-                        intptr += 4;
-                        ptr += 4;
-                    }
-                }
-            }
-        }
+    const int dims = bottom_blob.dims;
+    const int w = bottom_blob.w;
+    const int h = bottom_blob.h;
+    const int channels = bottom_blob.c;
+    const int elempack = bottom_blob.elempack;
 
-        return 0;
-    }
-#endif // __mips_msa
+    top_blob.create_like(bottom_blob, opt.blob_allocator);
+    if (top_blob.empty())
+        return -100;
 
     if (dims == 1)
     {
-        int w = bottom_blob.w;
-
-        top_blob.create(w, (size_t)4u, opt.blob_allocator);
-        if (top_blob.empty())
-            return -100;
-
-        const int* intptr = bottom_blob;
-        float* ptr = top_blob;
+        const int wp = std::max(1, w / opt.num_threads);
+        const int nn_w = (w + wp - 1) / wp;
 
-        if (scale_data_size == 1)
+        #pragma omp parallel for num_threads(opt.num_threads)
+        for (int ii = 0; ii < nn_w; ii++)
         {
-            const float scale = scale_data[0];
+            const int i = ii * wp;
 
-            if (bias_data_size == 0)
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < w; i++)
-                {
-                    ptr[i] = intptr[i] * scale;
-                }
-            }
-            else if (bias_data_size == 1)
-            {
-                const float bias = bias_data[0];
+            const int* intptr = (const int*)bottom_blob + i * elempack;
+            float* ptr = (float*)top_blob + i * elempack;
 
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < w; i++)
-                {
-                    ptr[i] = intptr[i] * scale + bias;
-                }
-            }
-            else
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < w; i++)
-                {
-                    ptr[i] = intptr[i] * scale + bias_data[i];
-                }
-            }
-        }
-        else
-        {
-            if (bias_data_size == 0)
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < w; i++)
-                {
-                    ptr[i] = intptr[i] * scale_data[i];
-                }
-            }
-            else if (bias_data_size == 1)
-            {
-                const float bias = bias_data[0];
+            // assert scale_data_size == 1
+            // assert bias_data_size == 0 || bias_data_size == 1
 
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < w; i++)
-                {
-                    ptr[i] = intptr[i] * scale_data[i] + bias;
-                }
-            }
-            else
-            {
-                #pragma omp parallel for num_threads(opt.num_threads)
-                for (int i = 0; i < w; i++)
-                {
-                    ptr[i] = intptr[i] * scale_data[i] + bias_data[i];
-                }
-            }
+            const int size = std::min(w - i, wp) * elempack;
+
+            dequantize(intptr, ptr, scale_data, bias_data, size, 1);
         }
     }
 
     if (dims == 2)
     {
-        int w = bottom_blob.w;
-        int h = bottom_blob.h;
-
-        top_blob.create(w, h, (size_t)4u, opt.blob_allocator);
-        if (top_blob.empty())
-            return -100;
-
-        if (bias_data_size == 0)
+        #pragma omp parallel for num_threads(opt.num_threads)
+        for (int i = 0; i < h; i++)
         {
-            #pragma omp parallel for num_threads(opt.num_threads)
-            for (int i = 0; i < h; i++)
-            {
-                const int* intptr = bottom_blob.row<const int>(i);
-                float* ptr = top_blob.row(i);
+            const int* intptr = bottom_blob.row<const int>(i);
+            float* ptr = top_blob.row(i);
 
-                const float scale = scale_data_size == 1 ? scale_data[0] : scale_data[i];
+            const Mat scale_data_i = scale_data_size > 1 ? scale_data.range(i * elempack, elempack) : scale_data;
+            const Mat bias_data_i = bias_data_size > 1 ? bias_data.range(i * elempack, elempack) : bias_data;
 
-                int j = 0;
-#if __mips_msa
-                v4f32 _scale = (v4f32)__msa_fill_w_f32(scale);
-                for (; j + 3 < w; j += 4)
-                {
-                    __builtin_prefetch(intptr + 16);
-                    v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                    _v = __msa_fmul_w(_v, _scale);
-                    __msa_st_w((v4i32)_v, ptr, 0);
-
-                    intptr += 4;
-                    ptr += 4;
-                }
-#endif // __mips_msa
-                for (; j < w; j++)
-                {
-                    *ptr++ = *intptr++ * scale;
-                }
-            }
-        }
-        else
-        {
-            #pragma omp parallel for num_threads(opt.num_threads)
-            for (int i = 0; i < h; i++)
-            {
-                const int* intptr = bottom_blob.row<const int>(i);
-                float* ptr = top_blob.row(i);
-
-                const float scale = scale_data_size == 1 ? scale_data[0] : scale_data[i];
-                const float bias = bias_data_size == 1 ? bias_data[0] : bias_data[i];
-
-                int j = 0;
-#if __mips_msa
-                v4f32 _scale = (v4f32)__msa_fill_w_f32(scale);
-                v4f32 _bias = (v4f32)__msa_fill_w_f32(bias);
-                for (; j + 3 < w; j += 4)
-                {
-                    __builtin_prefetch(intptr + 16);
-                    v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                    _v = __msa_fmadd_w(_bias, _v, _scale);
-                    __msa_st_w((v4i32)_v, ptr, 0);
-
-                    intptr += 4;
-                    ptr += 4;
-                }
-#endif // __mips_msa
-                for (; j < w; j++)
-                {
-                    *ptr++ = *intptr++ * scale + bias;
-                }
-            }
+            dequantize(intptr, ptr, scale_data_i, bias_data_i, w, elempack);
         }
     }
 
     if (dims == 3)
     {
-        int w = bottom_blob.w;
-        int h = bottom_blob.h;
-        int channels = bottom_blob.c;
-        int size = w * h;
-
-        top_blob.create(w, h, channels, (size_t)4u, opt.blob_allocator);
-        if (top_blob.empty())
-            return -100;
-
-        if (bias_data_size == 0)
+        #pragma omp parallel for num_threads(opt.num_threads)
+        for (int q = 0; q < channels; q++)
         {
-            #pragma omp parallel for num_threads(opt.num_threads)
-            for (int q = 0; q < channels; q++)
-            {
-                const int* intptr = bottom_blob.channel(q);
-                float* ptr = top_blob.channel(q);
-
-                const float scale = scale_data_size == 1 ? scale_data[0] : scale_data[q];
+            const int* intptr = bottom_blob.channel(q);
+            float* ptr = top_blob.channel(q);
 
-                int i = 0;
-#if __mips_msa
-                v4f32 _scale = (v4f32)__msa_fill_w_f32(scale);
-                for (; i + 7 < size; i += 8)
-                {
-                    __builtin_prefetch(intptr + 32);
-                    v4f32 _v0 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                    v4f32 _v1 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr + 4, 0));
-                    _v0 = __msa_fmul_w(_v0, _scale);
-                    _v1 = __msa_fmul_w(_v1, _scale);
-                    __msa_st_w((v4i32)_v0, ptr, 0);
-                    __msa_st_w((v4i32)_v1, ptr + 4, 0);
-
-                    intptr += 8;
-                    ptr += 8;
-                }
-                for (; i + 3 < size; i += 4)
-                {
-                    __builtin_prefetch(intptr + 16);
-                    v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                    _v = __msa_fmul_w(_v, _scale);
-                    __msa_st_w((v4i32)_v, ptr, 0);
+            const Mat scale_data_q = scale_data_size > 1 ? scale_data.range(q * elempack, elempack) : scale_data;
+            const Mat bias_data_q = bias_data_size > 1 ? bias_data.range(q * elempack, elempack) : bias_data;
 
-                    intptr += 4;
-                    ptr += 4;
-                }
-#endif // __mips_msa
-                for (; i < size; i++)
-                {
-                    *ptr++ = *intptr++ * scale;
-                }
-            }
-        }
-        else
-        {
-            #pragma omp parallel for num_threads(opt.num_threads)
-            for (int q = 0; q < channels; q++)
-            {
-                const int* intptr = bottom_blob.channel(q);
-                float* ptr = top_blob.channel(q);
-
-                const float scale = scale_data_size == 1 ? scale_data[0] : scale_data[q];
-                const float bias = bias_data_size == 1 ? bias_data[0] : bias_data[q];
-
-                int i = 0;
-#if __mips_msa
-                v4f32 _scale = (v4f32)__msa_fill_w_f32(scale);
-                v4f32 _bias = (v4f32)__msa_fill_w_f32(bias);
-                for (; i + 7 < size; i += 8)
-                {
-                    __builtin_prefetch(intptr + 32);
-                    v4f32 _v0 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                    v4f32 _v1 = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr + 4, 0));
-                    _v0 = __msa_fmadd_w(_bias, _v0, _scale);
-                    _v1 = __msa_fmadd_w(_bias, _v1, _scale);
-                    __msa_st_w((v4i32)_v0, ptr, 0);
-                    __msa_st_w((v4i32)_v1, ptr + 4, 0);
-
-                    intptr += 8;
-                    ptr += 8;
-                }
-                for (; i + 3 < size; i += 4)
-                {
-                    __builtin_prefetch(intptr + 16);
-                    v4f32 _v = (v4f32)__msa_ffint_s_w(__msa_ld_w(intptr, 0));
-                    _v = __msa_fmadd_w(_bias, _v, _scale);
-                    __msa_st_w((v4i32)_v, ptr, 0);
-
-                    intptr += 4;
-                    ptr += 4;
-                }
-#endif // __mips_msa
-                for (; i < size; i++)
-                {
-                    *ptr++ = *intptr++ * scale + bias;
-                }
-            }
+            dequantize(intptr, ptr, scale_data_q, bias_data_q, w * h, elempack);
         }
     }