matmul_check - OptiTrust Trace

Trace for matmul_check✔

Preprocessing loop contracts✔
Function.inline_def [cFunDef "mm"];✔
List.iter tile [("i", 32); ("j", 32); ("k", 4)];✔
Loop.reorder_at ~order:["bi"; "bj"; "bk"; "i"; "k"; "j"] [cPlusEq ~lhs:[cVar "sum"] ()];✔
Loop.hoist_expr ~dest:[tBefore; cFor "bi"] "pB" ~indep:["bi"; "i"] [cArrayRead "B"];✔
Matrix.stack_copy ~var:"sum" ~copy_var:"s" ~copy_dims:1 [cFor ~body:[cPlusEq ~lhs:[cVar "sum"] ()] "k"];✔
Omp.simd [nbMulti; cFor ~body:[cPlusEq ~lhs:[cVar "s"] ()] "j"];✔
Omp.parallel_for [nbMulti; cFunBody ""; cStrict; cFor ""];✔
Loop.unroll ~simpl:Arith.do_nothing [cFor ~body:[cPlusEq ~lhs:[cVar "s"] ()] "k"];✔
Cleanup.std (); )✔

advancedargumentsjustification

tmp/{before922eef.cpp → afterad8418.cpp} RENAMED Viewed

@@ -1,33 +1,63 @@
 #include <optitrust.h>
 // NOTE: using pretty matrix notation
-void mm(float* C, float* A, float* B, int m, int n, int p) {
- __modifies("C ~> Matrix2(m, n)");
- __reads("A ~> Matrix2(m, p)");
- __reads("B ~> Matrix2(p, n)");
- for (int i = 0; i < m; i++) {
-  __xmodifies("for j in 0..n -> &C[i][j] ~> Cell");
-  for (int j = 0; j < n; j++) {
-   __xmodifies("&C[i][j] ~> Cell");
-   float sum = 0.f;
-   for (int k = 0; k < p; k++) {
-    const __ghost_fn focusA =
-      __ghost_begin(matrix2_ro_focus, "M := A, i := i, j := k");
-    const __ghost_fn focusB =
-      __ghost_begin(matrix2_ro_focus, "M := B, i := k, j := j");
-    sum += A[i][k] * B[k][j];
-    __ghost_end(focusA);
-    __ghost_end(focusB);
-   }
-   C[i][j] = sum;
     }
    }
   }
-void mm1024(float* C, float* A, float* B) {
- __modifies("C ~> Matrix2(1024, 1024)");
- __reads("A ~> Matrix2(1024, 1024)");
- __reads("B ~> Matrix2(1024, 1024)");
- mm(C, A, B, 1024, 1024, 1024);
 }

 #include <optitrust.h>
 // NOTE: using pretty matrix notation
+void mm1024(float* C, float* A, float* B) {
+ float* const pB = (float*)malloc(sizeof(float[32][256][4][32]));
+ #pragma omp parallel for
+ for (int bj = 0; bj < 32; bj++) {
+  for (int bk = 0; bk < 256; bk++) {
+   for (int k = 0; k < 4; k++) {
+    for (int j = 0; j < 32; j++) {
+     pB[32768 * bj + 128 * bk + 32 * k + j] =
+       B[1024 * (4 * bk + k) + 32 * bj + j];
     }
    }
   }
+ }
+ #pragma omp parallel for
+ for (int bi = 0; bi < 32; bi++) {
+  for (int bj = 0; bj < 32; bj++) {
+   float* const sum = (float*)malloc(sizeof(float[32][32]));
+   for (int i = 0; i < 32; i++) {
+    for (int j = 0; j < 32; j++) {
+     sum[32 * i + j] = 0.f;
+    }
+   }
+   for (int bk = 0; bk < 256; bk++) {
+    for (int i = 0; i < 32; i++) {
+     float* const s = ref[32] float();
+     MMEMCPY(s, 0, sum, 32 * i, 32, sizeof(float));
+     #pragma omp simd
+     for (int j = 0; j < 32; j++) {
+      s[j] += A[1024 * (32 * bi + i) + 4 * bk] *
+          pB[32768 * bj + 128 * bk + j];
+     }
+     #pragma omp simd
+     for (int j = 0; j < 32; j++) {
+      s[j] += A[1 + 1024 * (32 * bi + i) + 4 * bk] *
+          pB[32 + 32768 * bj + 128 * bk + j];
+     }
+     #pragma omp simd
+     for (int j = 0; j < 32; j++) {
+      s[j] += A[2 + 1024 * (32 * bi + i) + 4 * bk] *
+          pB[64 + 32768 * bj + 128 * bk + j];
+     }
+     #pragma omp simd
+     for (int j = 0; j < 32; j++) {
+      s[j] += A[3 + 1024 * (32 * bi + i) + 4 * bk] *
+          pB[96 + 32768 * bj + 128 * bk + j];
+     }
+     MMEMCPY(sum, 32 * i, s, 0, 32, sizeof(float));
+    }
+   }
+   for (int i = 0; i < 32; i++) {
+    for (int j = 0; j < 32; j++) {
+     C[1024 * (32 * bi + i) + 32 * bj + j] = sum[32 * i + j];
+    }
+   }
+   free(sum);
+  }
+ }
+ free(pB);
 }