Non Temporal Write

// 160MB buffer, well beyond L3 cache
__m128i val = _mm_set1_epi64x(42);
__m128i* p = (__m128i*)arr;
for (size_t i = 0; i < N; ++i) {
  _mm_stream_si128(p + i, val);
}
_mm_sfence();

const val: @Vector(2, i64) = .{ 42, 42 };
var i: usize = 0;
while (i < arr.len) : (i += 2) {
  asm volatile ("movntdq %[val], (%[ptr])"
      : : [val] "x" (val),
          [ptr] "r" (@as([*]u8, @ptrCast(&arr[i])))
      : "memory");
}
asm volatile ("sfence" ::: "memory");

^ This is Faster?

// 160MB buffer, well beyond L3 cache
__m128i val = _mm_set1_epi64x(42);
__m128i* p = (__m128i*)arr;
for (size_t i = 0; i < N; ++i) {
  _mm_store_si128(p + i, val);
}

const val: @Vector(2, i64) = .{ 42, 42 };
var i: usize = 0;
while (i < arr.len) : (i += 2) {
  @as(*@Vector(2, i64), @alignCast(@ptrCast(&arr[i]))).* = val;
}

^ This is Faster?

* The benchmark is run under AMD Ryzen 9.

* For the full benchmark code, please refer here.

* For illustration purposes only, see FAQ for more details.