ZERO_STRIDE
for (i = 0; i < dsize / sizeof (v_t); i += (2 * ZERO_STRIDE)) {
STORE(dst + i + ZERO_STRIDE, ZERO_D);