Pro programování s těmito věcmi jsem používal Intel Intrinsics a tuto klikací příručku: https://www.intel.com/content/www/us/en/docs/intrinsics-guide/
Některé vektorové algoritmy jsou implementovány v knihovně Volk https://www.libvolk.org/, většinou v SSE, AVX, s řešením nezarovnaného přístupu do paměti, a občas i v ARM Neonu. Ve zdrojáku se pak můžete inspirovat jak je to napsané: https://github.com/gnuradio/volk/blob/main/kernels/volk/volk_32fc_s32fc_x2_rotator_32fc.h