říkal jsem si, že když je SSE2 dneska všude a nahrazuje FPU, jak to podporuje Gočko. No pro FPU operace se generují SSE instrukce s XMM registry, to je fajt. Ale tedy nedokázal jsem ho donutit k žádné vektorizaci. Jako i součet komplexních čísel by mohl být řešenej "vektorově", ale není. A intrinsic Gočko nemá a asi nikdy mít nebude... škoda. Takovej Gonum by to urychlilo i 2-3x řekl bych.
Už několik let, protože jiná možnost v golang bohužel není, ale už jsem se dostal k generování toho assembleru přes jiný tool a je to stravitelnější. Začátky ale byly hodně WTF a trvalo mi půl roku, než jsem se do toho dostal.
Problém plan9 asm ale není jen to, že to je záměrně nekompatibilní, ale třeba tam vůbec není podpora SVE, takže kdo chce psát pro nějakou server appku optimalizaci používající SVE, tak stejně musí vygenerovat ty hex-codes, a tam už je externí tool namístě (psát normální asm a vyexportovat to do toho plan9).
No Golang mám jako jazyk rád, ale tedy zrovna ten plan9 assembler je fakt jako z jiné planety :-) Hodně nervů to chce. Jako číst se to dá, ale psát v tom něco většího, to snad ani nejde... (opakuju to už 30 let - zlatej TASM).
Intrinsic jsme do Golangu chtěli, ale neprochází to přes původní autory. Dokonce bych řekl, že bychom na to mohli dostat časovej budget...