No a pak je ještě jedna možnost, zpracování signálu zadrátovat natvrdo do FPGA a přidat procesor. Třeba https://www.xilinx.com/products/silicon-devices/soc/zynq-7000.html (s HW jádrem na čipu), nebo platformy, kde se jádro syntetizuje přímo na čip (http://www.latticesemi.com/en/Products/DesignSoftwareAndIP/IntellectualProperty/IPCore/IPCores02/LatticeMico32.aspx, ...). Tam se dá taky pěkně vyřádit...
Pokud se nemýlím, tak NEON je záležitost plnotučných Cortex-A procesorů. Kdežto Pavel píše o DSP na úrovni Cortex-M. Ty řady jsou určené na jiné věci a taky stojí jiné peníze (a mají jiný výkon), takže jsou to trošičku jablka a hrušky. Obojí je to rozšíření instrukční sady - NEON o vektorové a maticové instrukce, DSP hlavně o multiply-and-accumulate a lepší násobičky se saturací (ale ne vektorové).
Tady je to i popsané (jak DSP tak NEON): https://developer.arm.com/technologies/dsp
Jak psal MarSik (díky!), jsou to obě zajímavé a podporované technologie, ale každá s trochu jiným způsobem použití. Chtěl bych ale upozornit na to (viz též https://www.root.cz/clanky/mikroprocesory-a-mikroradice-arm-s-podporou-dsp-operaci/#k11) , že i když ARM používá zkratku "DSP", tak se jejich přístup k DSP dost odlišuje od toho, co si pod pojmem DSP představí lidi, co dělají s TMS320, Motorolou 56000 apod., spíš je to skutečně jen modifikace ALU, přidání rychlé násobičky, nic víc. Na mnoho věcí to dneska stačí, někdy už ne. Na druhou stranu NEON má lepší předpoklady pro efektivní paralelní výpočty, například při práci s bitmapami (celé RGB v jedné operaci) apod. (opět to ale není klasické DSP se spec. adresovacími režimy apod.)