IMHO nebyl důvod šetření (Pentium nabobtnalo tak, že by se tam dalších pár registrů asi ztratilo), ale kompatibilita s existujícími "operačními systémy". V době, kdy to na x86 vypadalo jak na divokém západě, by byl nadlidský úkol zajistit vzájemné nepřepisování registrů mezi různými aplikacemi. SSE už Intel vyřešil líp - zapnutí musel provádět OS, v té době už ale byly na trhu prakticky jen OS s použitelnou implementaci multitaskingu...
To samozřejmě, mimo FPU bylo nutné zajistit i uložení SSE registrů (tedy, bylo-li to nutné, by default se předpokládalo, že aplikace používá jenom celočíselné registry a i FPU kontext se ukládal až v exception handleru při prvním přístupu k FPU, dnes už tohle asi není pravda).
Pokud si vzpomínám dobře, tak procesor se tvářil, že SSE sada není podporována, dokud ji neaktivoval právě OS. Takže na starších OS aplikační detekce SSE selhala a používala staré MMX nebo FPU...