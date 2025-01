Obsah

1. Matematické koprocesory na platformě 80×86

Původní mikroprocesory řady Intel 8086/8088, ale i jejich následující dvě generace (80286, 80386) obsahovaly aritmeticko-logickou jednotku umožňující provádění výpočtů s celými čísly. Ovšem v některých typech aplikací (typicky CADy a výpočetní software) se intenzivně pracuje s hodnotami s plovoucí řádovou čárkou. V angličtině se používá označení floating point, protože při zápisu desetinných čísel se zde používá tečka a nikoli čárka.

Tyto výpočty je možné buď realizovat softwarově, což může být dosti pomalé, nebo bylo možné využít specializované čipy, které se z historických důvodů nazývají „matematický koprocesor“. Toto označení vzniklo proto, že v minulosti se skutečně jednalo o samostatný čip, který bylo možné na základní desku počítače nainstalovat až ve chvíli, kdy to bylo vzhledem k provozovaným úlohám nezbytné (typicky se jednalo o osobní mikropočítače, na nichž se provozoval CAD popř. se na něm v tabulkovém procesoru zpracovávaly rozsáhlejší tabulky s mnoha výpočty).

Až mnohem později (konkrétně u Pentia) se matematický koprocesor stal nedílnou součástí mikroprocesoru, což znamená, že dnes již není nutné testovat jeho přítomnost, provádění všech operací s plovoucí řádovou čárkou je rychlejší (sdílí se společná interní sběrnice) a taktéž není nutné explicitně čekat na dokončení výpočtů. V dnešním článku se seznámíme především s instrukcemi i s principem práce s hodnotami s plovoucí řádovou čárkou, který je použit na mikroprocesorech s architekturou 80×86.

Poznámka: koprocesory Weitek se budeme zabývat v samostatném textu.

2. Rozdíl mezi celočíselnými operacemi a operacemi s hodnotami s plovoucí řádovou čárkou

Již v úvodu dnešního článku je nutné upozornit na fakt, že zpracování hodnot s plovoucí řádovou čárkou se v mnoha ohledech odlišuje od zpracování celočíselných hodnot – mnohem více, než by se mohlo na první pohled zdát. Je tomu tak hned z několika důvodů. U celočíselných hodnot je u všech současných mikroprocesorových architektur totiž předem zřejmé, jaké hodnoty lze uložit do zvoleného n-bitového slova.

Například u osmibitových slov je při použití čísel bez znaménka (unsigned) možné reprezentovat hodnoty od 0 do 255 (včetně), zatímco u čísel se znaménkem (konkrétně s dvojkovým doplňkem, signed) jsou to hodnoty od –128 do 127. Navíc je při provádění základních aritmetických operací nutné sledovat pouze několik výjimečných stavů:

Přenos u čísel bez znaménka (carry) Přetečení u čísel se znaménkem (overflow) Dělení nulou

Povšimněte si, že vůbec není nutné řešit například práci s nekonečnými hodnotami (kladné a záporné nekonečno), protože takové hodnoty stejně nelze nijak reprezentovat, čímž se detekce potenciálně neplatných výpočtů zjednodušuje. Není ale například nutné řešit ani to, co se stane v případě pokusu o výpočet ∞-∞ nebo 0×∞, vlastně jedinou potenciálně problematickou operací je výpočet x/0 a speciálně též 0/0 (setkáme se dokonce s ALU, kde je výsledek tohoto výpočtu jednička).

Naproti tomu u hodnot reprezentovaných v systému plovoucí řádové čárky může výjimečných stavů nastat mnohem více, a to i ve chvíli, kdy uvažujeme pouze čtyři základní aritmetické operace a ne speciality typu druhá odmocnina ze záporného čísla atd.:

Přetečení Podtečení Práce s takzvanými denormalizovanými čísly Operace s nekonečny (navíc se rozlišuje kladné a záporné nekonečno) Neplatné operace typu 0/0, ∞-∞ nebo 0×∞ Operace s hodnotami, které nejsou skutečná čísla (NaN)

Navíc se zde objevuje další problém, který u celých čísel nebylo nutné řešit – totiž to, jakým způsobem se má provádět zaokrouhlení výsledků tak, aby je bylo možné uložit zpět do pracovních registrů.

3. Norma IEEE 754 a její varianty

Před popisem jednotlivých strojových instrukcí určených pro provádění operací s hodnotami s plovoucí řádovou čárkou je nutné se seznámit s tím, jakým způsobem jsou vlastně taková čísla interně reprezentována (tj. uložena v pracovních registrech či v operační paměti), protože způsob jejich reprezentace do značné míry určuje i přesnost, rozsah podporovaných hodnot, některá specifika (způsob porovnávání) apod.

Na platformě 80×86, a později taktéž u naprosté většiny polovodičových čipů vyrobených v posledním čtvrtstoletí, se pro reprezentaci numerických hodnot s plovoucí řádovou čárkou dodržují vybrané formáty (někdy i všechny formáty!) specifikované v normě IEEE 754, která sama je postupně rozšiřována a upřesňována. V normě IEEE 754, jejíž první verze je mimochodem v platnosti již od roku 1985 (samotný koprocesor 8087 je o pět let starší!), jsou specifikovány nejenom vlastní formáty uložení numerických hodnot v systému pohyblivé řádové čárky (FP formátu), ale i pravidla implementace základních aritmetických operací s těmito hodnotami, aplikace zaokrouhlovacích režimů, způsoby některých konverzí apod. Konkrétně je v této normě popsáno:

Základní (basic) a rozšířený (extended) formát uložení numerických hodnot. Způsob provádění základních matematických operací: součet

rozdíl

součin

podíl

zbytek po dělení

druhá odmocnina

porovnání Režimy zaokrouhlování. Způsob práce s denormalizovanými hodnotami. Pravidla konverze mezi celočíselnými formáty (integer bez a se znaménkem) a formáty s plovoucí řádovou čárkou. Způsob konverze mezi různými formáty s plovoucí řádovou čárkou (single → double atd.). Způsob konverze základního formátu s plovoucí řádovou čárkou na řetězec číslic (včetně nekonečen a nečíselných hodnot). Práce s hodnotami NaN (not a number) a výjimkami, které mohou při výpočtech za určitých předpokladů vzniknout.

4. Způsob interní reprezentace hodnot s plovoucí řádovou čárkou

Dobrý programátor by měl taktéž znát základní vlastnosti interní reprezentace hodnot s plovoucí řádovou čárkou. Jednotlivé platformy se sice mohou odlišovat (IBM 360, Cray, IBM PC, Motorola 68881/68882), ale základ zůstává stále stejný. Zaměřme se na IEEE 754, v níž je použita báze o základu 2. Vybraná podmnožina racionálních čísel může být vyjádřena vztahem:

X FP =(-1)s × 2exp-bias × m

přičemž význam jednotlivých symbolů ve vztahu je následující:

X FP značí reprezentovanou numerickou hodnotu z podmnožiny racionálních čísel (ta je zase podmnožinou čísel reálných). Díky vyhrazeným (speciálním) hodnotám je možné rozlišit kladnou a zápornou nulu i kladné a záporné nekonečno, což je jeden z důležitých rozdílů oproti způsobu reprezentace celých čísel. Také se může uložit nečíselná hodnota: NaN – (Not a Number), která je výsledkem některých matematicky nedefinovaných operací, například 0/0 nebo 0 0 .

značí reprezentovanou numerickou hodnotu z podmnožiny racionálních čísel (ta je zase podmnožinou čísel reálných). Díky vyhrazeným (speciálním) hodnotám je možné rozlišit kladnou a zápornou nulu i kladné a záporné nekonečno, což je jeden z důležitých rozdílů oproti způsobu reprezentace celých čísel. Také se může uložit nečíselná hodnota: NaN – (Not a Number), která je výsledkem některých matematicky nedefinovaných operací, například 0/0 nebo 0 . 2 je báze, někdy také nazývaná radix. U numerických formátů odpovídajících normě IEEE 754 je to vždy dvojka, protože výpočty s bází dvě jsou pro číslicové obvody nejjednodušší. V minulosti se používaly i jiné báze, například 8, 16 nebo i 10, s nimi se však již dnes prakticky nesetkáme. A vzhledem k tomu, že matematické koprocesory 80×87 odpovídají normě IEEE 754, i my budeme používat radix=2.

je báze, někdy také nazývaná radix. U numerických formátů odpovídajících normě IEEE 754 je to vždy dvojka, protože výpočty s bází dvě jsou pro číslicové obvody nejjednodušší. V minulosti se používaly i jiné báze, například 8, 16 nebo i 10, s nimi se však již dnes prakticky nesetkáme. A vzhledem k tomu, že matematické koprocesory 80×87 odpovídají normě IEEE 754, i my budeme používat radix=2. exp je vždy kladná hodnota exponentu posunutého o hodnotu bias

je vždy kladná hodnota exponentu posunutého o hodnotu bias je hodnota, díky které je uložený exponent vždy kladný. Tato hodnota se většinou volí dle vztahu: bias=2 eb-1 -1, kde eb je počet bitů vyhrazených pro exponent. Pro specifické účely je však možné zvolit i jinou hodnotu (ovšem nikoli u formátů odpovídajících IEEE 754, takže se touto variantou nemusíme zabývat).

je hodnota, díky které je uložený exponent vždy kladný. Tato hodnota se většinou volí dle vztahu: bias=2 -1, kde eb je počet bitů vyhrazených pro exponent. Pro specifické účely je však možné zvolit i jinou hodnotu (ovšem nikoli u formátů odpovídajících IEEE 754, takže se touto variantou nemusíme zabývat). m je mantisa, která je u formátů dle normy IEEE 754 vždy kladná, protože znaménko je uloženo zvlášť (některé FP formáty však například používají dvojkový doplněk atd.).

je mantisa, která je u formátů dle normy IEEE 754 vždy kladná, protože znaménko je uloženo zvlášť (některé FP formáty však například používají dvojkový doplněk atd.). s je znaménkový bit nabývající hodnoty 0 nebo 1. V případě, že je tento bit nulový, je reprezentovaná hodnota X FP kladná, v opačném případě se jedná o zápornou hodnotu. Vzhledem k tomu, že je jeden bit vyhrazen na uložení znaménka, je možné rozlišit kladnou a zápornou nulu, ale například i kladné a záporné nekonečno.

5. Formát single – hodnoty s jednoduchou přesností

Podle bitové šířky výše zmíněných parametrů exp, bias a m se rozlišují základní (basic) a rozšířené (extended) formáty FP čísel. Norma IEEE 754 přitom v tomto kontextu explicitně zmiňuje dva základní formáty: jednoduchá přesnost (single) a dvojitá přesnost (double).

Začneme typem single. Tento formát, který je v programovacích jazycích označován buď jako single či float, je charakteristický tím, že se pro uložení numerické hodnoty používá celkem třiceti dvou bitů (tedy 4 byty), což pro mnoho aplikací představuje velmi dobrý poměr mezi rozsahem hodnot, přesností a nároky na úložný prostor, nehledě na to, že mnoho architektur stále používá 32 bitové sběrnice (přesněji řečeno, původní PC mělo sběrnici dokonce jen osmibitovou, 32bitová sběrnice je doménou čipů 80386). Oněch 32 bitů je rozděleno do třech částí. V první části (představované nejvyšším bitem) je uloženo znaménko, následuje osm bitů pro uložení posunutého exponentu a za nimi je zbývajících 23 bitů, které slouží pro uložení mantisy. Celé třiceti dvoubitové slovo s FP hodnotou tedy vypadá následovně:

bit 31 30 29 … 24 23 22 21 … 3 2 1 0 význam s exponent (8 bitů) mantisa (23 bitů)

Exponent je v tomto případě posunutý o hodnotu bias, která je nastavena na 127, protože je použit výše uvedený vztah:

bias=2eb-1-1

a po dosazení eb=8 (bitů) do tohoto vztahu dostaneme:

bias=28–1-1=27-1=128–1=127

Vzorec pro vyjádření reálné hodnoty vypadá následovně:

X single =(-1)s × 2exp-127 × m

6. Uložení znaménka, mantisy a exponentu ve formátu single

Uložení znaménka číselné hodnoty je jednoduché: v případě, že je znaménkový bit nastavený na jedničku, jedná se o zápornou hodnotu, v opačném případě jde o hodnotu kladnou. Exponent je uložený v takzvané posunuté formě, tj. jako binárně zakódované celé číslo v rozsahu 0..255. Po vyjádření neposunutého exponentu dostáváme rozsah –127..128. Obě krajní hodnoty jsou však použity pro speciální účely, proto dostáváme rozsah exponentů –126..127 pro normalizovaná čísla (krajními hodnotami jsou takové exponenty, které mají všechny bity buď jedničkové nebo naopak nulové).

Ještě si však musíme říci, jakým způsobem je uložena mantisa. Ta je totiž většinou (až na velmi malá čísla) normalizovaná, což znamená, že se do mantisy ukládají pouze hodnoty v rozsahu <1,0;2,0-ε>. Vzhledem k tomu, že první bit umístěný před binární tečkou je u tohoto rozsahu vždy nastavený na jedničku, není ho zapotřebí explicitně ukládat, což znamená, že ušetříme jeden bit z třiceti dvoubitového slova. Pro normalizované hodnoty platí následující vztah:

X single =(-1)s × 2exp-127(1.M) 2

kde M je hodnota bitového vektoru mantisy, tj.:

M=m 22 -1+m 21 -2+m 20 -3+…+m 1 -22+m 0 -23

Rozsah hodnot, jež je možné reprezentovat pomocí formátu s jednoduchou přesností v normalizovaném tvaru je –3,4×1038 až 3,4×1038. Nejnižší reprezentovatelná (normalizovaná) hodnota je rovna 1,17549×10-38, denormalizovaná pak 1,40129×10-45. Jak jsme k těmto hodnotám došli? Zkuste se podívat na následující vztahy:

hexadecimální hodnota výpočet FP dekadický výsledek normalizováno 0×00000001 2-126×2-23 1,40129×10-45 ne 0×00800000 2-126 1,17549×10-38 ano 0×7F7FFFFF (2–2-23)×2127 3,4×1038 ano

7. Speciální hodnoty s exponenty 0 a 255

Ještě si musíme vysvětlit význam těch exponentů, které mají nastavenou minimální a maximální hodnotu, tj. jsou buď nulové, nebo mají hodnotu 255 (obě samozřejmě před posunem o bias). Vše je přehledně uvedeno v následující tabulce:

s-bit exponent mantisa význam šestnáctkově 0 0<e<255 >0 normalizované kladné číslo 1 0<e<255 >0 normalizované záporné číslo 0 0 >0 denormalizované kladné číslo 1 0 >0 denormalizované záporné číslo 0 0 0 kladná nula 0×00000000 1 0 0 záporná nula 0×80000000 0 255 0 kladné nekonečno 0×7F800000 1 255 0 záporné nekonečno 0×FF800000 0 255 >0 NaN – not a number 1 255 >0 NaN – not a number

Pojmem denormalizovaná čísla označujeme takové hodnoty, u kterých není první (explicitně nevyjádřený) bit mantisy roven jedničce, ale naopak nule. Výpočty s těmito velmi malými hodnotami nejsou přesné, zejména při násobení a dělení (a samozřejmě i všech odvozených operacích). Při ukládání denormalizovaných čísel je exponent vždy nastaven na nejnižší hodnotu, tj. na –126 po posunu a nejvyšší (explicitně neukládaný) bit mantisy je v tomto případě vždy nulový, nikoli jedničkový, jak je tomu u normalizovaných hodnot. Jedná se o výsledek snahy „vyždímat“ z FP formátu i poslední volné kombinace bitů.

Hodnota typu NaN vznikne v případě, že je použita operace s nejasným výsledkem, například 0/0, 00 nebo, a to v praxi snad nejčastěji, při odmocňování záporných čísel. Nekonečná hodnota vzniká typicky při dělení nulou (zde je možné zjistit znaménko), nebo při vyjádření funkcí typu log(0) atd.

8. Formát double – hodnoty s dvojnásobnou přesností

Formát s dvojitou přesností (double, někdy též float64), který je definovaný taktéž normou IEEE 754, se v mnoha ohledech podobá formátu s jednoduchou přesností (single), protože jeho vnitřní struktura bitových polí je prakticky stejná. Pouze se zdvojnásobil celkový počet bitů, ve kterých je hodnota uložena, tj. místo 32 bitů se používá 64 bitů. Právě to je hlavní příčinou toho, proč se tento formát nazývá double, ve skutečnosti je totiž přesnost více než dvojnásobná. 64 bitů alokovaných pro FP hodnotu je v tomto případě rozděleno následujícím způsobem:

1 bit pro znaménko 11 bitů pro exponent 52 bitů pro mantisu

Bitově vypadá rozdělení následovně:

bit 63 62 … 52 51 … 0 význam s exponent (11 bitů) mantisa 52( bitů)

Exponent je v tomto případě posunutý o hodnotu bias=2047 a vzorec pro výpočet reálné hodnoty vypadá takto:

X double =(-1)s × 2exp-2047 × m

Přičemž hodnotu mantisy je možné pro normalizované hodnoty získat pomocí vztahu:

m=1+m 51 -1+m 50 -2+m 49 -3+…+m 0 -52

(m x představuje x-tý bit mantisy)

Rozsah hodnot ukládaných ve dvojité přesnosti je –1,7×10308..1,7×10308, nejmenší možná nenulová hodnota je rovna 2,2×10-308. Minimální a maximální hodnota exponentu má opět speciální význam, který je vysvětlen (spolu s normalizovanými čísly) v následující tabulce:

s-bit exponent mantisa význam 0 0<e<2047 >0 normalizované kladné číslo 1 0<e<2047 >0 normalizované záporné číslo 0 0 >0 denormalizované kladné číslo 1 0 >0 denormalizované záporné číslo 0 0 0 kladná nula 1 0 0 záporná nula 0 2047 0 kladné nekonečno 1 2047 0 záporné nekonečno 0 2047 >0 NaN – not a number 1 2047 >0 NaN – not a number

9. Rozšířený formát extended/temporary

Kromě obou základních formátů (tj. jednoduché i dvojité přesnosti) je v normě IEEE 754 povoleno používat i rozšířené formáty. Na platformě 80×86 je při výpočtech prováděných v matematickém koprocesoru používán rozšířený formát nazývaný extended či temporary. Tento formát je zajímavý tím, že pro uložení FP hodnot používá 80 bitů a je do něho možné beze ztráty přesnosti uložit 64bitové hodnoty typu integer (což je v mnoha oblastech velmi důležité). Osmdesátibitový vektor je v tomto případě rozdělený do třech částí (bitových polí) následujícím způsobem:

1 bit pro znaménko

15 bitů pro exponent (BIAS je roven 16383)

64 bitů pro mantisu (maximální hodnota přesahuje 104932)

U tohoto formátu je zajímavá funkce bitu s indexem 63. Podle hodnoty tohoto bitu se rozlišují čísla normalizovaná a nenormalizovaná (tento bit ve skutečnosti nahrazuje implicitně nastavovaný nejvyšší bit mantisy, jak ho známe z předchozích formátů). Matematické koprocesory řady 80×87 sice dokážou pracovat s čísly nenormalizovanými, výsledkem jeho aritmetických operací jsou však vždy hodnoty normalizované. Všechny možnosti, které mohou při ukládání extended FP formátu nastat, jsou přehledně vypsány v následující tabulce:

s-bit exponent mantisa m 63 význam 0 0<e<32767 >0 1 normalizované kladné číslo 1 0<e<32767 >0 1 normalizované záporné číslo 0 0<e<32767 >0 0 nenormalizované kladné číslo 1 0<e<32767 >0 0 nenormalizované záporné číslo 0 0 >0 0 denormalizované kladné číslo 1 0 >0 0 denormalizované záporné číslo 0 0 0 x kladná nula 1 0 0 x záporná nula 0 32767 0 x kladné nekonečno 1 32767 0 x záporné nekonečno 0 32767 >0 x NaN – not a number 1 32767 >0 x NaN – not a number

Pro normalizované i nenormalizované hodnoty je možné uloženou hodnotu vyjádřit pomocí vzorce (všimněte si, že bit 63 je umístěn před binární tečkou):

X extended =(-1)s × 2exp-16383 × m

m=m 63 0+m 62 -1+m 61 -2+…+m 0 -63

10. Pracovní registry matematických koprocesorů 80×87

Po poněkud teoretickém úvodu se vraťme k počítačům IBM PC a k matematickým koprocesorům 80×87, tj. k čipům 8087, 80287 a 80387. Tyto koprocesory měly vlastní instrukční sadu, vlastní pracovní registry i řídicí a stavové registry. Instrukční sada byla navržena takovým způsobem, že jak hlavní procesor, tak i matematický koprocesor mohly spolupracovat a zpracovávat stejnou sekvenci operačních kódů (zjednodušeně řečeno – každý čip si z této sekvence vybral „to svoje“, ovšem řízení toku programu samozřejmě prováděl hlavní procesor).

Matematický koprocesor má už od původního čipu 8087 k dispozici celkem osm pracovních registrů, přičemž každý registr má šířku osmdesáti bitů. To znamená, že je možné provádět operace s hodnotami s rozšířenou (extended) přesností a samozřejmě taktéž provádět konverze na hodnoty s přesností jednoduchou (single) a dvojitou (double). Zajímavé a dnes již poněkud neobvyklé je, že zmíněných osm registrů tvoří zásobník (stack), takže například instrukce pro načítání hodnot ve skutečnosti provádí uložení na vrchol zásobníku, aritmetické operace pracují se dvěma registry na vrcholu zásobníku atd. U mnoha instrukcí je však možné toto pravidlo porušit a zvolit si registry explicitně, popř. zakázat odstranění původních operandů ze zásobníku – k registrům tak můžeme přistupovat i přímo. Zápis jmen registrů vypadá takto: ST(0), ST(1) atd. (pořadí registru v zásobníku se průběžně mění).

Poznámka: v instrukčních sadách SSE a AVX, které taktéž obsahují instrukce pro provádění FP operací, je koncept zásobníku již zcela odstraněn a alokace registrů je plně ponechána na vývojáři nebo na překladači.

11. Řídicí registr matematického koprocesoru

Kromě pracovních registrů obsahuje matematický koprocesor i řídicí registr (control register). Ten má šířku pouze šestnáct bitů a obsahuje masky výjimek (exception), které mohou nastat při provádění různých operací, dále pak dva bity pro volbu zaokrouhlovacího režimu (rounding mode) a taktéž dva bity pro volbu přesnosti jednotlivých výpočtů:

# Označení Význam 0 IM maska výjimky Invalid Operation 1 DM maska výjimky Denormalized Operand 2 ZM maska výjimky Zero Divide 3 OM maska výjimky Overflow 4 UM maska výjimky Underflow 5 PM maska výjimky Precision 6 × 7 IE povolení přerušení (dnes nevyužito) 8 PC1 volba přesnosti výpočtů (viz tabulku níže) 9 PC2 -//- 10 RC1 volba zaokrouhlovacího režimu (viz tabulku níže) 11 RC2 -//- 12 IC dnes nepoužito, pro kompatibilitu s 80287 13 × 14 × 15 ×

Bity RC2 a RC1 se používají pro volbu zaokrouhlení (rounding mode):

RC2 RC1 0 0 zaokrouhlení na nejbližší sudé číslo (mantisa) 0 1 zaokrouhlení směrem k -∞ 1 0 zaokrouhlení směrem k +∞ 1 1 zaokrouhlení směrem k nule

Bity PC2 a PC1 určují, zda se mají výpočty provádět s jednoduchou přesností, dvojitou přesností či s rozšířenou přesností (tedy single, double či extended):

PC2 PC1 0 0 32 bitů 0 1 1 0 64 bitů 1 1 80 bitů (výchozí)

Většinou není nutné obsah tohoto registru v průběhu výpočtů měnit – nastavuje se na začátku výpočtů.

12. Stavový registr matematického koprocesoru

Jednotlivé matematické operace prováděné matematickým koprocesorem nastavují bity v takzvaném stavovém registru (status register). Tento registru má taktéž šířku šestnácti bitů a jeho struktura vypadá následovně:

# Označení Význam 0 IE výjimka Invalid Operation 1 DE výjimka Denormalized Operand 2 ZO výjimka Zero Divide 3 OE výjimka Overflow 4 UE výjimka Underflow 5 PE výjimka Precision 6 SF špatná manipulace se zásobníkem operandů 7 ES Error summary 8 C0 výsledek porovnání (příznakový bit) 9 C1 výsledek porovnání (příznakový bit) 10 C2 výsledek porovnání (příznakový bit) 11 ST0 ukazatel vrcholu zásobníku 12 ST1 ukazatel vrcholu zásobníku 13 ST2 ukazatel vrcholu zásobníku 14 C3 výsledek porovnání (příznakový bit) 15 B busy bit (provádí se operace)

Nejzajímavější jsou bity pojmenované C0, C1, C2 a C3, protože do těchto bitů se ukládá například výsledek porovnání dvou hodnot atd. Tyto bity jsou ve stavovém registru umístěny tak, aby přesně odpovídaly umístění standardních příznaků v registru EFLAGS:

FPU EFLAGS C0 carry flag C1 undefined C2 parity flag C3 zero flag

Obsah tohoto registru se využívá tehdy, pokud je nutné provést test na hodnotu, relační operaci atd. To si pochopitelně ukážeme v demonstračních příkladech.

13. Základní instrukce pro načítání dat do registrů matematického koprocesoru

V této kapitole si prozatím bez demonstračního příkladu vypíšeme základní instrukce určené pro načtení dat do registrů FPU. Jedná se o následujících osm instrukcí:

# Instrukce Význam 1 FLD načtení hodnoty typu single, double či extended z operační paměti či z jiného registru 2 FLD1 načtení konstanty +1,0 3 FLDL2T načtení konstanty log 2 10 4 FLDL2E načtení konstanty log 2 e 5 FLDPI načtení konstanty π 6 FLDLG2 načtení konstanty log 10 2 7 FLDLN2 načtení konstanty log e 2 8 FLDZ načtení konstanty +0,0 (tj. kladná nula)

Hodnoty logaritmů se využijí v mnoha instrukcích, které si popíšeme příště.

14. Základní aritmetické operace

Mezi základní aritmetické operace patří především:

# Instrukce Význam 1 FADD součet 2 FSUB rozdíl 3 FSUBR rozdíl, ale operandy jsou prohozeny (má význam, pokud se používá zásobník) 4 FMUL součin 5 FDIV podíl 6 FDIVR podíl, ale operandy jsou prohozeny (má význam, pokud se používá zásobník) 7 FCHS změna znaménka 8 FABS výpočet absolutní hodnoty 9 FSQRT výpočet druhé odmocniny

15. Pomocné podprogramy a makra pro tisk FPU hodnot v hexadecimální podobě

V závěrečné části dnešního článku (a v celém článku navazujícím) si představíme celou řadu demonstračních příkladů, v nichž se pracuje s FPU hodnotami. Budeme taktéž potřebovat získat hodnoty vypočtené matematickým koprocesorem a ty následně nějakým způsobem zobrazit. Aby se stále neopakoval ten samý kód, budeme ve všech demonstračních příkladech používat tento pomocný soubor s makry a podprogramy, který postačuje připojit (include) k překládanému kódu:

;----------------------------------------------------------------------------- ; Symboly, makra a subrutiny pro tisk hodnot na standardni vystup ;----------------------------------------------------------------------------- %ifndef PRINT_LIB %define PRINT_LIB ;----------------------------------------------------------------------------- ; makra ;----------------------------------------------------------------------------- ; makro pro tisk retezce na obrazovku %macro print_string 1 mov dx, %1 mov ah, 9 int 0x21 %endmacro ; makro pro tisk 32bitove hexadecimalni hodnoty ; na standardni vystup %macro print_hex 1 pusha ; uchovat vsechny registry mov edx, %1 ; zapamatovat si hodnotu pro tisk mov ebx, hex_message ; buffer, ktery se zaplni hexa cislicemi call hex2string ; zavolani prislusne subrutiny print_string hex_message ; tisk hexadecimalni hodnoty popa ; obnovit vsechny registry %endmacro ; makro pro vypis 32bitove desitkove hodnoty na standardni vystup %macro print_dec 1 pusha ; uschovat vsechny registry na zasobnik mov eax, %1 ; hodnotu pro tisk ulozit do registru EAX mov ebx, dec_message ; buffer, ktery se zaplni desitkovymi cisticemi call decimal2string ; zavolani prislusne subrutiny pro prevod na string print_string dec_message ; tisk hexadecimalni hodnoty popa ; obnovit vsechny registry %endmacro ; makro pro vypis obsahu FP hodnoty z vrcholu zasobniku ve forme hexadecimalniho cisla %macro print_float32_as_hex 0 fstp dword [float32] ; ulozeni do pameti (4 bajty) mov eax, [float32] ; nacteni FP hodnoty do celociselneho registru print_hex eax ; zobrazeni obsahu tohoto registru v hexadecimalnim tvaru %endmacro ; makro pro vypis obsahu FP hodnoty z vrcholu zasobniku ve forme hexadecimalniho cisla %macro print_float64_as_hex 0 fstp qword [float64] ; ulozeni do pameti (8 bajtu) mov eax, [float64+4]; nacteni FP hodnoty do celociselneho registru print_hex eax ; zobrazeni obsahu tohoto registru v hexadecimalnim tvaru mov eax, [float64] ; nacteni FP hodnoty do celociselneho registru print_hex eax ; zobrazeni obsahu tohoto registru v hexadecimalnim tvaru %endmacro ;----------------------------------------------------------------------------- ; subrutiny ;----------------------------------------------------------------------------- ; subrutina urcena pro prevod 32bitove hexadecimalni hodnoty na retezec ; Vstup: EDX - hodnota, ktera se ma prevest na retezec ; EBX - adresa jiz drive alokovaneho retezce (resp. osmice bajtu) hex2string: mov cl, 8 ; pocet opakovani smycky .print_one_digit: rol edx, 4 ; rotace doleva znamena, ze se do spodnich 4 bitu nasune dalsi cifra mov al, dl ; nechceme porusit obsah vstupni hodnoty v EDX, proto pouzijeme AL and al, 0x0f ; maskovani, potrebujeme pracovat jen s jednou cifrou cmp al, 10 ; je cifra vetsi nebo rovna 10? jl .store_digit ; neni, pouze prevest 0..9 na ASCII hodnotu '0'..'9' .alpha_digit: add al, 'A'-10-'0' ; prevod hodnoty 10..15 na znaky 'A'..'F' .store_digit: add al, '0' mov [ebx], al ; ulozeni cifry do retezce inc ebx ; dalsi ulozeni v retezci o znak dale dec cl ; snizeni pocitadla smycky jnz .print_one_digit ; a opakovani smycky, dokud se nedosahlo nuly ret ; navrat ze subrutiny ; subrutina urcena pro prevod 32bitove desitkove hodnoty na retezec ; Vstup: EDX - hodnota, ktera se ma prevest na retezec ; EBX - adresa jiz drive alokovaneho retezce (resp. minimalne deseti bajtu) decimal2string: mov ecx, 10 ; celkovy pocet zapisovanych cifer/znaku mov edi, ecx ; instrukce DIV vyzaduje deleni registrem, pouzijme tedy EDI .next_digit: xor edx, edx ; delenec je dvojice EDX:EAX, vynulujeme tedy horni registr EDX div edi ; deleni hodnoty ulozene v EDX:EAX deseti (delitelem je EDI) ; vysledek se ulozi do EAX, zbytek do EDX ; pri deleni deseti je jistota, ze zbytek je jen cislo 0..9 add dl, '0' ; prevod hodnoty 0..9 na znak '0'-'9' mov [ebx+ecx-1], dl ; zapis retezce (od posledniho znaku) dec ecx ; presun na predchozi znak v retezci a soucasne snizeni hodnoty pocitadla jnz .next_digit ; uz jsme dosli k poslednimu cislu? ret ; navrat ze subrutiny ;----------------------------------------------------------------------------- ; buffery ;----------------------------------------------------------------------------- ; retezec ukonceny znakem $ ; (tato data jsou soucasti vysledneho souboru typu COM) hex_message: times 8 db '?', db 0x0d, 0x0a, "$" ; retezec ukonceny znakem $ ; (tato data jsou soucasti vysledneho souboru typu COM) dec_message: times 10 db '?', db 0x0d, 0x0a, "$" float32: dd 0 float64: dq 0 %endif

16. Načtení a vytištění konstant 0.0, 1.0 a Pi v hexadecimálním tvaru

Podívejme se nyní, jakým způsobem lze načíst konstanty 0.0, 1.0 a Pi (resp π) do registrů matematického koprocesoru a následně je vytisknout. Již ve třinácté kapitole jsme si řekli, že pro načtení oněch tří konstant existují samostatné instrukce nazvané FLD1, FLDZ a FLDPI, takže samotná realizace je poměrně snadná (a to i díky existenci pomocných souborů io.asm a print.asm):

org 0x100 ; zacatek kodu pro programy typu COM (vzdy se zacina na 256) start: jmp main ; skok na zacatek kodu %include "io.asm" ; nacist symboly, makra a podprogramy %include "print.asm" ; nacist symboly, makra a podprogramy main: fldz ; nacteni FP konstanty 0.0 print_float32_as_hex ; zobrazeni FP hodnoty v hexadecimalnim tvaru fld1 ; nacteni FP konstanty 1.0 print_float32_as_hex ; zobrazeni FP hodnoty v hexadecimalnim tvaru fldpi ; nacteni FP konstanty Pi print_float32_as_hex ; zobrazeni FP hodnoty v hexadecimalnim tvaru wait_key ; cekani na klavesu exit ; navrat do DOSu

Po překladu se podívejme, jak jsou ony tři instrukce přeloženy do strojového kódu. Navíc si podíváme i na instrukci FSTP ve variantě ukládající 32bitovou hodnotu typu single do operační paměti:

13 main: 14 0000005E D9EE fldz ; nacteni FP konstanty 0.0 43 00000060 D91E[5200] <1> fstp dword [float32] 16 17 0000007D D9E8 fld1 ; nacteni FP konstanty 1.0 43 0000007F D91E[5200] <1> fstp dword [float32] 19 20 0000009C D9EB fldpi ; nacteni FP konstanty Pi 43 0000009E D91E[5200] <1> fstp dword [float32]

Poznámka: povšimněte si, že všechny tyto instrukce mají prefix 0×D9, podle kterého jak hlavní procesor, tak i matematický koprocesor (sledující tok dat po sběrnici) detekují instrukci matematického koprocesoru. Taktéž je zajímavé, že jsou všechny operační kódy pouze jednobajtové.

17. Úprava příkladu pro hodnoty typu double/float64

A jak bude vypadat úprava demonstračního příkladu z předchozí kapitoly do podoby, v níž budeme chtít z registrů matematického koprocesoru získat hodnoty typu double a ty následně vytisknout? Z pohledu programátora postačuje pouze zavolání jiného makra, interně se však použije jiná forma instrukce FSTP:

org 0x100 ; zacatek kodu pro programy typu COM (vzdy se zacina na 256) start: jmp main ; skok na zacatek kodu %include "io.asm" ; nacist symboly, makra a podprogramy %include "print.asm" ; nacist symboly, makra a podprogramy main: fldz ; nacteni FP konstanty 0.0 print_float64_as_hex ; zobrazeni FP hodnoty v hexadecimalnim tvaru fld1 ; nacteni FP konstanty 1.0 print_float64_as_hex ; zobrazeni FP hodnoty v hexadecimalnim tvaru fldpi ; nacteni FP konstanty Pi print_float64_as_hex ; zobrazeni FP hodnoty v hexadecimalnim tvaru wait_key ; cekani na klavesu exit ; navrat do DOSu

Nyní se pro instrukci FSTP použije odlišný prefix 0×DD a nikoli 0×D9. Tímto způsobem lze rozlišit odlišnou velikost ukládaných dat:

13 main: 14 0000005E D9EE fldz ; nacteni FP konstanty 0.0 50 00000060 DD1E[5600] <1> fstp qword [float64] 16 17 00000096 D9E8 fld1 ; nacteni FP konstanty 1.0 50 00000098 DD1E[5600] <1> fstp qword [float64] 19 20 000000CE D9EB fldpi ; nacteni FP konstanty Pi 50 000000D0 DD1E[5600] <1> fstp qword [float64]

18. Jak přečíst a dekódovat vytištěné výsledky?

Pokud přeložený program ze šestnácté kapitoly spustíme, měly by se na standardní výstup vypsat následující tři řádky (prefixy jsem přidal ručně):

0.0: 0x00000000 1.0: 0x3F800000 Pi: 0x40490FDB

Vidíme, že jsme pro každou hodnotu reprezentovanou v systému plovoucí řádové čárky dostali hexadeciální 32bitové číslo, které reprezentuje binární „otisk“ 32bitové hodnoty typu single. Exponent je posunutý o bias nastavený na hodnotu 127. Mantisa u normalizovaných čísel obsahuje jen čísla za (binární) řádovou čárkou, tudíž je k hodnotě mantisy nutné přičíst jedničku. Získané hodnoty tedy můžeme dekódovat:

Hexa Binárně s Exponent Mantisa 0×00000000 00000000000000000000000000000000 + 0 (spec) 0 0×3F800000 00111111100000000000000000000000 + 127–127=0 1,0 + 0,0 0×40490FDB 01000000010010010000111111011011 + 128–127=1 1,0 + 0,57079637050628662109375

První hodnota je zcela jednoznačně kladná nula, druhá hodnota je rovna 1,0×20=1, třetí hodnota je pak rovna 1,57079637050628662109375×21=π (zde konkrétně přibližná hodnota 3.14159274101257324218750). Vidíme, že jak způsob uložení hodnot, tak i jejich zpětné ruční dekódování pracuje (relativně) spolehlivě.

19. Repositář s demonstračními příklady

Demonstrační příklady napsané v assembleru, které jsou určené pro překlad s využitím assembleru NASM, byly uloženy do Git repositáře, který je dostupný na adrese https://github.com/tisnik/8bit-fame. Jednotlivé demonstrační příklady si můžete v případě potřeby stáhnout i jednotlivě bez nutnosti klonovat celý (dnes již poměrně rozsáhlý) repositář:

