SIMD instrukce v rozšíření SSE

25. 2. 2025

Doba čtení: 64 minut

Líbí se vám článek?
Podpořte redakci

Po úspěšném a navíc i relativně bezproblémovém zavedení rozšíření MMX vzniklo u konkurence (AMD) rozšíření 3DNow!. To sice nebylo příliš populární, ovšem jednalo se o první krok k rozšíření nazvanému SSE (Streaming SIMD Extension).

Obsah

1. SIMD instrukce v rozšíření SSE

2. Registry používané v rozšíření SSE

3. Registry dostupné v čipech s architekturou 80×86 (32bitová platforma)

4. Nové instrukce přidané v technologii SSE

5. Skalární a vektorové operace

6. Aritmetické operace

7. Instrukce pro přenosy dat

8. Praktická část

9. Detekce podpory SSE mikroprocesorem

10. První demonstrační příklad: zjištění, zda mikroprocesor podporuje instrukce SSE

11. Načtení vektoru do XMM registru z nezarovnané paměťové oblasti instrukcí MOVUPS

12. Načtení vektoru do XMM registru z nezarovnané paměťové oblasti instrukcí MOVAPS

13. Získání podrobnějších informací o příčině pádu procesu

14. Načtení vektoru do XMM registru ze zarovnané paměťové oblasti instrukcí MOVAPS

15. Skalární součet instrukcí ADDSS

16. Vektorový součet instrukcí ADDPS

17. Formát instrukcí SSE

18. Seznam všech popsaných instrukcí SSE

19. Repositář s demonstračními příklady

20. Odkazy na Internetu

1. SIMD instrukce v rozšíření SSE

Po úspěšném a navíc i relativně bezproblémovém zavedení rozšíření MMX (na rozdíl od spíše méně používaného rozšíření 3DNow!) do praxe není divu, že obě nejvýznamnější společnosti podnikající v oblasti návrhu a prodeje mikroprocesorů patřících do rodiny x86, tj. tehdy už prakticky jen dvojice firem Intel a AMD, začaly pro tyto typy mikroprocesorů navrhovat i další rozšiřující instrukční sady s „vektorovými“ instrukcemi typu SIMD (single instruction multiple data). Některé z dále zmíněných technologií byly použity v mikroprocesorech vyráběných jednou společností (což je především případ 3DNow!, jak jsme si již ostatně řekli minule), ovšem v současnosti můžeme vidět oboustranné snahy o zavádění rozšíření instrukční sady x86 podle jednotného schématu a navíc tak, aby ho bylo možné používat na mikroprocesorech vyráběných oběma zmíněnými společnostmi. To je poměrně velký rozdíl oproti ad-hoc řešením, s nimiž jsme se setkali v případě MMX i 3DNow! (kde navíc byli výrobci čipů svázaní snahou o zachování zpětné kompatibility s existujícími operačními systémy).

Pro programátory je důležitá především dnes již zcela zavedená a široce podporovaná technologie SSE, což je zkratka znamenající Streaming SIMD Extension. Na SSE se můžeme dívat buď jako na zcela nové rozšíření instrukční sady o SIMD instrukce, nebo jako na určité propojení předností obou předchozích technologií, tj. jak MMX (relativně velký počet prvků uložených ve vektorech, ovšem podpora pouze pro celočíselné operace nad prvky vektorů), tak i 3DNow! (práce s reálnými čísly, ovšem uloženými pouze v dvouprvkových vektorech, z čehož vyplývají menší možnosti paralelizace výpočtů). V případě SSE je navíc umožněna souběžná práce jednotky MMX či FPU, čehož bylo možné využít pro různé specifické optimalizace (ovšem zdaleka ne vždy). Ve specifikaci SSE jsou popsány jak významy všech nových instrukcí, tak i různé režimy využívané při aritmetických operacích. Specifikace taktéž říká, jaké pracovní registry se u nových instrukcí používají.

2. Registry používané v rozšíření SSE

Nejprve se zaměřme na registry využívané v technologii SSE. U mikroprocesorů implementujících instrukční sadu SSE je využita nová sada registrů pojmenovaných XMM0 až XMM7. Na 64bitové platformě (původně architektura AMD 64, dnes pochopitelně podporováno i Intelem) navíc došlo k přidání dalších osmi registrů se jmény XMM8 až XMM15 využitelných pouze v 64bitovém režimu. Všechny nové registry mají šířku 128 bitů, tj. jsou dvakrát širší, než registry používané v MMX i 3DNow! a čtyřikrát širší, než běžné pracovní registry na platformě x86 (nyní se bavíme o dnes již překonaném 32bitovém režimu).

Do každého registru XMM* je možné uložit čtveřici reálných numerických hodnot reprezentovaných v systému plovoucí řádové tečky podle normy IEEE 754, přičemž tato norma je dodržována přesněji, než v případě 3DNow! (různé zaokrouhlovací režimy či práce s denormalizovanými čísly sice mohou vypadat trošku jako černá magie, ovšem například v knihovnách pro numerické výpočty, které musí vždy za specifikovaných okolností dát stejný výsledek, se jedná o velmi důležitou vlastnost). K osmi či šestnácti novým registrům XMM* byl ještě přidán jeden 32bitový registr nazvaný MXCSR, jenž byl určený pro nastavení (řízení) režimů výpočtu.

Obrázek 1: Sada nových pracovních registrů přidaných v rámci rozšíření instrukční sady SSE.

Poznámka: tyto registry jsou plně podporovány jak assemblerem NASM, tak i GNU Debuggerem, takže nebudeme mít problémy s jejich používáním.

3. Registry dostupné v čipech s architekturou 80×86 (32bitová platforma)

Díky zavedení rozšíření instrukční sady SSE do praxe začali mít programátoři vytvářející aplikace na tehdy 32bitové platformě 80×86, jejíž začátek se datuje od dnes již spíše historického mikroprocesoru Intel 80386, k dispozici nejenom 64bitové registry (jednotka MMX), ale nyní už dokonce i registry 128bitové, což je zajisté užitečné. Přitom i přes zavedení rozšířených instrukčních sad MMX/3DNow!/SSE stále zůstávala zachována binární zpětná i dopředná kompatibilita s předchozími typy mikroprocesorů (nejedná se tedy o takovou změnu, jako v případě přechodu 16->32->64 bitů, která se týkala celé ALU). Zde je myšlena především možnost běhu starších aplikací na novějších mikroprocesorech, protože program přeložený s podporou SSE nebude na procesoru bez této technologie pracovat korektně, i když by pravděpodobně bylo možné SSE emulovat s využitím podprogramů spouštěných při zavolání neplatného operačního kódu (tj. operačního kódu SSE instrukce, která je samozřejmě pro ne-SSE procesor neznámým kódem).

Pro zajímavost se nyní podívejme, jak se společně se zavedením instrukční sady SSE prakticky zdvojnásobila celková kapacita všech využitelných pracovních registrů na 32bitové platformě x86 (na 64bitové x86_64 je situace odlišná, SSE je dnes její nedílnou součástí). V následující tabulce jsou kromě univerzálních pracovních registrů, indexových registrů a bázových registrů vypsány i registry se speciálním významem:

#	Typ registrů	Počet registrů	Bitová šířka registru	Příklady
1	Univerzální registry	4	32 bitů	EAX, EBX, ECX, EDX
2	Indexové registry	3	32 bitů	ESI, EDI, EIP
3	Bázové registry	2	32 bitů	EBP, ESP
4	Segmentové registry	6	16 bitů	CS, DS, ES, FS, GS, SS
5	Příznakový registr	1	32 bitů	EFLAGS (původně 16bitový FLAGS)
6	Registry pro ladění	8	32 bitů	DR0..DR7
7	Řídicí registry	4	32 bitů	CR0, CR2, CR3, CR4
8	Další spec. registry	12?	32 bitů	TR1…TR12
9	Registry MMX/3DNow!	8	64 bitů	shodné s FPU registry st(x), resp. se spodními 64 bity st(x)
10	Pracovní registry SSE	8	128 bitů	XMM0 .. XMM7
11	Řídicí registr SSE	1	32 bitů	MXCSR

Obrázek 2: Zjednodušený programátorský model architektury x86 v 32bitovém režimu.

Poznámka: povšimněte si, jak velký „prostor“ nové XMM registry obsadily v porovnání s původní sadou registrů.

4. Nové instrukce přidané v technologii SSE

V rámci technologie SSE byla instrukční sada x86 (a později x86–64) rozšířena o několik typů instrukcí, které většinou pracovaly s již výše zmíněnými registry XMM*, popř. taktéž s operační pamětí nebo s obecnými celočíselnými 32bitovými registry procesorů x86, tj. například s registrem EAX. Všechny nové instrukce je možné rozdělit do několika kategorií:

#	Kategorie	Příklad instrukce
1	Přenosy dat	MOVUPS, MOVAPS, MOVHPS, MOVLPS…
2	Aritmetické operace	ADDPS, SUBPS, MULPS, DIVPS, RCPPS…
3	Porovnání	CMPEQSS, CMPEQPS, CMPLTSS, CMPNLTSS, …
4	Logické operace	ANDPS, ANDNPS, ORPS, XORPS
5	Přenosy mezi prvky vektorů (shuffle) a konverze	SHUFPS, UNPCKHPS, UNPCKLPS
6	Načtení dat do cache	PREFETCH0, …

Obrázek 3: Některé instrukce zavedené v rámci SSE pracují pouze s dvojicí skalárních hodnot.

5. Skalární a vektorové operace

Zajímavá je podpora jak skalárních operací, tak i operací vektorových (přesněji řečeno SIMD) v instrukční sadě SSE. Příkladem může být například skalární instrukce součtu ADDSS (SS=single scalar), která může mít dvojí podobu:

ADDSS xmm1, xmm2     ; instrukce pracující s dvojicí registrů SSE
ADDSS xmm1, mem32    ; instrukce pracující s registrem SSE a paměťovým místem (32 bitů)

Naproti tomu „vektorová“ podoba instrukce součtu ADDPS (PS=parallel scalar) pracuje se čtyřprvkovými vektory a zajímavé je, že operační kód této instrukce je o jeden prefixový bajt kratší, než je tomu u dříve zmíněné instrukce ADDSS. Když se nad tímto detailem zamyslíme, zjistíme, že to dává smysl, protože častěji používané vektorové instrukce zaberou v operační paměti menší objem, je větší pravděpodobnost jejich načtení z cache atd.):

ADDPS xmm1, xmm2     ; instrukce pracující s dvojicí registrů SSE
ADDPS xmm1, mem128   ; instrukce pracující s registrem SSE a paměťovým místem (128 bitů)

Taktéž stojí za zdůraznění fakt, že se v instrukční sadě SSE nenachází žádné instrukce, v jejichž operačním kódu by se nacházela konstanta. Ta musí být vždy uložena v operační paměti nebo přenesena z obecných registrů (což do jisté míry připomíná klasické RISCové procesory).

Obrázek 4: Vektorové operace podporované instrukční sadou SSE.

6. Aritmetické operace

Nejdůležitější skupinou instrukcí, které byly do instrukčního souboru 80×86 přidány v rámci SSE, jsou instrukce určené pro provádění aritmetických výpočtů. Tyto instrukce, které jsou vypsány v následující tabulce, pracují buď s dvojicí skalárních hodnot typu float/single umístěných v nejnižších 32 bitech 128bitového registru (tyto instrukce typicky ignorují vyšších 96 bitů), nebo naopak s dvojicí vektorů, z nichž každý obsahuje čtyři 32bitové hodnoty opět typu float/single:

#	Instrukce se skalárními operandy	Instrukce pracující s vektory	Význam instrukce
1	ADDSS	ADDPS	součet
2	SUBSS	SUBPS	rozdíl
3	MULSS	MULPS	součin
4	DIVSS	DIVPS	podíl
5	RCPSS	RCPPS	převrácená hodnota (aproximace)
6	SQRTSS	SQRTPS	druhá odmocnina
7	RSQRTSS	RSQRTPS	převrácená hodnota z druhé odmocniny (aproximace)
8	MAXSS	MAXPS	výpočet maxima
9	MINSS	MINPS	výpočet minima

Poznámka: výpočty převrácených hodnot vrací aproximované výsledky s relativní chybou, která nepřesahuje ±1,5×2^-12. Tyto výsledky se odlišují v závislosti na použitém mikroprocesoru. Jedná se tedy o „odhady“, ale poměrně přesné.

Obrázek 5: Formát 32bitových slov obsahujících hodnoty s plovoucí řádovou čárkou podle IEEE 754 (single/float).

7. Instrukce pro přenosy dat

Zatímco u rozšíření instrukční sady MMX se pro přenosy dat používala dvojice instrukcí MOVD a MOVQ, je tomu v případě SSE jinak. K dispozici je větší množství instrukcí, z nichž některé očekávají, že data budou v paměti (z níž se provádí čtení či zápis) zarovnána a další instrukce naopak akceptují i nezarovnaná data. Instrukce ze druhé skupiny budou pochopitelně obecně pomalejší, protože přenos nezarovnaných dat může znamenat dvojí přenos po interní sběrnici. Podívejme se nyní na seznam těchto instrukcí; s některými z nich se setkáme v demonstračních příkladech:

#	Instrukce	Význam instrukce
1	MOVSS	načtení či přenos skalární 32bitové hodnoty (vyšších 96 bitů se nepoužije)
2	MOVAPS	načtení či zápis 128bitové hodnoty do paměti, která musí být zarovnaná
3	MOVUPS	načtení či zápis 128bitové hodnoty do oblasti paměti, která nemusí být zarovnaná
4	MOVLPS	načtení či zápis dvojice 32bitových hodnot (single, nižší dva prvky vektoru) z paměti do vektoru
5	MOVHPS	načtení či zápis dvojice 32bitových hodnot (single, vyšší dva prvky vektoru) z paměti či vektoru
6	MOVLHPS	přenos dvojice 32bitových hodnot (single) z dolních dvou prvků vektoru do horních prvků jiného vektoru
7	MOVHLPS	přenos dvojice 32bitových hodnot (single) z horních dvou prvků vektoru do dolních prvků jiného vektoru
8	MOVMSKPS	získání znaménka všech čtyř prvků vektoru s jejich přenosem do vybraného obecného pracovního registru

8. Praktická část

Ve druhé části dnešního článku si ukážeme způsob volání vybraných SSE instrukcí v assembleru. Všechny dále uvedené demonstrační příklady jsou upraveny do podoby přeložitelné a spustitelné v Linuxu (DOS je již u těchto moderních architektur poněkud problematický), a to jak v 32bitové, tak i v 64 bitové variantě (vždy se překládá a linkuje 32bitová varianta). Vzhledem k tomu, že se bude pracovat se 128bitovými registry (vektory), bylo nutné vytvořit pomocné makro pro tisk takových vektorů v hexadecimální podobě. Toto makro akceptuje libovolný XMM registr:

; makro pro vypis obsahu SSE vektoru
%macro print_sse_reg_as_hex 1
        mov  ebx, sse_tmp           ; adresa bufferu
        movups [ebx], %1            ; ulozeni do pameti (16 bajtu)
        mov  eax, [ebx+12]          ; nacteni casti SSE vektoru do celociselneho registru
        print_hex eax, ' '          ; zobrazeni obsahu tohoto registru v hexadecimalnim tvaru
        mov  eax, [ebx+8]           ; nacteni casti SSE vektoru do celociselneho registru
        print_hex eax, ' '          ; zobrazeni obsahu tohoto registru v hexadecimalnim tvaru
        mov  eax, [ebx+4]           ; nacteni casti SSE vektoru do celociselneho registru
        print_hex eax, ' '          ; zobrazeni obsahu tohoto registru v hexadecimalnim tvaru
        mov  eax, [ebx]             ; nacteni casti SSE vektoru do celociselneho registru
        print_hex eax, 0x0a         ; zobrazeni obsahu tohoto registru v hexadecimalnim tvaru
%endmacro

Jak je z deklarace makra print_sse_reg_as_hex patrné, volá se z něho další makro pro tisk 32bitové hodnoty (tedy vlastně jednoho prvku XMM registru):

; makro pro tisk 32bitove hexadecimalni hodnoty
; na standardni vystup
%macro print_hex 2
        push ebx                    ; uschovat EBX pro dalsi pouziti
        mov     edx, %1             ; zapamatovat si hodnotu pro tisk
        mov     ebx, hex_message    ; buffer, ktery se zaplni hexa cislicemi
        mov     byte [ebx+8], %2    ; oddelovac, konec radku, atd.
        call    hex2string          ; zavolani prislusne subrutiny
        print_string   hex_message, hex_message_length    ; tisk hexadecimalni hodnoty
        pop ebx                     ; obnovit EBX
%endmacro

9. Detekce podpory SSE mikroprocesorem

Společně s přidáváním dalších rozšiřujících instrukčních sad pro platformu 80×86 se objevila nutnost zjištění, zda daný mikroprocesor nějakou instrukční sadu podporuje či nikoli. Pro tento účel se používá instrukce CPUID, s níž jsme se již v tomto seriálu setkali. Tuto instrukci použijeme pro získání informací kategorie 0 a 1. O kterou kategorii se má jednat zadáme v registru EAX před zavoláním CPUID:

; kategorie 0
xor eax, eax
cpuid
...
...
...
; kategorie 1
mov eax, 1                   ; prvni kategorie
cpuid
...
...
...

Pro kategorii 0 se ve trojici registrů EBX, EDX a ECX (v tomto pořadí) vrátí dvanáctiznakový řetězec s identifikací mikroprocesoru. Současně se v registru EAX vrátí číslo nejvyšší dostupné kategorie.

Z pohledu SSE je důležitá první kategorie. V registru EDX se vrátí bitová pole, z nichž lze vyčíst, která instrukční sada je podporována a která nikoli. Konkrétně podpora MMX je uložena v bitu číslo 23 a podpora SSE v bitu číslo 25 (bity se číslují od nuly). Následuje příklad použití CPUID pro rozeskoky na základě (ne)podpory MMX a SSE:

        mov eax, 1                   ; prvni kategorie
        cpuid                        ; naplneni EDX a ECX
        bt edx, 23                   ; test bitu cislo 23: podpora MMX
        jnc mmx_not_supported
        ...
        ...
        ...
mmx_not_supported:
        ...
        ...
        ...

        mov eax, 1                   ; prvni kategorie
        cpuid                        ; naplneni EDX a ECX
        bt edx, 25                   ; test bitu cislo 25: podpora SSE
        jnc sse_not_supported
        ...
        ...
        ...
sse_not_supported:
        ...
        ...
        ...

10. První demonstrační příklad: zjištění, zda mikroprocesor podporuje instrukce SSE

V dnešním prvním demonstračním příkladu si ověříme, jestli mikroprocesor skutečně podporuje instrukce SSE (a navíc i instrukce MMX). Použijeme k tomu postup popsaný v předchozí kapitole, tj. analýzu bitových polí vracených instrukcí CPUID. Nejdříve se podívejme na zdrojový kód příkladu a posléze si ukážeme výsledky pro konkrétní mikroprocesor:

[bits 32]
 
%include "linux_macros.asm"
 
;-----------------------------------------------------------------------------
section .data
 
hex_message:
         times 8 db '?'
         db ' '
         hex_message_length equ $ - hex_message
 
mmx_supported:
         db 10, "MMX supported"
         mmx_supported_length equ $ - mmx_supported
 
sse_supported:
         db 10, "SSE supported"
         sse_supported_length equ $ - sse_supported
 
;-----------------------------------------------------------------------------
section .bss
 
id_string: resb 8
 
 
;-----------------------------------------------------------------------------
section .text
        global _start                ; tento symbol ma byt dostupny i linkeru
 
_start:
        ; ziskani indexu nejvyssi volatelne funkce CPUID
        xor eax, eax                 ; nulta kategorie
        cpuid
        mov     edx, eax             ; hodnota, ktera se ma vytisknout
        mov     ebx, hex_message     ; buffer, ktery se zaplni hexa cislicemi
        call    hex2string           ; zavolani prislusne subrutiny
        print_string   hex_message, hex_message_length    ; tisk hexadecimalni hodnoty
 
        ; test podpory SSE
        mov eax, 1                   ; prvni kategorie
        cpuid
        mov     ebx, hex_message     ; buffer, ktery se zaplni hexa cislicemi
        call    hex2string           ; zavolani prislusne subrutiny
        print_string   hex_message, hex_message_length    ; tisk hexadecimalni hodnoty
 
        ; vypis CPU ID
        xor eax, eax                 ; nulta kategorie
        cpuid
        mov [id_string], ebx         ; prvni ctyri znaky ID
        mov [id_string+4], edx       ; dalsi ctyri znaky ID
        mov [id_string+8], ecx       ; posledni ctyri znaky ID
        print_string id_string, 12   ; tisk 12 znaku CPU ID
 
        mov eax, 1                   ; prvni kategorie
        cpuid                        ; naplneni EDX a ECX
        bt edx, 23                   ; test bitu cislo 23: podpora MMX
        jnc mmx_not_supported
        print_string  mmx_supported, mmx_supported_length
mmx_not_supported:
 
        mov eax, 1                   ; prvni kategorie
        cpuid                        ; naplneni EDX a ECX
        bt edx, 25                   ; test bitu cislo 25: podpora SSE
        jnc sse_not_supported
        print_string  sse_supported, sse_supported_length
sse_not_supported:
 
        exit                         ; ukonceni procesu
 
 
%include "hex2string.asm"

V mém konkrétním případě (Intel Core i7–1270P) se po překladu a spuštění tohoto příkladu vypíšou následující řádky:

00000020 BFEBFBFF GenuineIntel
MMX supported
SSE supported

Na prvním řádku je hexadecimálně zobrazen nejvyšší index volatelné funkce CPU ID (0×20), dále bitové pole s první kategorií podporovaných vlastností a poté již obsah registrů EBX, EDX a ECX s dvanáctiznakovou identifikací výrobce a (zhruba) modelu. Na řádku druhém a třetím se pak již zobrazí informace o tom, zda jsou podporovány rozšíření instrukční sady MMX a SSE.

11. Načtení vektoru do XMM registru z nezarovnané paměťové oblasti instrukcí MOVUPS

V dnešním druhém demonstračním příkladu je ukázána SSE instrukce se jménem MOVUPS. Jak naznačují první tři znaky názvu, jedná se o instrukci určenou pro přenos dat, zde konkrétně pro přenosy mezi dvojicí registrů XMM* nebo mezi zvoleným registrem XMM* a blokem v operační paměti (o velikosti 128 bitů neboli 16 bajtů). Další znak v názvu instrukce U znamená Unaligned – paměťový blok, z něhož se čte vektor či do kterého se vektor zapisuje, nemusí být v operační paměti zarovnaný. A poslední dva znaky PS již známe – Packed Single (Precision), tj. operace se provádí s celým vektorem.

V příkladu do registru XMM0 načteme tyto čtyři hodnoty:

sse_val dd 0.0, 1.0, -1.0, 2.0

Ty se následně vypíšou na standardní výstup v hexadecimálním formátu:

40000000 BF800000 3F800000 00000000

Neboli po převodu na FP hodnoty:

2.0 -1.0  1.0  0.0

Celý zdrojový kód tohoto příkladu vypadá následovně:

[bits 32]
 
%include "linux_macros.asm"
 
;-----------------------------------------------------------------------------
section .data
 
hex_message:
         times 8 db '?'
         db ' '
         hex_message_length equ $ - hex_message
 
sse_val dd 0.0, 1.0, -1.0, 2.0
 
;-----------------------------------------------------------------------------
section .bss
sse_tmp resb 16
 
  
;-----------------------------------------------------------------------------
section .text
        global _start                ; tento symbol ma byt dostupny i linkeru
 
_start:
        mov ebx, sse_val
        movups xmm0, [ebx]           ; nacteni hodnoty do registru XMM0
        print_sse_reg_as_hex xmm0    ; tisk hodnoty registru XMM0
 
        exit                         ; ukonceni procesu
 
 
%include "hex2string.asm"

12. Načtení vektoru do XMM registru z nezarovnané paměťové oblasti instrukcí MOVAPS

Kromě instrukce MOVUPS, která dokáže vektor načíst z libovolného paměťového bloku (nemusí být zarovnaný) se v instrukční sadě SSE nachází i instrukce nazvaná MOVAPS, která vyžaduje, aby byl blok zarovnaný, a to nezávisle na tom, zda se jedná o operaci čtení nebo zápisu. V případě, že se pokusíme o použití této instrukce a blok zarovnaný nebude, dojde k běhové výjimce, kterou (většinou) dokáže zachytit operační systém, jenž typicky proces ukončí a popř. i vytvoří core dump. Chování na Linuxu si můžeme snadno otestovat, protože náš blok sse_val zarovnaný není – v datové sekci se před ním totiž nachází blok hex_message, jehož délka je devět bajtů:

hex_message:
         times 8 db '?'
         db ' '
         hex_message_length equ $ - hex_message
 
sse_val dd 0.0, 1.0, -1.0, 2.0

Úplný zdrojový kód takto upraveného příkladu vypadá následovně:

[bits 32]
 
%include "linux_macros.asm"
 
;-----------------------------------------------------------------------------
section .data
 
hex_message:
         times 8 db '?'
         db ' '
         hex_message_length equ $ - hex_message
 
sse_val dd 0.0, 1.0, -1.0, 2.0
 
;-----------------------------------------------------------------------------
section .bss
sse_tmp resb 16
 
 
;-----------------------------------------------------------------------------
section .text
        global _start                ; tento symbol ma byt dostupny i linkeru
 
_start:
        mov ebx, sse_val
        movaps xmm0, [ebx]           ; nacteni hodnoty do registru XMM0
        print_sse_reg_as_hex xmm0    ; tisk hodnoty registru XMM0
 
        exit                         ; ukonceni procesu
 
 
%include "hex2string.asm"

V případě, že tento demonstrační příklad přeložíme a spustíme, dojde ke vzniku výjimky, ukončení procesu a vytvoření core dumpu (pokud není jeho vytvoření zakázáno přes ulimit):

$ ./sse_value_unaligned_2
 
Segmentation fault (core dumped)

Pro povolení vytváření core dumpů by mělo postačovat spuštění tohoto příkazu:

$ ulimit -c unlimited

13. Získání podrobnějších informací o příčině pádu procesu

Seznam core dumpů lze (na systémech se systemd) získat příkazem:

$ coredumpctl list

Z výpisu je patrné, že jsem předchozí příklad spouště vícekrát:

TIME                           PID   UID   GID SIG     COREFILE EXE                                  SIZE
Wed 2025-02-19 18:48:59 CET 499329 14282 14282 SIGSEGV present  /home/ptisnovs/sse_value             6.5K
Wed 2025-02-19 18:51:23 CET 499653 14282 14282 SIGSEGV present  /home/ptisnovs/sse_value             6.5K
Wed 2025-02-19 18:53:26 CET 499787 14282 14282 SIGSEGV present  /home/ptisnovs/sse_value_unaligned_2 6.6K
Wed 2025-02-19 18:54:07 CET 499948 14282 14282 SIGSEGV present  /home/ptisnovs/sse_value_unaligned_2 6.6K
Wed 2025-02-19 18:55:40 CET 500556 14282 14282 SIGSEGV present  /home/ptisnovs/sse_value_unaligned_2 6.6K
Wed 2025-02-19 18:57:59 CET 500757 14282 14282 SIGSEGV present  /home/ptisnovs/sse_value_unaligned_2 6.6K

Můžeme si nechat zobrazit podrobnější informace o vybraném core dumpu – je to zvláštní, ale jeho identifikátorem je PID:

$ coredumpctl info 500757

Výsledek by mohl vypadat následovně:

           PID: 500757 (sse_value_unali)
           UID: 14282 (ptisnovs)
           GID: 14282 (ptisnovs)
        Signal: 11 (SEGV)
     Timestamp: Wed 2025-02-19 18:57:59 CET (4min 19s ago)
  Command Line: ./sse_value_unaligned_2
    Executable: /home/ptisnovs/xy/xxx/sse_value_unaligned_2
 Control Group: /user.slice/user-14282.slice/user@14282.service/app.slice/app-org.gnome.Terminal.slice/vte-spawn-76ac4aa1-6823-479d-82c1-2553a53bd681.scope
          Unit: user@14282.service
     User Unit: vte-spawn-76ac4aa1-6823-479d-82c1-2553a53bd681.scope
         Slice: user-14282.slice
     Owner UID: 14282 (ptisnovs)
       Boot ID: 5edbb3ff9cd14db3b983cb64d6ad9d9b
    Machine ID: 01f6e898e75043f2a8d966441ec92880
      Hostname: ptisnovs-thinkpadt14gen3.brq.csb
       Storage: /var/lib/systemd/coredump/core.sse_value_unali.14282.5edbb3ff9cd14db3b983cb64d6ad9d9b.500757.1739987879000000.zst (present)
  Size on Disk: 6.6K
       Message: Process 500757 (sse_value_unali) of user 14282 dumped core.

                Module /home/ptisnovs/xy/xxx/sse_value_unaligned_2 without build-id.
                Stack trace of thread 500757:
                #0  0x0000000008049007 n/a (/home/ptisnovs/xy/xxx/sse_value_unaligned_2 + 0x1007)
                ELF object binary architecture: Intel 80386

Core dump si můžeme nechat vyexportovat do nového souboru:

$ coredumpctl dump 500757 > core.dump

Ovšem můžeme si přímo nechat spustit debugger nad core dumpem, a to následujícím příkazem:

$ coredumpctl debug 500757

V debuggeru (GDB) použijeme příkaz disassemble, který zobrazí okolí problematického kódu:

Dump of assembler code for function _start:
   0x08049000 <+0>:       emms
   0x08049002 <+2>:       mov    $0x804a009,%ebx
=> 0x08049007 <+7>:    movaps (%ebx),%xmm0
   0x0804900a <+10>:      mov    $0x804a01c,%ebx
   0x0804900f <+15>:      movups %xmm0,(%ebx)
   0x08049012 <+18>:      mov    0xc(%ebx),%eax
   0x08049015 <+21>:      push   %ebx
   0x08049016 <+22>:      mov    %eax,%edx
   0x08049018 <+24>:      mov    $0x804a000,%ebx
   0x0804901d <+29>:      movb   $0x20,0x8(%ebx)
   0x08049021 <+33>:      call   0x80490c9 <hex2string>

V případě, že preferujete formát firmy Intel, stačí zadat příkazy:

(gdb) set disassembly-flavor intel
(gdb) disassemble

Výsledek by měl být čitelnější:

Dump of assembler code for function _start:
   0x08049000 <+0>:     emms
   0x08049002 <+2>:     mov    ebx,0x804a009
=> 0x08049007 <+7>:     movaps xmm0,XMMWORD PTR [ebx]
   0x0804900a <+10>:    mov    ebx,0x804a01c
   0x0804900f <+15>:    movups XMMWORD PTR [ebx],xmm0
   0x08049012 <+18>:    mov    eax,DWORD PTR [ebx+0xc]
   0x08049015 <+21>:    push   ebx
   0x08049016 <+22>:    mov    edx,eax
   0x08049018 <+24>:    mov    ebx,0x804a000
   0x0804901d <+29>:    mov    BYTE PTR [ebx+0x8],0x20
   0x08049021 <+33>:    call   0x80490c9 <hex2string>
   0x08049026 <+38>:    mov    eax,0x4
   0x0804902b <+43>:    mov    ebx,0x1
   0x08049030 <+48>:    mov    ecx,0x804a000
   0x08049035 <+53>:    mov    edx,0x9
   0x0804903a <+58>:    int    0x80
   0x0804903c <+60>:    pop    ebx
   0x0804903d <+61>:    mov    eax,DWORD PTR [ebx+0x8]
   0x08049040 <+64>:    push   ebx
   0x08049041 <+65>:    mov    edx,eax
   0x08049043 <+67>:    mov    ebx,0x804a000
   0x08049048 <+72>:    mov    BYTE PTR [ebx+0x8],0x20
   0x0804904c <+76>:    call   0x80490c9 <hex2string>

Povšimněte si, že do registru EBX je uložena hodnota 0×804a009, která evidentně není zarovnaná (končí lichým číslem), takže nebude větším překvapením, že navazující instrukce MOVAPS způsobí běhovou výjimku.

14. Načtení vektoru do XMM registru ze zarovnané paměťové oblasti instrukcí MOVAPS

Nyní provedeme v ukázkovém příkladu z dvanácté kapitoly jednu malou, ale důležitou změnu. Pomocí direktivy assembleru NASM totiž zarovnáme data uložená od návěští sse_val tak, aby adresa byla dělitelná šestnácti. Assembler to provede takovým způsobem, že před vlastní data vloží 0 až 15 výplňových bajtů, což sice zvětší velikost souboru i spotřebu paměti, ale data budou zarovnána:

align 16
sse_val dd 0.0, 1.0, -1.0, 2.0

Nyní již bude možné použít instrukci MOVAPS (přečtení vektoru ze zarovnané oblasti paměti), aniž by došlo k pádu procesu:

mov ebx, sse_val
movaps xmm0, [ebx]           ; nacteni hodnoty do registru XMM0

Výsledný kód ukázkového příkladu vypadá následovně:

[bits 32]
 
%include "linux_macros.asm"
 
;-----------------------------------------------------------------------------
section .data
 
hex_message:
         times 8 db '?'
         db ' '
         hex_message_length equ $ - hex_message
 
align 16
sse_val dd 0.0, 1.0, -1.0, 2.0
 
;-----------------------------------------------------------------------------
section .bss
sse_tmp resb 16
 
  
;-----------------------------------------------------------------------------
section .text
        global _start                ; tento symbol ma byt dostupny i linkeru
 
_start:
        mov ebx, sse_val
        movaps xmm0, [ebx]           ; nacteni hodnoty do registru XMM0
        print_sse_reg_as_hex xmm0    ; tisk hodnoty registru XMM0
 
        exit                         ; ukonceni procesu
 
 
%include "hex2string.asm"

Výsledky získané po jeho překladu a spuštění:

40000000 BF800000 3F800000 00000000

15. Skalární součet instrukcí ADDSS

Vyzkoušejme si nyní, jakým způsobem jsou provedeny vybrané aritmetické operace jednotkou SSE. Začneme instrukcí ADDSS, přičemž poslední dvě S v názvu této instrukce znamenají single scalar. Tato instrukce sečte nejnižších 32 bitů obou 128bitových registrů a přitom se pochopitelně počítá s tím, že zde uložené hodnoty budou typu single. Vyšších 96 bitů registrů se nebude žádným způsobem měnit.

[bits 32]
 
%include "linux_macros.asm"
 
;-----------------------------------------------------------------------------
section .data
 
hex_message:
         times 8 db '?'
         db ' '
         hex_message_length equ $ - hex_message
 
align 16
sse_val_1 dd 0.0, 1.0, -1.0, 2.0
sse_val_2 dd 1.0, 1.0, 1.0, 1.0
 
;-----------------------------------------------------------------------------
section .bss
sse_tmp resb 16
 
 
;-----------------------------------------------------------------------------
section .text
        global _start                ; tento symbol ma byt dostupny i linkeru
 
_start:
        mov ebx, sse_val_1
        movaps xmm0, [ebx]           ; nacteni prvni hodnoty do registru XMM0
        print_sse_reg_as_hex xmm0    ; tisk hodnoty registru XMM0
 
        mov ebx, sse_val_2
        movaps xmm1, [ebx]           ; nacteni druhe hodnoty do registru XMM1
        print_sse_reg_as_hex xmm1    ; tisk hodnoty registru XMM1
 
        addss xmm0, xmm1             ; soucet vektoru
        print_sse_reg_as_hex xmm0    ; tisk hodnoty registru XMM0
        exit                         ; ukonceni procesu
 
 
%include "hex2string.asm"

Výsledky získané po spuštění tohoto příkladu:

XMM0:   40000000 BF800000 3F800000 00000000
XMM1:   3F800000 3F800000 3F800000 3F800000
součet: 40000000 BF800000 3F800000 3F800000

Což si můžeme transformovat do FP hodnot:

XMM0:   2.0 -1.0  1.0  0.0
XMM1:   1.0  1.0  1.0  1.0
součet: 2.0 -1.0  1.0  1.0
změna:                 ^^^

16. Vektorový součet instrukcí ADDPS

Naproti tomu v případě, že namísto instrukce ADDSS zavoláme instrukci ADDPS, provede se vektorový součet dvou registrů, z nichž každý obsahuje čtveřici hodnot typu single. Opět si ověřme chování této instrukce:

[bits 32]
 
%include "linux_macros.asm"
 
;-----------------------------------------------------------------------------
section .data
 
hex_message:
         times 8 db '?'
         db ' '
         hex_message_length equ $ - hex_message
 
align 16
sse_val_1 dd 0.0, 1.0, -1.0, 2.0
sse_val_2 dd 1.0, 1.0, 1.0, 1.0
 
;-----------------------------------------------------------------------------
section .bss
sse_tmp resb 16
 
 
;-----------------------------------------------------------------------------
section .text
        global _start                ; tento symbol ma byt dostupny i linkeru
 
_start:
        mov ebx, sse_val_1
        movaps xmm0, [ebx]           ; nacteni prvni hodnoty do registru XMM0
        print_sse_reg_as_hex xmm0    ; tisk hodnoty registru XMM0
 
        mov ebx, sse_val_2
        movaps xmm1, [ebx]           ; nacteni druhe hodnoty do registru XMM1
        print_sse_reg_as_hex xmm1    ; tisk hodnoty registru XMM1
 
        addps xmm0, xmm1             ; soucet vektoru
        print_sse_reg_as_hex xmm0    ; tisk hodnoty registru XMM0
        exit                         ; ukonceni procesu
 
 
%include "hex2string.asm"

Výsledky:

XMM0:   40000000 BF800000 3F800000 00000000
XMM1:   3F800000 3F800000 3F800000 3F800000
součet: 40400000 00000000 40000000 3F800000

Po převodu na FP hodnoty:

XMM0:   2.0 -1.0  1.0  0.0
XMM1:   1.0  1.0  1.0  1.0
součet: 3.0  0.0  2.0  1.0

17. Formát instrukcí SSE

Dnešní poslední demonstrační příklad bude velmi krátký a současně nebude spustitelný. Budeme v něm pouze zkoumat, jakým způsobem jsou vlastně SSE instrukce přeloženy do strojového kódu. Prozatím známe jen několik instrukcí, ty však mohou mít různé operandy. Všechny tyto instrukce si necháme přeložit s vygenerováním takzvaného listingu přepínačem -l:

[bits 32]
 
;-----------------------------------------------------------------------------
section .text
        movups xmm0, [ebx]           ; nacteni hodnoty do registru XMM0
        movaps xmm0, [ebx]           ; nacteni hodnoty do registru XMM0
        movups xmm0, xmm1            ; prenosy mezi registry
        addps xmm0, xmm1             ; skalarni soucet
        addss xmm0, xmm1             ; soucet vektoru

V listingu jsou u všech instrukcí vypsány i jejich operační kódy a bajty navazující na operační kódy. Povšimněte si, že vektorové SSE instrukce začínají prefixem 0×0F, zatímco skalární SSE instrukce mají dva prefixy 0×F3 a 0×0F (jinak se instrukce ADDPS a ADDSS neliší – pouze prefixem). Všechny instrukce jsou zakódovány do krátkých sekvencí bajtů (3 nebo 4), protože v SSE jsou do značné míry omezeny možnosti adresování:

     5 00000000 0F1003                          movups xmm0, [ebx]           ; nacteni hodnoty do registru XMM0
     6 00000003 0F2803                          movaps xmm0, [ebx]           ; nacteni hodnoty do registru XMM0
     7 00000006 0F10C1                          movups xmm0, xmm1            ; prenosy mezi registry
     8 00000009 0F58C1                          addps xmm0, xmm1             ; skalarni soucet
     9 0000000C F30F58C1                        addss xmm0, xmm1             ; soucet vektoru

18. Seznam všech popsaných instrukcí SSE

Prozatím jsme si sice popsali pouze čtyři SSE instrukce, ovšem na druhou stranu byly představeny základní koncepty, na nichž je SSE postavena, a to včetně na první pohled možná poněkud zvláštního požadavku vybraných instrukcí typu LOAD a STORE na přístup do zarovnané paměti. Ve skutečnosti je tento požadavek celkem logický, i když se na platformě 80×86 jednalo o novinku:

#	Instrukce	Stručný popis instrukce
1	MOVUPS	načtení či zápis 128bitové hodnoty do oblasti paměti, která nemusí být zarovnaná
2	MOVAPS	načtení či zápis 128bitové hodnoty do paměti, která musí být zarovnaná
3	ADDSS	součet dolních 32bitů 128bitového vektoru; tyto bity jsou chápány jako hodnota single
4	ADDPS	součet čtveřice 32bitových hodnot typu signle uložených ve 128bitových vektorech

19. Repositář s demonstračními příklady

Demonstrační příklady napsané v assembleru, které jsou určené pro překlad s využitím assembleru NASM, byly uloženy do Git repositáře, který je dostupný na adrese https://github.com/tisnik/8bit-fame. Jednotlivé demonstrační příklady si můžete v případě potřeby stáhnout i jednotlivě bez nutnosti klonovat celý (dnes již poměrně rozsáhlý) repositář:

#	Příklad	Stručný popis	Adresa
1	hello.asm	program typu „Hello world“ naprogramovaný v assembleru pro systém DOS	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/hello.asm
2	hello_shorter.asm	kratší varianta výskoku z procesu zpět do DOSu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/hello_shorter.asm
3	hello_wait.asm	čekání na stisk klávesy	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/hello_wait.asm
4	hello_macros.asm	realizace jednotlivých částí programu makrem	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/hello_macros.asm

5	gfx₄_putpixel.asm	vykreslení pixelu v grafickém režimu 4	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₄_putpixel.asm
6	gfx₆_putpixel.asm	vykreslení pixelu v grafickém režimu 6	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₆_putpixel.asm
7	gfx₄_line.asm	vykreslení úsečky v grafickém režimu 4	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₄_line.asm
8	gfx₆_line.asm	vykreslení úsečky v grafickém režimu 6	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₆_line.asm

9	gfx₆_fill₁.asm	vyplnění obrazovky v grafickém režimu, základní varianta	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₆_fill₁.asm
10	gfx₆_fill₂.asm	vyplnění obrazovky v grafickém režimu, varianta s instrukcí LOOP	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₆_fill₂.asm
11	gfx₆_fill₃.asm	vyplnění obrazovky instrukcí REP STOSB	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₆_fill₃.asm
12	gfx₆_fill₄.asm	vyplnění obrazovky, synchronizace vykreslování s paprskem	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₆_fill₄.asm

13	gfx₄_image₁.asm	vykreslení rastrového obrázku získaného z binárních dat, základní varianta	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₄_image₁.asm
14	gfx₄_image₂.asm	varianta vykreslení rastrového obrázku s využitím instrukce REP MOVSB	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₄_image₂.asm
15	gfx₄_image₃.asm	varianta vykreslení rastrového obrázku s využitím instrukce REP MOVSW	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₄_image₃.asm
16	gfx₄_image₄.asm	korektní vykreslení všech sudých řádků bitmapy	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₄_image₄.asm
17	gfx₄_image₅.asm	korektní vykreslení všech sudých i lichých řádků bitmapy	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₄_image₅.asm

18	gfx₄_image₆.asm	nastavení barvové palety před vykreslením obrázku	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₄_image₆.asm
19	gfx₄_image₇.asm	nastavení barvové palety před vykreslením obrázku, snížená intenzita barev	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₄_image₇.asm
20	gfx₄_image₈.asm	postupná změna barvy pozadí	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₄_image₈.asm

21	gfx₆_putpixel₁.asm	vykreslení pixelu, základní varianta se 16bitovým násobením	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₆_putpixel₁.asm
22	gfx₆_putpixel₂.asm	vykreslení pixelu, varianta s osmibitovým násobením	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₆_putpixel₂.asm
23	gfx₆_putpixel₃.asm	vykreslení pixelu, varianta bez násobení	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₆_putpixel₃.asm
24	gfx₆_putpixel₄.asm	vykreslení pixelu přes obrázek, nekorektní chování (přepis obrázku)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₆_putpixel₄.asm
25	gfx₆_putpixel₅.asm	vykreslení pixelu přes obrázek, korektní varianta pro bílé pixely	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/gfx₆_putpixel₅.asm

26	cga_text_mode₁.asm	standardní textový režim s rozlišením 40×25 znaků	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/cga_text_mode₁.asm
27	cga_text_mode₃.asm	standardní textový režim s rozlišením 80×25 znaků	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/cga_text_mode₃.asm
28	cga_text_mode_intensity.asm	změna významu nejvyššího bitu atributového bajtu: vyšší intenzita namísto blikání	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/cga_text_mode_intensity.asm
29	cga_text_mode_cursor.asm	změna tvaru textového kurzoru	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/cga_text_mode_cursor.asm
30	cga_text_gfx₁.asm	zobrazení „rastrové mřížky“: pseudografický režim 160×25 pixelů (interně textový režim)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/cga_text_gfx₁.asm
31	cga_text_mode_char_height.asm	změna výšky znaků	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/cga_text_mode_char_height.asm
32	cga_text_160×100.asm	grafický režim 160×100 se šestnácti barvami (interně upravený textový režim)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/cga_text_160×100.asm

33	hercules_text_mode₁.asm	využití standardního textového režimu společně s kartou Hercules	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/hercules_text_mode₁.asm
34	hercules_text_mode₂.asm	zákaz blikání v textových režimech	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/hercules_text_mode₂.asm
35	hercules_turn_off.asm	vypnutí generování video signálu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/hercules_turn_off.asm
36	hercules_gfx_mode₁.asm	přepnutí karty Hercules do grafického režimu (základní varianta)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/hercules_gfx_mode₁.asm
37	hercules_gfx_mode₂.asm	přepnutí karty Hercules do grafického režimu (vylepšená varianta)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/hercules_gfx_mode₂.asm
38	hercules_putpixel.asm	subrutina pro vykreslení jediného pixelu na kartě Hercules	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/hercules_putpixel.asm

39	ega_text_mode_80×25.asm	standardní textový režim 80×25 znaků na kartě EGA	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ega_text_mode_80×25.asm
40	ega_text_mode_80×43.asm	zobrazení 43 textových řádků na kartě EGA	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ega_text_mode_80×43.asm
41	ega_gfx_mode_320×200.asm	přepnutí do grafického režimu 320×200 pixelů se šestnácti barvami	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ega_gfx_mode_320×200.asm
42	ega_gfx_mode_640×200.asm	přepnutí do grafického režimu 640×200 pixelů se šestnácti barvami	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ega_gfx_mode_640×200.asm
43	ega_gfx_mode_640×350.asm	přepnutí do grafického režimu 640×350 pixelů se čtyřmi nebo šestnácti barvami	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ega_gfx_mode_640×350.asm
44	ega_gfx_mode_bitplanes₁.asm	ovládání zápisu do bitových rovin v planárních grafických režimech (základní způsob)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ega_gfx_mode_bitplanes₁.asm
45	ega_gfx_mode_bitplanes₂.asm	ovládání zápisu do bitových rovin v planárních grafických režimech (rychlejší způsob)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ega_gfx_mode_bitplanes₂.asm

46	ega_320×200_putpixel.asm	vykreslení pixelu v grafickém režimu 320×200 pixelů se šestnácti barvami	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ega_320×200_putpixel.asm
47	ega_640×350_putpixel.asm	vykreslení pixelu v grafickém režimu 640×350 pixelů se šestnácti barvami	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ega_640×350_putpixel.asm

48	ega_standard_font.asm	použití standardního fontu grafické karty EGA	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ega_standard_font.asm
49	ega_custom_font.asm	načtení vlastního fontu s jeho zobrazením	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ega_custom_font.asm

50	ega_palette₁.asm	změna barvové palety (všech 16 barev) v grafickém režimu 320×200 se šestnácti barvami	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ega_palette₁.asm
51	ega_palette₂.asm	změna barvové palety (všech 16 barev) v grafickém režimu 640×350 se šestnácti barvami	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ega_palette₂.asm
52	ega_palette₃.asm	změna všech barev v barvové paletě s využitím programové smyčky	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ega_palette₃.asm
53	ega_palette₄.asm	změna všech barev, včetně barvy okraje, v barvové paletě voláním funkce BIOSu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ega_palette₄.asm

54	vga_text_mode_80×25.asm	standardní textový režim 80×25 znaků na kartě VGA	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_text_mode_80×25.asm
55	vga_text_mode_80×50.asm	zobrazení 50 a taktéž 28 textových řádků na kartě VGA	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_text_mode_80×50.asm
56	vga_text_mode_intensity₁.asm	změna chování atributového bitu pro blikání (nebezpečná varianta změny registrů)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_text_mode_intensity₁.asm
57	vga_text_mode_intensity₂.asm	změna chování atributového bitu pro blikání (bezpečnější varianta změny registrů)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_text_mode_intensity₂.asm
58	vga_text_mode_9th_column.asm	modifikace způsobu zobrazení devátého sloupce ve znakových režimech (720 pixelů na řádku)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_text_mode_9th_column.asm
59	vga_text_mode_cursor_shape.asm	změna tvaru textového kurzoru na grafické kartě VGA	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_text_mode_cursor_shape.asm
60	vga_text_mode_custom_font.asm	načtení vlastního fontu s jeho zobrazením	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_text_mode_custom_font.asm

61	vga_gfx_mode_640×480.asm	přepnutí do grafického režimu 640×480 pixelů se šestnácti barvami, vykreslení vzorků	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_gfx_mode_640×480.asm
62	vga_gfx_mode_320×200.asm	přepnutí do grafického režimu 320×200 pixelů s 256 barvami, vykreslení vzorků	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_gfx_mode_320×200.asm
63	vga_gfx_mode_palette.asm	změna všech barev v barvové paletě grafické karty VGA	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_gfx_mode_palette.asm
64	vga_gfx_mode_dac₁.asm	využití DAC (neočekávané výsledky)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_gfx_mode_dac₁.asm
65	vga_gfx_mode_dac₂.asm	využití DAC (očekávané výsledky)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_gfx_mode_dac₂.asm

66	vga_640×480_putpixel.asm	realizace algoritmu pro vykreslení pixelu v grafickém režimu 640×480 pixelů se šestnácti barvami	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_640×480_putpixel.asm
67	vga_320×200_putpixel₁.asm	realizace algoritmu pro vykreslení pixelu v grafickém režimu 320×200 s 256 barvami (základní varianta)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_putpixel₁.asm
68	vga_320×200_putpixel₂.asm	realizace algoritmu pro vykreslení pixelu v grafickém režimu 320×200 s 256 barvami (rychlejší varianta)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_putpixel₂.asm

69	vga_gfx_mode_dac₃.asm	přímé využití DAC v grafickém režimu 13h	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_gfx_mode_dac₃.asm

70	vga_gfx_mode_unchained_step₁.asm	zobrazení barevných pruhů v režimu 13h	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_gfx_mode_unchained_step₁.asm
71	vga_gfx_mode_unchained_step₂.asm	vypnutí zřetězení bitových rovin a změna způsobu adresování pixelů	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_gfx_mode_unchained_step₂.asm
72	vga_gfx_mode_unchained_step₃.asm	vykreslení barevných pruhů do vybraných bitových rovin	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_gfx_mode_unchained_step₃.asm

73	vga_gfx_mode_320×400.asm	nestandardní grafický režim s rozlišením 320×400 pixelů a 256 barvami	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_gfx_mode_320×400.asm
74	vga_320×200_image.asm	zobrazení rastrového obrázku ve standardním grafickém režimu 320×200 pixelů	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_image.asm
75	vga_320×200_unchained_image₁.asm	zobrazení rastrového obrázku v režimu s nezřetězenými rovinami (nekorektní řešení)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_unchained_image₁.asm
76	vga_320×200_unchained_image₂.asm	zobrazení rastrového obrázku v režimu s nezřetězenými rovinami (korektní řešení)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_unchained_image₂.asm
77	vga_320×400_unchained_image.asm	zobrazení rastrového obrázku v nestandardním režimu 320×400 pixelů	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×400_unchained_image.asm

78	vga_vertical_scroll₁.asm	vertikální scrolling na kartě VGA v režimu s rozlišením 320×200 pixelů	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_vertical_scroll₁.asm
79	vga_vertical_scroll₂.asm	vertikální scrolling na kartě VGA v režimu s rozlišením 320×400 pixelů	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_vertical_scroll₂.asm
80	vga_split_screen₁.asm	režim split-screen a scrolling, nefunční varianta	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_split_screen₁.asm
81	vga_split_screen₂.asm	režim split-screen a scrolling, plně funkční varianta	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_split_screen₂.asm
82	vga_horizontal_scroll₁.asm	horizontální scrolling bez rozšíření počtu pixelů na virtuálním řádku	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_horizontal_scroll₁.asm
83	vga_horizontal_scroll₂.asm	horizontální scrolling s rozšířením počtu pixelů na virtuálním řádku	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_horizontal_scroll₂.asm
84	vga_horizontal_scroll₃.asm	jemný horizontální scrolling s rozšířením počtu pixelů na virtuálním řádku	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_horizontal_scroll₃.asm

85	vga_320×240_image.asm	nastavení grafického režimu Mode-X, načtení a vykreslení obrázku, scrolling	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×240_image.asm

86	io.asm	knihovna maker pro I/O operace	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/io.asm
87	vga_lib.asm	knihovna maker a podprogramů pro programování karty VGA	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_lib.asm
88	vga_320×240_lib.asm	nastavení grafického režimu Mode-X, tentokrát knihovními funkcemi	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×240_lib.asm

89	vga_bitblt₁.asm	první (naivní) implementace operace BitBLT	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_bitblt₁.asm
90	vga_bitblt₂.asm	operace BitBLT s výběrem bitových rovin pro zápis	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_bitblt₂.asm
91	vga_bitblt₃.asm	operace BitBLT s výběrem bitových rovin pro čtení i zápis	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_bitblt₃.asm
92	vga_bitblt₄.asm	korektní BitBLT pro 16barevný režim, realizace makry	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_bitblt₄.asm
93	vga_bitblt₅.asm	korektní BitBLT pro 16barevný režim, realizace podprogramem	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_bitblt₅.asm

94	vga_bitblt_rotate.asm	zápisový režim s rotací bajtu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_bitblt_rotate.asm
95	vga_bitblt_fast.asm	rychlá korektní 32bitová operace typu BitBLT	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_bitblt_fast.asm
96	vga_320×400_bitblt₁.asm	přenos obrázku v režimu 320×400 operací BitBLT (neúplná varianta)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×400_bitblt₁.asm
97	vga_320×400_bitblt₂.asm	přenos obrázku v režimu 320×400 operací BitBLT (úplná varianta)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×400_bitblt₂.asm
98	vga_write_modes₁.asm	volitelné zápisové režimy grafické karty VGA, zápis bez úpravy latche	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_write_modes₁.asm
99	vga_write_modes₂.asm	volitelné zápisové režimy grafické karty VGA, zápis s modifikací latche	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_write_modes₂.asm
100	vga_write_modes₃.asm	volitelné zápisové režimy grafické karty VGA, cílená modifikace latche vzorkem	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_write_modes₃.asm

101	instruction_jump.asm	použití instrukce JMP	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_jump.asm
102	instruction_jnz.asm	použití instrukce JNZ pro realizaci programové smyčky	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_jnz.asm
103	instruction_jz_jmp.asm	použití instrukcí JZ a JMP pro realizaci programové smyčky	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_jz_jmp.asm
104	instruction_loop.asm	použití instrukce LOOP pro realizaci programové smyčky	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_loop.asm

105	instruction_template.asm	šablona všech následujících demonstračních příkladů	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_template.asm
106	instruction_print_hex.asm	tisk osmibitové hexadecimální hodnoty	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_print_hex.asm
107	instruction_xlat.asm	využití instrukce XLAT pro získání tisknutelné hexadecimální cifry	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_xlat.asm

108	instruction_daa.asm	operace součtu s využitím binární i BCD aritmetiky	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_daa.asm
109	instruction_daa_sub.asm	instrukce DAA po provedení operace rozdílu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_daa_sub.asm
110	instruction_das.asm	instrukce DAS po provedení operace rozdílu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_das.asm
111	instruction_aaa.asm	korekce výsledku na jedinou BCD cifru operací AAA	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_aaa.asm
112	instruction_mul.asm	ukázka výpočtu součinu dvou osmibitových hodnot	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_mul.asm
113	instruction_aam.asm	BCD korekce po výpočtu součinu instrukcí AAM	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_aam.asm

114	instruction_stosb.asm	blokový zápis dat instrukcí STOSB	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_stosb.asm
115	instruction_rep_stosb.asm	opakované provádění instrukce STOSB	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_rep_stosb.asm
116	instruction_lodsb.asm	čtení dat instrukcí LODSB	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_lodsb.asm
117	instruction_movsb.asm	přenos jednoho bajtu instrukcí MOVSB	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_movsb.asm
118	instruction_rep_movsb.asm	blokový přenos po bajtech instrukcí MOVSB	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_rep_movsb.asm
119	instruction_rep_scas.asm	vyhledávání v řetězci instrukcí SCAS	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_rep_scas.asm

120	vga_320×200_image_0B.asm	výsledek blokového přenosu ve chvíli, kdy je CX=0	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_image_0B.asm
121	vga_320×200_image_64kB.asm	výsledek blokového přenosu ve chvíli, kdy je CX=0×ffff	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_image_64kB.asm
122	vga_320×200_image_movsb.asm	blokový přenos v rámci obrazové paměti instrukcí REP MOVSB	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_image_movsb.asm
123	vga_320×200_image_movsw.asm	blokový přenos v rámci obrazové paměti instrukcí REP MOVSW	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_image_movsw.asm
124	vga_320×200_image_movsd.asm	blokový přenos v rámci obrazové paměti instrukcí REP MOVSD	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_image_movsd.asm
125	vga_320×200_image_movsb_forward.asm	blokový přenos překrývajících se bloků paměti (zvyšující se adresy)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_image_movsb_forward.asm
126	vga_320×200_image_movsb_backward₁.asm	blokový přenos překrývajících se bloků paměti (snižující se adresy, nekorektní nastavení)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_image_movsb_backward₁.asm
127	vga_320×200_image_movsb_backward₂.asm	blokový přenos překrývajících se bloků paměti (snižující se adresy, korektní nastavení)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_image_movsb_backward₂.asm

128	sound_bell.asm	přehrání zvuku pomocí tisku ASCII znaku BELL	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_bell.asm
129	sound_beep.asm	přehrání zvuku o zadané frekvenci na PC Speakeru	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_beep.asm
130	sound_play_pitch.asm	přehrání zvuku o zadané frekvenci na PC Speakeru, použití maker	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_play_pitch.asm

131	sound_opl2_basic.asm	přehrání komorního A na OPL2	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_opl2_basic.asm
132	sound_opl2_table.asm	přehrání komorního A na OPL2, použití tabulky s hodnotami registrů	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_opl2_table.asm

133	sound_opl2_table₂.asm	přepis tabulky s obsahy registrů pro přehrání komorního A	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_opl2_table₂.asm
134	sound_key_on.asm	přímé ovládání bitu KEY ON mezerníkem	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_key_on.asm
135	sound_adsr.asm	nastavení obálky pro tón přehrávaný prvním kanálem	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_adsr.asm
136	sound_modulation.asm	řízení frekvence modulátoru klávesami 1 a 0	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_modulation.asm

137	keyboard_basic.asm	přímá práce s klávesnicí IBM PC	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/keyboard_basic.asm

138	sound_stereo_opl2.asm	stereo zvuk v konfiguraci DualOPL2	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_stereo_opl2.asm
139	sound_opl2_multichannel.asm	vícekanálový zvuk na OPL2 (klávesy), delší varianta	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_opl2_multichannel.asm
140	sound_opl2_multichannel₂.asm	vícekanálový zvuk na OPL2 (klávesy), kratší varianta	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_opl2_multichannel₂.asm
141	sound_opl3_stereo₁.asm	stereo výstup na OPL3 (v kompatibilním režimu)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_opl3_stereo₁.asm
142	sound_opl3_stereo₂.asm	stereo výstup na OPL3 (v režimu OPL3)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_opl3_stereo₂.asm
143	sound_opl3_multichannel.asm	vícekanálový zvuk na OPL3 (klávesy)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_opl3_multichannel.asm

144	sound_opl3_waveform₁.asm	interaktivní modifikace tvaru vlny u prvního operátoru	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_opl3_waveform₁.asm
145	sound_opl3_waveform₂.asm	oprava chyby: povolení režimu kompatibilního s OPL3	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_opl3_waveform₂.asm
146	sound_opl3_waveform₃.asm	vliv tvaru vln na zvukový kanál s FM syntézou	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_opl3_waveform₃.asm
147	sound_opl3_waveform₄.asm	modifikace tvaru vlny nosné vlny i modulátoru	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_opl3_waveform₄.asm
148	sound_opl3_4operators₁.asm	výběr AM/FM režimu ve čtyřoperátorovém nastavení	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_opl3_4operators₁.asm
149	sound_opl3_4operators₂.asm	výběr AM/FM režimu ve čtyřoperátorovém nastavení	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/sound_opl3_4operators₂.asm

150	timer_basic.asm	základní obsluha přerušení od časovače/čítače	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/timer_basic.asm
151	timer_restore.asm	obnovení původní obsluhy přerušení při ukončování aplikace	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/timer_restore.asm
152	timer_restore_better_structure.asm	refaktoring předchozího demonstračního příkladu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/timer_restore_better_structure.asm
153	timer_faster_clock.asm	zrychlení čítače na 100 přerušení za sekundu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/timer_faster_clock.asm

154	instruction_push_imm.asm	instrukce PUSH s konstantou	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_push_imm.asm
155	instruction_imul_imm.asm	instrukce IMUL s konstantou	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_imul_imm.asm
156	instruction_into₁.asm	instrukce INTO s obsluhou přerušení	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_into₁.asm
157	instruction_into₂.asm	instrukce INTO s obsluhou přerušení	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_into₂.asm
158	instruction_bound₁.asm	instrukce BOUND s obsluhou přerušení (nekorektní řešení)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_bound₁.asm
159	instruction_bound₂.asm	instrukce BOUND s obsluhou přerušení (korektní řešení)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_bound₂.asm
160	vga_320×200_putpixel₂₈₆.asm	instrukce bitového posunu s konstantou větší než 1	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_putpixel₂₈₆.asm
161	instruction_push_pop.asm	instrukce PUSH a POP se všemi pracovními registry	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_push_pop.asm

162	instruction_push_pop_B.asm	instrukce s novými segmentovými registry	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_push_pop_B.asm
163	instruction_near_jz_jmp.asm	blízké skoky	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_near_jz_jmp.asm
164	instruction_bsf.asm	nová instrukce BSF	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_bsf.asm
165	instruction_bsr.asm	nová instrukce BSR	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_bsr.asm
166	instruction_add_32bit.asm	32bitový součet	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_add_32bit.asm
167	instruction_inc_32bit.asm	32bitová instrukce INC v šestnáctibitovém režimu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_inc_32bit.asm
168	instruction_inc_32bit_B.asm	32bitová instrukce INC v 32bitovém režimu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/instruction_inc_32bit_B.asm

169	ems_status.asm	zjištění stavu (emulace) paměti EMS	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ems_status.asm
170	ems_total_mem.asm	získání celkové kapacity paměti EMS v blocích	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ems_total_mem.asm
171	ems_free_mem.asm	získání volné kapacity paměti EMS v blocích	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/ems_free_mem.asm
172	xms_free_mem.asm	získání volné kapacity paměti XMS v blocích	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/xms_free_mem.asm

173	vga_320×200_short_address₁.asm	blokový přenos provedený v rámci prostoru segmentu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_short_address₁.asm
174	vga_320×200_short_address₂.asm	rozepsaný blokový přenos provedený v rámci prostoru segmentu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_short_address₂.asm
175	vga_320×200_short_address₃.asm	přenos nelze provést přes hranici offsetu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_short_address₃.asm
176	vga_320×200_short_address₄.asm	přenos nelze provést přes hranici offsetu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_short_address₄.asm
177	vga_320×200_long_address₁.asm	32bitový blokový přenos	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_long_address₁.asm
178	vga_320×200_long_address₂.asm	rozepsaný 32bitový blokový přenos provedený v rámci prostoru segmentu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_long_address₂.asm
179	vga_320×200_long_address₃.asm	přístup do obrazové paměti přes segment 0×0000 a 32bitový offset	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_long_address₃.asm
180	vga_320×200_long_address₄.asm	otestování, jak lze přenášet data s využitím 32bitového offsetu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/vga_320×200_long_address₄.asm

181	print_msw.asm	přečtení a zobrazení obsahu speciálního registru MSW	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/print_msw.asm
182	print_cr0.asm	přečtení a zobrazení obsahu speciálního registru CR0	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/print_cr0.asm
183	prot_mode₂₈₆.asm	přechod do chráněného režimu na čipech Intel 80286	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/prot_mode₂₈₆.asm
184	prot_mode₃₈₆.asm	přechod do chráněného režimu na čipech Intel 80386	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/prot_mode₃₈₆.asm
185	prot_mode_back_to_real_mode₂₈₆.asm	přechod mezi reálným režimem a chráněným režimem i zpět na čipech Intel 80286	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/prot_mode_back_to_real_mode₂₈₆.asm
186	prot_mode_back_to_real_mode₃₈₆.asm	přechod mezi reálným režimem a chráněným režimem i zpět na čipech Intel 80386	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/prot_mode_back_to_real_mode₃₈₆.asm
187	prot_mode_check.asm	test, zda se mikroprocesor již nachází v chráněném režimu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/prot_mode_check.asm
188	unreal_mode.asm	nastavení nereálného režimu (platné pro Intel 80386)	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/unreal_mode.asm

189	float32_constants.asm	vytištění základních FP konstant typu single	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/float32_constants.asm
190	float64_constants.asm	vytištění základních FP konstant typu double	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/float64_constants.asm
191	fpu_arithmetic.asm	základní aritmetické operace prováděné matematickým koprocesorem	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/fpu_arithmetic.asm
192	fpu_divide_by_zero.asm	dělení nulou matematickým koprocesorem	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/fpu_divide_by_zero.asm
193	fpu_divide_by_neg_zero.asm	dělení záporné hodnoty nulou matematickým koprocesorem	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/fpu_divide_by_neg_zero.asm
194	fpu_divide_by_neg_zero₂.asm	dělení hodnoty zápornou nulou matematickým koprocesorem	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/fpu_divide_by_neg_zero₂.asm
195	fpu_divide_zero_by_zero.asm	výpočet 0/0 matematickým koprocesorem	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/fpu_divide_zero_by_zero.asm

196	io.asm	pomocná makra pro komunikaci s DOSem a BIOSem	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/io.asm
197	print.asm	pomocná makra pro tisk FPU hodnot typu single a double v hexadecimálním tvaru	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/print.asm

198	fpu_divide.asm	operace podílu	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/fpu_divide.asm
199	fpu_divide_r.asm	operace podílu s prohozenými operandy	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/fpu_divide_r.asm
200	fpu_sqrt.asm	výpočet druhé odmocniny	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/fpu_sqrt.asm
201	fpu_sqrt_neg_value.asm	výpočet druhé odmocniny ze záporné hodnoty	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/fpu_sqrt_neg_value.asm
202	fpu_check.asm	detekce typu matematického koprocesoru	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/fpu_check.asm
203	fpu_compare.asm	porovnání dvou hodnot s vyhodnocením výsledku	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/fpu_compare.asm
204	fpu_status_word.asm	tisk obsahu stavového slova koprocesoru	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/fpu_status_word.asm
205	fpu_status_word_stack.asm	tisk obsahu stavového slova koprocesoru	https://github.com/tisnik/8bit-fame/blob/master/pc-dos/fpu_status_word_stack.asm

206	Makefile		https://github.com/tisnik/8bit-fame/blob/master/pc-linux/Makefile
207	hex2string.asm	subrutina pro převod 32bitové hexadecimální hodnoty na řetězec	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/hex2string.asm
208	linux_macros.asm	pomocná makra pro tvorbu aplikací psaných v assembleru pro Linux	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/linux_macros.asm
209	mmx_init.asm	inicializace subsystému MMX	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_init.asm
210	mmx_paddb₁.asm	zavolání MMX instrukce pro součet vektorů bajtů (bez přetečení)	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_paddb₁.asm
211	mmx_paddb₂.asm	zavolání MMX instrukce pro součet vektorů bajtů (s přetečením)	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_paddb₂.asm
212	mmx_paddusb.asm	zavolání MMX instrukce pro součet vektorů bajtů se saturací	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_paddusb.asm
213	mmx_paddw.asm	zavolání MMX instrukce pro součet vektorů šestnáctibitových slov	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_paddw.asm
214	mmx_paddd.asm	zavolání MMX instrukce pro součet vektorů 32bitových slov	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_paddd.asm
215	mmx_paddq.asm	zavolání MMX instrukce pro součet 64bitových slov	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_paddq.asm
216	mmx_paddx.asm	porovnání operací součtu pro vektory s prvky různých typů	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_paddx.asm
217	mmx_support.asm	zjištění, zda je MMX podporována	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_support.asm

218	mmx_paddx_saturation.asm	součet osmiprvkových a čtyřprvkových vektorů se saturací	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_paddx_saturation.asm
219	mmx_psubx.asm	rozdíl vektorů s různým počtem a šířkou prvků	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_psubx.asm
220	mmx_pmullw₁.asm	součin vektorů prvek po prvku se získáním spodních 16 bitů výsledků (varianta bez přetečení)	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_pmullw₁.asm
221	mmx_pmullw₂.asm	součin vektorů prvek po prvku se získáním spodních 16 bitů výsledků (varianta s přetečením)	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_pmullw₂.asm
222	mmx_pmulhw.asm	součin vektorů prvek po prvku se získáním horních 16 bitů výsledků (varianta s přetečením)	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_pmulhw.asm
223	mmx_pmaddwd.asm	součin vektorů prvek po prvku, součet mezivýsledků	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_pmaddwd.asm
224	mmx_logical.asm	logické instrukce MMX	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_logical.asm

225	mmx_shift_left.asm	logické posuny prvků vektorů doleva	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_shift_left.asm
226	mmx_shift_right.asm	logické posuny prvků vektorů doprava	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_shift_right.asm
227	mmx_arithmetic_right.asm	aritmetické posuny prvků vektorů doprava	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_arithmetic_right.asm
228	mmx_cmpeq.asm	porovnání prvků vektorů na rovnost	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_cmpeq.asm
229	mmx_cmpgt.asm	porovnání prvků vektorů na relaci „větší než“	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_cmpgt.asm
230	mmx_unpack_bytes.asm	rozbalení bajtů z vektorů	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_unpack_bytes.asm
231	mmx_unpack_words.asm	rozbalení slov z vektorů	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_unpack_words.asm
232	mmx_unpack_dwords.asm	rozbalení dvojslov z vektorů	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_unpack_dwords.asm
233	mmx_pack_into_bytes₁.asm	zabalení vektorů slov do vektoru bajtů	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_pack_into_bytes₁.asm
234	mmx_pack_into_bytes₂.asm	řešení přetečení při zabalování vektorů	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/mmx_pack_into_bytes₂.asm

235	sse_support.asm	detekce, zda mikroprocesor podporuje instrukce SSE	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/sse_support.asm
236	sse_instr_formats.asm	instrukční formát SSE	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/sse_instr_formats.asm
237	sse_value_unaligned₁.asm	načtení konstanty do XMM registru (nezarovnaná adresa)	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/sse_value_unaligned₁.asm
238	sse_value_unaligned₂.asm	načtení konstanty do XMM registru (nezarovnaná adresa, ovšem vyžadováno je zarovnání)	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/sse_value_unaligned₂.asm
239	sse_value_aligned.asm	načtení konstanty do XMM registru (zarovnaná adresa)	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/sse_value_aligned.asm
240	sse_addss.asm	skalární součet instrukcí ADDSS	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/sse_addss.asm
241	sse_addps.asm	vektorový součet instrukcí ADDPS	https://github.com/tisnik/8bit-fame/blob/master/pc-linux/sse_addps.asm