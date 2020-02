11. Výsledky benchmarků

12. Použití „řetězcových“ operací typu REP STOS

13. Opět výsledky benchmarků

14. Plyn až na podlahu: instrukce MOVDQU a VMOVNTDQ

15. Použití knihovny go-memset

16. Zázrak se ovšem nekoná neboli opět benchmarky

17. Malá odbočka na závěr – změna barvy pixelů vysokoúrovňovým kódem

18. Poslední výsledky benchmarků a shrnutí na závěr

19. Repositář s demonstračními příklady

20. Odkazy na Internetu

1. Programovací jazyk Go a assembler (3.část)

Na předchozí články, v nichž jsme si popsali některé vlastnosti poněkud specifického assembleru dodávaného společně se základními nástroji Go, dnes navážeme. Ukážeme si totiž, jak lze urychlit některé základní manipulace s rastrovými obrázky. Z dále popsaných demonstračních příkladů bude patrné, že použití assembleru skutečně může vést k mnohdy velmi výraznému urychlení některých operací, pochopitelně ovšem za cenu zkomplikování a zpomalení vývoje. Je tomu tak z toho důvodu, že překladač programovacího jazyka Go nedokáže (alespoň v jeho současné verzi) aplikovat některé optimalizace a současně samotný jazyk Go v mnoha případech nenabízí vhodnou sémantiku pro popis některých operací (resp. přesněji řečeno to někdy možné je, ovšem za předpokladu použití balíčku unsafe a podobných spíše nízkoúrovňových a potenciálně nebezpečných postupů).

Poznámka: nutno poznamenat, že je dosti nepravděpodobné, že by překladač jazyka Go v dohledné době prováděl některé časově náročné optimalizace (ty jsou mnohdy založeny na trasování spuštěného kódu). Jde to proti filozofii, které se Go drží, tj. snažit se, aby se Go, což je překládaný jazyk, používalo stejně snadno a rychle, jako jazyky interpretované.

2: prozatím prosím nečekejte od stále ještě úvodního článku pokročilé triky. K těm se dostaneme příště. Poznámka: prozatím prosím nečekejte od stále ještě úvodního článku pokročilé triky. K těm se dostaneme příště.

2. Malá rozcvička: interní reprezentace řezů (slices)

Nejdříve si povězme, jakým způsobem se v programovacím jazyce Go pracuje s takzvanými řezy (slices). S řezy jsme se již pochopitelně seznámili, protože se jedná o významný prvek jazyka Go, bez něhož by nebylo možné elegantně pracovat s kolekcemi s měnitelnou kapacitou a počtem uložených prvků.

Interně se jedná o referenci na automaticky vytvořené pole nebo na pole, které je explicitně „nasalámováno“ operací řezu [od:do]. Každý řez je v operační paměti uložen ve formě trojice hodnot (jde o záznam – struct či record):

Ukazatele (reference) na zvolený prvek pole s daty, ke kterým přes řez přistupujeme. Délky řezu, tj. počtu prvků. Kapacity řezu (do jaké míry může řez narůstat v důsledku přidávání dalších prvků).

Tato interní struktura řezů s sebou přináší několik zajímavých důsledků. Je totiž možné, aby existovalo větší množství řezů ukazujících na obecně různé prvky jediného pole. Pokud nyní změníme prvek v jednom řezu, znamená to, že se vlastně modifikuje obsah původního pole a i ostatní řezy nový prvek uvidí. Co je však užitečnější – s řezy jako s datovým typem se velmi snadno pracuje; řezy mohou být předávány do funkcí, vráceny z funkcí atd.

Podívejme se ovšem na řezy z pohledu programátora, který by řezy používal v assembleru. Řez je i při tomto pohledu stále tvořen trojicí hodnot – ukazatele na první pohled, kapacity a aktuálně využité kapacity řezu (tedy jeho délky). Tyto hodnoty jsou do volané funkce předány jako trojice, protože se řez předává hodnotou, ostatně podobně, jako další datové typy jazyka Go. V případě, že se používá 64bitová platforma (tedy x86–64/AMD64 či AArch64), má ukazatel šířku 64 bitů, kapacita je uložena v 32 bitech a délka taktéž v 32 bitech.

Způsob předání zmíněných tří hodnot si otestujeme na následujícím velmi jednoduchém demonstračním příkladu, v němž je implementována dvojice funkcí, z nichž jedna vrací kapacitu řezu a druhá počet skutečně obsazených prvků. Zdrojový kód tohoto příkladu vypadá následovně:

package main func GetLen(b []byte) int { return len(b) } func GetCap(b []byte) int { return cap(b) } func main() { var x []byte = []byte{1, 2, 3} println(GetLen(x)) println(GetCap(x)) }

3. Předávání řezů v zásobníkovém rámci do volaných funkcí

Zajímat nás nyní bude způsob volání těchto funkcí i princip předávání tří hodnot popisujících řez. Demonstrační příklad tedy přeložíme, ovšem takovým způsobem, aby nedošlo k inliningu volaných funkcí:

$ go build -gcflags '-l' slices.go

Nyní se již můžeme podívat na sekvenci instrukcí, do nichž se přeložily zdrojové kódy funkcí GetLen a GetCap. Pro získání sekvence instrukcí v lidsky čitelné podobě použijeme známý a již popsaný nástroj nazvaný objdump:

$ go tool objdump -S -s GetLen ./slices TEXT main.GetLen(SB) /home/ptisnovs/src/go-root/article_56/slices.go return len(b) 0x452330 488b442410 MOVQ 0x10(SP), AX 0x452335 4889442420 MOVQ AX, 0x20(SP) 0x45233a c3 RET

a:

$ go tool objdump -S -s GetCap ./slices TEXT main.GetCap(SB) /home/ptisnovs/src/go-root/article_56/slices.go return cap(b) 0x452340 488b442418 MOVQ 0x18(SP), AX 0x452345 4889442420 MOVQ AX, 0x20(SP) 0x45234a c3 RET

Z disassemblovaného kódu obou funkcí lze vydedukovat způsob předávání struktury popisující řez:

Ukazatel na první prvek v řezu má šířku 64 bitů a je předán na zásobníkovém rámci na offsetu 8 (osm bajtů zabírá návratová adresa). Aktuálně zapsaný počet prvků řezu má šířku 32 bitů a je předán na zásobníkovém rámci na offsetu 16 (8+8). Využitelná kapacita řezu má šířku taktéž 32 bitů a je předán na zásobníkovém rámci na offsetu 24 (8+8+4+4 align).

Poznámka: znovu zopakujme, že výše uvedené informace platí pro 64bitovou platformu x86–64. Na jiných platformách bude předávání vypadat odlišně (například se nepoužije zásobníkový rámec) nebo bude ukazatel pouze 32bitový.

4. Vyplnění obrázku konstantní barvou

Nyní, když již víme, jak se pracuje s řezy, se můžeme podívat na další demonstrační příklad. Ten slouží k vytvoření plnobarevného rastrového obrázku o rozlišení 256×256 pixelů, který je následně vyplněn bílou neprůhlednou barvou a uložen do externího souboru ve formátu PNG. Připomeňme si, že u plnobarevných obrázků (RGBA) je barva tvořena čtveřicí hodnot red, green, blue a alpha, přičemž u alfa kanálu (alpha) značí 0 plnou průhlednost zatímco 255 úplnou neprůhlednost (ovšem v jiných jazycích a knihovnách je tomu přesně naopak).

Rastrový obrázek se vytvoří konstruktorem:

destinationImage := image.NewRGBA(image.Rect(0, 0, 256, 256))

Ve výchozím stavu má obrázek všechny pixely černé a současně průhledné. Budeme ho tedy muset vyplnit. Využijeme přitom toho faktu, že hodnoty všech pixelů jsou uloženy v kontinuálním řezu typu []byte, tj. k pixelům a jejich barvám je možné přistupovat na dosti nízké úrovni (což je ostatně pro mnoho algoritmů jen dobře). Vyplnění celého obrázku tedy můžeme realizovat následující funkcí:

func fillPixels(pixels []uint8) { for i := 0; i < len(pixels); i++ { pixels[i] = 255 } }

U této funkce se na chvíli zastavme a zjistěme, jestli je skutečně legální takto k pixelům přistupovat. Struktura popisující celobarevný obrázek totiž vypadá následovně:

// RGBA64 is an in-memory image whose At method returns color.RGBA64 values. type RGBA64 struct { // Pix holds the image's pixels, in R, G, B, A order and big-endian format. The pixel at // (x, y) starts at Pix[(y-Rect.Min.Y)*Stride + (x-Rect.Min.X)*8]. Pix []uint8 // Stride is the Pix stride (in bytes) between vertically adjacent pixels. Stride int // Rect is the image's bounds. Rect Rectangle }

Pokud znáte nějaké další (nízkoúrovňové) knihovny pro práci s rastrovými obrázky, například původní SDL verze 1, možná budete předpokládat, že existence atributu Stride znamená, že jednotlivé obrazové řádky nemusí být uloženy ihned za sebou. Jinými slovy – mezi posledním pixelem na jednom řádku a prvním pixelem na následujícím řádku může být nevyužité místo. Ve skutečnosti tomu však v tomto případě není, o čemž se snadno přesvědčíme pohledem do zdrojového kódu samotného balíčku image:

// NewRGBA returns a new RGBA image with the given bounds. func NewRGBA(r Rectangle) *RGBA { w, h := r.Dx(), r.Dy() buf := make([]uint8, 4*w*h) return &RGBA{buf, 4 * w, r} }

Úplný zdrojový kód dnešního druhého demonstračního příkladu vypadá takto:

package main import ( "image" "image/png" "log" "os" ) const DestinationImageFileName = "empty.png" func saveImage(filename string, img image.Image) error { outfile, err := os.Create(filename) if err != nil { return err } defer outfile.Close() png.Encode(outfile, img) return nil } func fillPixels(pixels []uint8) { for i := 0; i < len(pixels); i++ { pixels[i] = 255 } } func main() { destinationImage := image.NewRGBA(image.Rect(0, 0, 256, 256)) fillPixels(destinationImage.Pix) err := saveImage(DestinationImageFileName, destinationImage) if err != nil { log.Fatal(err) } }

Funkci pro vyplnění všech pixelů rastrového obrázku tedy máme naprogramovanou a díky tomu, že je v ní použit (relativně) nízkoúrovňový výstup je možné předpokládat, že bude přeložena poměrně rozumným způsobem. Můžeme si to ostatně ověřit na optimalizované variantě:

TEXT main.fillPixels(SB) /home/ptisnovs/src/go-root/article_56/01_no_op_filter.go for i := 0; i < len(pixels); i++ { 0x4b87b0 488b442410 MOVQ 0x10(SP), AX 0x4b87b5 488b4c2408 MOVQ 0x8(SP), CX 0x4b87ba 31d2 XORL DX, DX 0x4b87bc eb07 JMP 0x4b87c5 pixels[i] = 255 0x4b87be c60411ff MOVB $0xff, 0(CX)(DX*1) for i := 0; i < len(pixels); i++ { 0x4b87c2 48ffc2 INCQ DX 0x4b87c5 4839c2 CMPQ AX, DX 0x4b87c8 7cf4 JL 0x4b87be 0x4b87ca c3 RET

Z předchozího kódu je patrné, že se pixely vyplňují po jednotlivých bajtech, což pravděpodobně nebude nejrychlejší řešení.

Poznámka: zajímavé je, že pokud bychom řez vyplňovali nulami, použil by překladač velmi rychlou variantu, k níž se dostaneme v dalším textu.

5. Benchmark pro funkci vyplňující rastrový obrázek

O tom, jak rychlé či naopak pomalé je vyplňování obrázku realizované v dnešním druhém demonstračním příkladu, se přesvědčíme prakticky, a to konkrétně vytvořením vhodného benchmarku. Podporou benchmarků jsme se prozatím v tomto seriálu nezabývali do větší hloubky, ovšem pro účely dnešního článku postačuje vědět, že se jedná o součást standardního testovacího frameworku programovacího jazyka Go a že v implementaci benchmarku (funkce Run) typicky používáme smyčku prováděnou od 0 do b.N, přičemž ono N je do benchmarku předáváno samotným testovacím frameworkem.

Náš benchmark bude relativně jednoduchý – postupně zkonstruuje obrázky se zvětšujícím se rozlišením a bude měřit, jak dlouho trvá jejich vyplnění konstantní barvou:

package main import ( "fmt" "image" "testing" ) var sizes = []int{32, 128, 256, 512, 1024, 2048} func BenchmarkFillPixels(b *testing.B) { for _, size := range sizes { sizeStr := fmt.Sprintf("%dx%d", size, size) b.Run(sizeStr, func(b *testing.B) { destinationImage := image.NewRGBA(image.Rect(0, 0, size, size)) b.ResetTimer() for i := 0; i < b.N; i++ { fillPixels(destinationImage.Pix) } }) } }

Takto vytvořený benchmark se spustí příkazem:

20:20 $ go test -bench=.

Z výsledků benchmarku je patrné, jak dlouho trvá jedno vyplnění pro obrázek zvolené velikosti i kolik vyplnění bylo za zvolený časový rámec provedeno:

goos: linux goarch: amd64 BenchmarkFillPixels/32x32-8 985530 1194 ns/op BenchmarkFillPixels/128x128-8 57682 20843 ns/op BenchmarkFillPixels/256x256-8 14215 83921 ns/op BenchmarkFillPixels/512x512-8 3368 337089 ns/op BenchmarkFillPixels/1024x1024-8 866 1369216 ns/op BenchmarkFillPixels/2048x2048-8 218 5427221 ns/op PASS ok _/home/ptisnovs/src/go-root/article_56/01_empty_image_go 9.810s

Pro zajímavost ještě spustíme benchmark pro kód, který nebyl optimalizován:

20:22 $ go test -gcflags '-l' -bench=. goos: linux goarch: amd64 BenchmarkFillPixels/32x32-8 493587 2390 ns/op BenchmarkFillPixels/128x128-8 31555 38150 ns/op BenchmarkFillPixels/256x256-8 7726 152297 ns/op BenchmarkFillPixels/512x512-8 1915 609991 ns/op BenchmarkFillPixels/1024x1024-8 482 2444177 ns/op BenchmarkFillPixels/2048x2048-8 120 9837822 ns/op PASS ok _/home/ptisnovs/src/go-root/article_56/01_empty_image_go 9.372s

6. Naivní implementace vyplňování v assembleru

Nyní si již můžeme ukázat použití assembleru. Nejdříve nepatrně upravíme samotný zdrojový kód příkladu, v němž vynecháme tělo funkce fillPixels:

package main import ( "image" "image/png" "log" "os" ) const DestinationImageFileName = "empty.png" func saveImage(filename string, img image.Image) error { outfile, err := os.Create(filename) if err != nil { return err } defer outfile.Close() png.Encode(outfile, img) return nil } func fillPixels(pixels []uint8) func main() { destinationImage := image.NewRGBA(image.Rect(0, 0, 256, 256)) fillPixels(destinationImage.Pix) err := saveImage(DestinationImageFileName, destinationImage) if err != nil { log.Fatal(err) } }

Chybějící tělo funkce bude vytvořeno v assembleru. První varianta je napsána dosti naivním způsobem a je odvozena z kódu, který by generoval samotný překladač programovacího jazyka Go:

TEXT ·fillPixels(SB),7,$0 MOVQ pix_data+0(FP), CX // adresa MOVQ pix_len+8(FP), AX // delka XORL DX, DX // pocitadlo JMP NEXT // reseni problemu len(pixels)==0 LOOP: MOVB $0xff, 0(CX)(DX*1) // zapis bajtu INCQ DX // zvyseni hodnoty pocitadla NEXT: CMPQ DX, AX // porovnani s delkou rezu JL LOOP // pocitadlo mensi? ok, skok RET

Povšimněte si, jak tato funkce pracuje: je v ní použito počitadlo realizované registrem EDX, který se používá i pro adresování pixelu. Dále zde můžeme vidět registr RCX, do něhož se uložila adresa prvního prvku v řezu (rozlišení, který registr se použije, je patrné ze suffixu instrukce). A konečně se do registru RAX uložil počet prvků v řezu, což v našem případě konkrétně znamená počet pixelů vynásobených čtyřmi. V programové smyčce se kontroluje, zda již počitadlo (postupně zvyšované o jedničku) nedosáhlo počtu prvků v řezu. Pokud tomu tak je, je funkce ukončena, jinak je proveden skok na začátek smyčky (JL = Jump if Less than). Navíc je funkce navržena takovým způsobem, že pracuje korektně i za předpokladu, že má obrázek nulovou velikost a tedy že neobsahuje žádné pixely (skok doprostřed smyčky na začátku).

7. Výsledky benchmarků

Relativně krátká funkce naprogramovaná v assembleru s velkou pravděpodobností nebude příliš rychlá, protože k pixelům stále přistupujeme po jednotlivých bajtech (zápis instrukcí MOVB). O tom, jak dobře či špatně jsme na tom v porovnání s původním příkladem, se opět přesvědčíme benchmarkem:

20:23 $ go test -bench=. goos: linux goarch: amd64 pkg: empty_image BenchmarkFillPixels/32x32-8 422341 2420 ns/op BenchmarkFillPixels/128x128-8 31546 38293 ns/op BenchmarkFillPixels/256x256-8 7755 152968 ns/op BenchmarkFillPixels/512x512-8 1930 608001 ns/op BenchmarkFillPixels/1024x1024-8 483 2444272 ns/op BenchmarkFillPixels/2048x2048-8 120 9858778 ns/op PASS ok empty_image 8.292s

Poznámka: dosažené počty operací, resp. naopak jejich rychlosti nás prozatím příliš neohromí, ale pokračujme dále.

8. Reorganizace vnitřní smyčky naprogramované v assembleru

V případě, že budeme předpokládat, že vyplňovat se bude obrázek o nenulové velikosti, je možné programovou smyčku vytvořenou v assembleru přepsat a nepatrně ji tak urychlit. Použijeme zde dosti typickou kombinaci instrukcí DEC+JNZ. Upravená varianta vypadá následovně:

TEXT ·fillPixels(SB),7,$0 MOVQ pix_data+0(FP), CX // adresa MOVQ pix_len+8(FP), AX // delka XORL DX, DX // offset LOOP: MOVB $0xff, 0(CX)(DX*1) // zapis bajtu INCQ DX // zvyseni hodnoty offsetu DECQ AX // zmenseni pocitadla JNZ LOOP // pocitadlo vetsi nez 0? ok, skok RET

Poznámka: stále se jedná o naivně pojaté řešení, které je založeno na optimalizacích provedených na nejnižší úrovni bez přemýšlení o tom, že s pixely lze pracovat i jinak.

9. Výsledky benchmarků

Po spuštění benchmarků je patrné nepatrné urychlení, které ovšem bylo vykoupeno potenciální nebezpečností implementované funkce:

20:24 $ go test -bench=. goos: linux goarch: amd64 pkg: empty_image BenchmarkFillPixels/32x32-8 498303 2380 ns/op BenchmarkFillPixels/128x128-8 31570 38094 ns/op BenchmarkFillPixels/256x256-8 7450 152076 ns/op BenchmarkFillPixels/512x512-8 1927 610624 ns/op BenchmarkFillPixels/1024x1024-8 478 2522056 ns/op BenchmarkFillPixels/2048x2048-8 117 9990900 ns/op PASS ok empty_image 9.467s

10. Vyplňování po čtyřbajtových slovech

Další úprava celé programové smyčky zapsané v assembleru je již mnohem významnější. Použijeme zde zápis celého pixelu nikoli po bajtech, ale po celých čtyřbajtových slovech. Vzhledem k tomu, že každý pixel má ve formátu RGBA šířku právě čtyř bajtů, je výpočet jednoduchý a nemusíme sledovat, kolik pixelů bitmapa obsahuje (zda je počet lichý, sudý, dělitelný čtyřmi atd. atd.). Jedna z možných variant smyčky ve formě, jak ji generují některé překladače (nikoli překladač jazyka Go!) vypadá takto:

TEXT ·fillPixels(SB),7,$0 MOVQ pix_data+0(FP), CX // adresa MOVQ pix_len+8(FP), AX // delka XORL DX, DX // offset MOVD $0xffffffff, BX // zapisovana barva pixelu (RGBA) LOOP: MOVD BX, 0(CX)(DX*1) // zapis bajtu ADDQ $4, DX // zvyseni hodnoty offsetu SUBQ $4, AX // zmenseni pocitadla JNZ LOOP // pocitadlo vetsi nez 0? ok, skok RET

Povšimněte si zejména toho že se provede čtyřikrát méně operací. Počitadlo by bylo možné hned na začátku vydělit čtyřmi (což uděláme v dalším příkladu); taktéž by bylo možné smyčku nepatrně přeorganizovat a použít odlišný přístup ke kontrole, zda se již došlo nakonec celé smyčky (poslední iterace), ovšem výsledný čas běhu funkce zůstává přibližně stejný.

11. Výsledky benchmarků

Na výsledcích benchmarku je jasně patrný výkonnostní rozdíl mezi zápisem do rastrového obrázku po čtyřech bajtech v porovnání se zápisem po bajtech:

20:24 $ go test -bench=. goos: linux goarch: amd64 pkg: empty_image BenchmarkFillPixels/32x32-8 3501494 324 ns/op BenchmarkFillPixels/128x128-8 218844 5479 ns/op BenchmarkFillPixels/256x256-8 52108 23002 ns/op BenchmarkFillPixels/512x512-8 12303 97159 ns/op BenchmarkFillPixels/1024x1024-8 3022 390965 ns/op BenchmarkFillPixels/2048x2048-8 662 1746510 ns/op PASS ok empty_image 8.928s

Dosažené zrychlení (pochopitelně platné pouze pro počítač s i5, na kterém testy běžely) je rovno:

9990900/1746510=5,72

Tento výsledek je zajímavý a možná neočekávaný, protože by se mělo jednat o přibližně čtyřnásobné urychlení. Ukazuje se, že na 64bitové (i 32bitové) platformě může být manipulace s jednotlivými bajty hodně pomalou operací.

Poznámka: toto je nutné mít na paměti i při dalším zpracování polí či řezů bajtů. Jedná se totiž o zcela obvyklé operace, zejména v případě webových serverů s REST API, u nichž se neustále pracuje s řetězci, provádí se deserializace JSONů a další podobné operace.

12. Použití „řetězcových“ operací typu REP STOS

Na platformě x86 i x86–64 jsou již od samého začátku existence této řady mikroprocesorů dostupné „řetězcové“ operace typu MOVS, CMPS, LODS a STOS. Tyto instrukce provádí čtení či zápis do paměťového místa současně se změnou offsetu; jejich typické použití je při kopiích polí, vyplňování bloků paměti atd. Instrukce LODS a STOS navíc pracují s různou šířkou dat – od bajtů přes 16bitová slova až po slova 64bitová (pochopitelně na nových procesorech):

Instrukce Význam v 64bitovém režimu STOSB ulož AL na adresu v registru RDI nebo EDI, zvyš/sniž adresu o 1 STOSW ulož AX na adresu v registru RDI nebo EDI, zvyš/sniž adresu o 2 STOSD ulož EAX na adresu v registru RDI nebo EDI, zvyš/sniž adresu o 4 STOSQ ulož RAX na adresu v registru RDI nebo EDI, zvyš/sniž adresu o 8

Navíc se před tyto instrukce může vložit prefixová instrukce REP, která znamená „opakuj CX-krát“, resp. „opakuj ECX-krát“.

Naši smyčku tedy můžeme přepsat takovým způsobem, že se použije:

REP STOSD

Ovšem v assembleru programovacího jazyka Go se používá jiný způsob zápisu, kdy prefix figuruje jako samostatná instrukce a navíc se namísto STOSD použije STOSL (L=long). Nesmíme zapomenout na nastavení směru zápisu, což zajišťuje instrukce CLD (pokud ji nepoužijete, bude se zapisovat opačným směrem, což povede k pádu programu):

TEXT ·fillPixels(SB),7,$0 MOVQ pix_data+0(FP), DI // adresa MOVQ pix_len+8(FP), CX // delka SHRQ $2, CX // delime ctyrmi - protoze se zapisuji ctyri bajty soucasne MOVD $0xffffffff, AX // zapisovana barva pixelu (RGBA) CLD // smer zapisu REP // opakovani CX-krat STOSL // zapis ctyrbajtoveho slova RET

STOS naleznete například na stránce Poznámka: více informací o instrukcích typunaleznete například na stránce https://www.felixcloutier­.com/x86/stos:stosb:stosw:stos­d:stosq

13. Opět výsledky benchmarků

Na výsledcích benchmarku je nyní patrné, že se prozatím jedná o nejrychlejší variantu smyčky pro vyplnění rastrového obrázku:

20:24 $ go test -bench=. goos: linux goarch: amd64 pkg: empty_image BenchmarkFillPixels/32x32-8 22048845 47.9 ns/op BenchmarkFillPixels/128x128-8 1239043 954 ns/op BenchmarkFillPixels/256x256-8 263758 4494 ns/op BenchmarkFillPixels/512x512-8 58672 20276 ns/op BenchmarkFillPixels/1024x1024-8 14119 85268 ns/op BenchmarkFillPixels/2048x2048-8 1090 1081754 ns/op PASS ok empty_image 9.272s

14. Plyn až na podlahu: instrukce MOVDQU a VMOVNTDQ

Prozatím jsme pracovali „pouze“ se čtyřmi bajty současně, ovšem moderní 64bitové mikroprocesory nabízí i další možnosti, které v co největší míře využívají 64bitovou sběrnici. Jedná se o instrukce MOVDQU, popř. VMOVNTDQ (ta existuje ve více variantách). Podrobnější informace o těchto instrukcích lze nalézt například na stránce https://www.felixcloutier­.com/x86/movdqu:vmovdqu8:vmov­dqu16:vmovdqu32:vmovdqu64, popř. na https://www.felixcloutier­.com/x86/movntdq (další varianta).

Poznámka: instrukce začínající písmenem „V“ pracují s „vektorovými“ registry, tj. jedná se o nějakou formu SIMD operace. Naopak „U“ na konci znamená „unaligned“, tj. bude možné data přenášet z jakékoli adresy (za což obecně zaplatíme delším časem běhu).

Použití těchto instrukcí by mělo vést ke zdaleka nejrychlejšímu kódu, ovšem samotná implementace smyčky již bude mnohem složitější, neboť bude nutné zajistit, co se stane v případě, kdy počet zapisovaných dat nebude roven osmi, kdy nebudou data zarovnána atd. Ostatně se můžeme podívat, jak je tato problematika řešena v samotném jazyku Go při vyplňování polí nulami (ovšem jen nulami) – https://golang.org/src/run­time/memclr_amd64.s.

Poznámka: ve výše uvedeném – ručně optimalizovaném – kódu si povšimněte dosti masivního rozbalení smyčky, protože právě operace podmíněného skoku je obecně dosti pomalá, protože obecně porušuje tok instrukcí v instrukční pipeline.

15. Použití knihovny go-memset

Namísto zápisu optimalizované smyčky využijeme existující a řádně otestovaný kód, jenž lze nalézt na adrese https://github.com/tmthrgd/go-memset/blob/master/memset_amd64.s. Tento kód je součástí minibalíčku nazvaného go-memset, který použijeme v dalším demonstračním příkladu.

Balíček nejdříve nainstalujeme, a to klasicky:

$ go get github.com/tmthrgd/go-memset

A aplikujeme ho:

func fillPixels(pixels []uint8) { memset.Memset(pixels, 0xff) }

O případné optimalizace, rozbalení smyčky atd. by se měl postarat kód ve funkci Memset:

package main import ( memset "github.com/tmthrgd/go-memset" "image" "image/png" "log" "os" ) const DestinationImageFileName = "empty.png" func saveImage(filename string, img image.Image) error { outfile, err := os.Create(filename) if err != nil { return err } defer outfile.Close() png.Encode(outfile, img) return nil } func fillPixels(pixels []uint8) { memset.Memset(pixels, 0xff) } func main() { destinationImage := image.NewRGBA(image.Rect(0, 0, 256, 256)) fillPixels(destinationImage.Pix) err := saveImage(DestinationImageFileName, destinationImage) if err != nil { log.Fatal(err) } }

16. Zázrak se ovšem nekoná neboli opět benchmarky

Na výsledku benchmarků je patrné, že se (kupodivu) příliš velké urychlení oproti REP STOSD nekoná, což je poněkud překvapivé:

$ go test -bench=. goos: linux goarch: amd64 pkg: empty_image BenchmarkFillPixels/32x32-8 26100108 42.2 ns/op BenchmarkFillPixels/128x128-8 1221976 986 ns/op BenchmarkFillPixels/256x256-8 207972 5618 ns/op BenchmarkFillPixels/512x512-8 41854 28681 ns/op BenchmarkFillPixels/1024x1024-8 10000 115203 ns/op BenchmarkFillPixels/2048x2048-8 1100 1077157 ns/op PASS ok empty_image 8.542s

Poznámka: bylo by vhodné a poučné tyto benchmarky spustit i na serverových mikroprocesorech, jak od AMD, tak i od společnosti Intel.

17. Malá odbočka na závěr – změna barvy pixelů vysokoúrovňovým kódem

Na závěr se ještě podívejme na alternativní způsob vybarvení celého rastrového obrázku. Ten je založen na použití datové struktury color.RGBA, která se může předat do metody Image.SetRGBA. Jedná se o způsob, který sice nevyžaduje nízkoúrovňový přístup k obsahu rastrového obrázku, ovšem dá se předpokládat, že bude (mnohem) pomalejší. Ve funkci nyní předpočítáme barvu pixelu (jedinkrát) a posléze ji použijeme ve vnořené programové smyčce:

func fillPixels(img *image.RGBA) { clr := color.RGBA{255, 255, 255, 255} bounds := img.Bounds() width, height := bounds.Max.X, bounds.Max.Y for y := 0; y < height; y++ { for x := 0; x < width; x++ { img.SetRGBA(x, y, clr) } } }

Takto upravený demonstrační příklad naleznete na adrese https://github.com/tisnik/go-root/blob/master/article 56 /07_em­pty_image_high_level/empty_i­mage.go:

package main import ( "image" "image/color" "image/png" "log" "os" ) const DestinationImageFileName = "empty.png" func saveImage(filename string, img image.Image) error { outfile, err := os.Create(filename) if err != nil { return err } defer outfile.Close() png.Encode(outfile, img) return nil } func fillPixels(img *image.RGBA) { clr := color.RGBA{255, 255, 255, 255} bounds := img.Bounds() width, height := bounds.Max.X, bounds.Max.Y for y := 0; y < height; y++ { for x := 0; x < width; x++ { img.SetRGBA(x, y, clr) } } } func main() { destinationImage := image.NewRGBA(image.Rect(0, 0, 256, 256)) fillPixels(destinationImage) err := saveImage(DestinationImageFileName, destinationImage) if err != nil { log.Fatal(err) } }

18. Poslední výsledky benchmarků a shrnutí na závěr

Naposledy se podívejme na výsledky benchmarků, tentokrát pro poslední demonstrační příklad popsaný v předchozí kapitole. Podle očekávání se jedná o nejpomalejší možný způsob:

21:19 $ go test -bench=. goos: linux goarch: amd64 BenchmarkFillPixels/32x32-8 198350 5405 ns/op BenchmarkFillPixels/128x128-8 14533 82587 ns/op BenchmarkFillPixels/256x256-8 3627 330180 ns/op BenchmarkFillPixels/512x512-8 910 1299179 ns/op BenchmarkFillPixels/1024x1024-8 226 5240748 ns/op BenchmarkFillPixels/2048x2048-8 52 20969468 ns/op PASS ok _/home/ptisnovs/src/go-root/article_56/07_empty_image_high_level 8.557s

Výsledky přepsané do jediné tabulky, konkrétně pro rastrové obrázky o rozlišení 2048×2048 pixelů:

Metoda Čas (ns) Implementace v Go, optimalizováno 5427221 Implementace v Go, neoptimalizováno 9837822 Naivní implementace v assembleru 9858778 Reorganizace vnitřní smyčky, přístup po bajtech 9990900 Přístup po čtyřbajtových slovech 1746510 Použití řetězcových operací 1081754 Vektorové instrukce 1077157 Vysokoúrovňový přístup 20969468

19. Repositář s demonstračními příklady

Zdrojové kódy všech dnes použitých demonstračních příkladů byly uloženy do Git repositáře, který je dostupný na adrese https://github.com/tisnik/go-root (stále na GitHubu :-). V případě, že nebudete chtít klonovat celý repositář (ten je ovšem – alespoň prozatím – velmi malý, dnes má přibližně šest až sedm megabajtů), můžete namísto toho použít odkazy na jednotlivé demonstrační příklady, které naleznete v následující tabulce:

20. Odkazy na Internetu