Vlákno názorů k článku Pohled pod kapotu JVM – základy optimalizace aplikací naprogramovaných v Javě (5) od kvr kvr - Zaujalo mě tohle: [code] 0x009bac9a: cmp $0x7ffffffe,%ecx 0x009baca0: jg 0x009bad15 ;*iload_1 [/code] To...

Článek je starý, nové názory již nelze přidávat.

15. 10. 2013 10:02

kvr kvr

Zaujalo mě tohle:
[code]
0x009bac9a: cmp $0x7ffffffe,%ecx
0x009baca0: jg 0x009bad15 ;*iload_1
[/code]

To se snaží JVM detekovat nekonečný cyklus? Co znamená pak ten call na OopMap? Zkoušel jsem Oracle JVM a nic zvláštního neprovede, podle očekávání se zacyklí. OpenJDK tu bohužel nemám.

Jinak opět to, co jsem psal myslím v předminulém díle - je pěkné, že si s unrolling dává tolik práce, ale potom stejně nafláká 3x závislé imul za sebou. Ten kód vypadá celkem jednoduše, bez nějakého overhead JVM, takže by asi bylo zajímavé jej porovnat třeba s gcc.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor

15. 10. 2013 10:42

$ cat f.c ff.c
extern int f(int);

int main(void)
{
        for (int i = 0; i < 1000000000; i++) {
                f(15);
        }
        return 0;
}
int f(int n)
{
        __asm__("" : : : "memory");
        int r = 1;
        if (n <= 1)
                return 1;
        for (int i = 1; i <= n; i++) {
                r *= i;
        }
        return r;
}

$ cat A.java
public class A
{
        public static void              main(String[] args)
        {
                for (int i = 0; i < 1000000000; i++) {
                        fac(15);
                }
        }

        public static int               fac(int n)
        {
                int r = 1;
                if (n <= 1)
                        return 1;
                for (int i = 1; i <= n; i++) {
                        r *= i;
                }
                return r;
        }
}

Tak na 1000000000x faktorial(15) jsou výsledky následující:
Oracle JVM 1.7.0_03-b05: 0m15.172s
cygwin gcc 4.5.3 -O1: 0m15.703s
cygwin gcc 4.5.3 -O[2-6]: 0m15.266s
cygwin gcc 4.5.3 -O[2-6] -funroll-loops: 0m11.875s
cygwin gcc 4.5.3 -O[2-6] -funroll-loops (pouze faktorial): 0m13.078s

Ten poslední jsem upravil, aby gcc nezoptimalizovalo i samotný cyklus kolem volání.

Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor

15. 10. 2013 10:46

Pavel Tišnovský

Zlatý podporovatel

Hehe zrovna jsem se chystal poslat neco podobneho, takze diky, ze uz nemusim :)

Ty casy jsou vcetne startu JVM? Samozrejme pro to silene mnozstvi opakovani se to asi uz moc neprojevi, ale cekal bych, ze se GCC ukaze jeste lepsi, mozna tak ICC?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 10. 2013 11:20

kvr kvr

Jo, včetně startu JVM. Ale ten bere do setiny vteřiny, takže celkem zanedbatelné.

Já jsem spíš čekal, že ty výsledky budou srovnatelné, je to přecejen dost triviální algoritmus, kde není moc co zlepšit. Takže ani nečekám, že ICC by se lišilo (na i386, na SSE by možná dokázal paralelizovat líp, i když tam je zase problém s přetečením). Hlavní rozdíly, co dělá GCC při unroll jsou následující:
- lepší střídání instrukcí (předpočet operandu je vždy tři instrukce před násobením, zatímco JVM z článku předpočítá vše předem)
- lepší využití registrů (v podstatě všechny pomocné operandy střídá ve dvou registrech, JVM z článku použije jeden registr na každý unroll)
- unroll na osm cyklů (JVM z článku čtyři cykly, při tom využití registrů by byl větši unroll ostatně spíš kontraproduktivní)

Ještě doma vyzkouším Linux OpenJDK na 64bit, docela by mě zajímalo srovnání, co leze z Oracle hotspot.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 10. 2013 11:46

Pavel Tišnovský

Zlatý podporovatel

Nechci se Hotspotu moc zastavat, ale zkuste to prosim jeste pustit s -Xcomp aby se neprovadela vubec faze interpretace. Asi to nijak moc neovlivni vysledek pri takovem poctu iteraci, ale co kdyby... (spis ale ne).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 10. 2013 12:01

kvr kvr

Žádná výrazná změna, v průměru ještě o 0.05s pomalejší.

-server -Xcomp to prodlouží ještě o další 3s, nejlepší je -server - ten pochopí, že je to celé k ničemu a celé to zahodí :-)

Mimochodem, můžeš prosím vyzkoušet na OpenJDK, co se stane při volání s 0x7FFFFFFF ? Vyhodí nějaké InfiniteLoopError?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 10. 2013 14:01

Pavel Tišnovský

Zlatý podporovatel

Ne nespadne to, vysledky jsou samozrejme spatne, ale bez vyjimky.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 10. 2013 14:22

kvr kvr

Teď jsem to nepochopil - co znamená "výsledky špatně" ? Že se zacyklí nebo že skončí a vrátí nesmyslné číslo? Správně by se měl zacyklit, mate mě tam ale ta podmínka na začátku, která končí voláním na OopMap a int3.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
16. 10. 2013 13:30

Pavel Tišnovský

Zlatý podporovatel

Mozna jsem spis ja nepochopil, kam dat ten MAX_INT. Do volani Factorial?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
16. 10. 2013 14:21

kvr kvr

Tak, jako parametr: faktorial(0x7fffffff) .
Pak by se měl zacyklit:
for (int i = 1; i <= n /*0x7fffffff*/; i++) ...

Ale zkoušel jsem doma na OpenJDK 64bit a korektně se zacyklil. Bohužel nemám hsdis, takže jsem nezjistil, jak to přeloží...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
17. 10. 2013 12:57

Pavel Tišnovský

Zlatý podporovatel

Dostanu endless loop jak na OpenJDK7 tak i na OpenJDK8.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
17. 10. 2013 13:01

Pavel Tišnovský

Zlatý podporovatel

Jo a vysledek kompilace me rozesmal:

197 1 % Factorial::factorial @ 11 (29 bytes)
206 1 % Factorial::factorial @ 11 (29 bytes) COMPILE SKIPPED: trivial infinite loop (not retryable)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
17. 10. 2013 14:13

kvr kvr

Pěkné, globální optimalizace jsou dobrá věc. Škoda, že hlavně v takových triviálních případech :-)

Ostatně, gcc se nenechá příliš zahanbit, když jsem mu nechal funkci v hlavním souboru, tak si jednoduše projel cyklus a vracel konstantu. Pamatuju si, že Borland C++ měl pro inline podmínku, aby funkce neobsahovala cyklus. Holt doba trochu pokročila :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 10. 2013 14:05

kvr kvr

Ještě jsem zkoušel další nastavení GCC a platí, že méně je někdy více (všechno na základě posledního příkladu, ten -funroll-loops pouze na faktorial):
--param max-unroll-times=8 (default): 0m13.063s
--param max-unroll-times=4 (default): 0m10.750s
--param max-unroll-times=2 (default): 0m8.953s

Problém je zjevně v overhead na začátku, kdy se rozhoduje, kde začít. Tím, že je "n" poměrně nízké, je to defakto zdvojnásobení práce. Možná zvládají modernější kompilátory líp (binární vyhledávání, relativní vypočítaný skok, tabulka, ...).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
16. 10. 2013 13:32

Pavel Tišnovský

Zlatý podporovatel

Tady zalezi hodne na rozvrzeni registru - jak jsi ostatne sam zjistil, tak hotspot dokaze za sebe nasekat tri IMUL se stejnymi operandy ;-) Spis bych cekal, ze unrolling smycek a optimalni alokaci registru da spis ICC, kor v takoveto jednoduche funkci.

Vlákno názorů k článku Pohled pod kapotu JVM – základy optimalizace aplikací naprogramovaných v Javě (5) od kvr kvr - Zaujalo mě tohle: [code] 0x009bac9a: cmp $0x7ffffffe,%ecx 0x009baca0: jg 0x009bad15 ;*iload_1 [/code] To...

Dále u nás najdete

Jen desetina nemocnic plní požadavky na kyberbezpečnost

Čistá mzda 2026: Vše, co potřebujete znát

Čech učí s dcerou Ursuly von der Leyen počítače číst planetu

Daň z přidané hodnoty

Paušální režim: komu se ještě vyplatí a komu už ne

České Epico slaví úspěch, vstupuje na švýcarský trh

U všech zaměstnanců se bude hlásit dosažené vzdělání

Starostové a lidovci zbytečně komplikují život OSVČ

WhatsApp zavádí bezpečný režim pro ohrožené osoby

Záchranka spouští linku, která poradí, když máte problém

Šílené ceny pamětí zdražují i oblíbené Raspberry Pi

Roboty s vlastnostmi lidí firmy nechtějí, jsou příliš nákladné

Místo soli používají chuť přírody. Manželé suší zeleninové směsi

Z technologické dominance klesá Česko do průměru

Poslední den na přiznání k dani z nemovitostí a dani silniční

Obětmi růstu cen komponent jsou už i mobily

Jaké čtyři věci změní nová vláda u důchodů co nejdřív?

Musíte podat přiznání k dani z nemovitosti elektronicky?

Daně 2026: Návrat k bezlimitnímu osvobození příjmů a nové odpočty

Začínající podnikatel: Základní pojmy z e-commerce