Vlákno názorů k článku
Numpy zrychluje 17× řazení díky knihovně od Intelu využívající AVX-512 od Vladimír Cejvik Bílek - Super, tak ještě implementovst do MariaDB a PostreSQL...

Článek je starý, nové názory již nelze přidávat.

16. 2. 2023 12:19

Vladimír Cejvik Bílek

Super, tak ještě implementovst do MariaDB a PostreSQL a hned by to našlo uplatnění.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
16. 2. 2023 12:37

cc

To je hodně naivní představa
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
17. 2. 2023 9:50

Pavel Stěhule

a aby to mělo nějaký měřitelný efekt, tak by se musel překopat ještě celý Postgres. Jelikož data v Postgresu nejsou pole, a to ani v paměti, tak se dost naráží na rychlost paměti. Tohle by mohlo pomoct inmemory sloupcovým databázím jako je monetdb - ale pro běžné databáze je vesměs nevyužitelné.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
17. 2. 2023 10:23

Pavel Tavoda

Ak je to zrychlenie naozaj v radoch 10-17x tak by sa nedalo pri sortovani vyextrahovat to pole vedla nechat utriedit a potom podla toho pracovat?
Len otazka, samozrejme zdaleka do toho nevidim tak ako vy.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
17. 2. 2023 14:31

Filip Jirsák

Jaký objem práce databáze podle vás dělá řazení čísel v paměti?

Je nám doufám všem jasné, že když databáze řadí nebo hledá podle indexu, není to žádné řazení v paměti, ale jde o speciální datovou strukturu navrženou tak, aby v ní data zároveň byla seřazená a zároveň se dala snadno aktualizovat při změnách dat.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
17. 2. 2023 15:24

Pavel Stěhule

Postgres se snaží při řazení (a i vytváření indexů) provést v paměti. Když to jde. Když se daty vejdete do work_mem, nebo maintainance_work_mem, tak se řadí quick sortem z glibc. To jsou ale spíš optimistické situace. work_mem je relativně malá (nechcete riskovat swap nebo OOM killera), tak se pak řadí external sortem.

Zdrojová data se nikdy neřadí. Tabulka je halda. Z ní se v rámci zpracování dotazu načítají data a ukládají do specifického lineárního seznamu - nebo do dočasných souborů. Pokud se vytváří index, tak se pak seřazená data serializují na disk. Pokud šlo o výpočet dotazu, tak se seřazená data po zpracování zahodí. Seřazená data v paměti se nikdy neaktualizují (v případě Postgresu).

In memory databáze fungují jinak.
17. 2. 2023, 15:24 editováno autorem komentáře
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
17. 2. 2023 21:47

Filip Jirsák

To je mi jasné. Jen jsem si u předchozích dotazů nebyl jistý, jestli si to jejich autoři nepředstavují tak, že se použití téhle instrukce implementuje do PostgreSQL a to způsobí, že jejich SELECT … FROM … ORDER BY bude 17× rychlejší, takže bude místo 30 sekund trvat 2 sekundy.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
18. 2. 2023 6:24

Pavel Stěhule

jj

I na školeních mi dá práci vysvětlit, že provoz databáze je dost chaotický. Střídají se vám algoritmy - sortování a hashování, mění se vám velikost dat, hodně záleží na počtu a rozdělení duplicitních dat, záleží kde ty duplicity jsou, a do toho se pak přidávají různé cache - jasně se například ukazuje, že hashovací tabulky jsou od určité velikosti horší než sortování, jelikož přístup k nim není lokální - a to beru v potaz jen databázi. Pod ní je ještě filesystém, síťová vrstva, .. a všechno to má vliv na výkon v závislosti na datech a na tom jak je napsaná aplikace.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
17. 2. 2023 15:11

Pavel Stěhule

Režie samotného sortování je většinou docela malá, pokud pominu nějaké patologické situace, takže moc nedává smysl zrychlovat to, co už je samo docela rychlé.

Klasické OLTP databáze - jako je Postgres nebo MySQL, Oracle, atd jsou psané tak, aby v multiuživatelském provozu v režimu 30% zápisů, 70% čtení poskytovaly pokud možno stabilní výkon. Nejde o to, aby dotazy byly co nejrychlejší, ale aby jako celek databáze pokud možno nebyla příliš pomalá. Nepotřebujete, aby se dotazy zpracovaly maximálně rychle, ale chcete mít co nejnižší celkové latence. Navíc se předpokládá, že se vám data nevejdou do paměti, takže se musí s paměti docela dost šetřit, což vede k fragmentaci paměti.

U analytických databází je to něco jiného, a úplně něco jiného je to u analytických in memory databází. Tam vám latence tolik nevadí. Navíc data jsou více méně stabilní - 90-99% čtení, 10-1% zápisů, takže ten celý aparát lze uchopit jinak.

Všem koho by to zajímalo - a je to hodně poučné (i zajímavé) doporučuji si přečíst materiály dostupné k monetdb případně ke sloupcovým databázím.

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Vlákno názorů k článku Numpy zrychluje 17× řazení díky knihovně od Intelu využívající AVX-512 od Vladimír Cejvik Bílek - Super, tak ještě implementovst do MariaDB a PostreSQL...

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

Na dotace na zateplení zapomeňte. Nová vláda vykleští NZÚ

Malware, ransomware a další online hrozby: Jak se liší?

Máte plné zuby AI? Firefox má řešení

Ke kuplířství nedocházelo, říká obžalovaný z kauzy Sex.cz

Windows budou důkladněji chráněny před AI agenty

Hledala dokonalý šálek, našla životní vášeň a učí pít kakao

Pálení žáhy zhoršuje nevhodná večeře. Vadí přejídání i kafe

Co chceme od AI asistentů? Návrhy odpovědí a třídění pošty

Ještě mi nevrátili peníze za Markétu a už je tu EET zas

Strojové učení slibuje rychlejší a levnější vývoj baterií

Plánované změny v penzích: Zjistili jsme další podrobnosti

V Evropě roste zájem o alternativu k Microsoftu, říká Petra Novotná

AI jako soudce – zákon na prvním místě

Kdo se bude moct vyhnout EET a co bude muset splnit?

Google Pixel 10a má plochý design a vylepšenou odolnost

Google uvádí Gemini 3.1 Pro a přidává působivé benchmarky

V USA povolili terapii Optune i pro léčbu rakoviny slinivky

30 % nákladů díky AI dolů, ale nuda v práci jde nahoru

Petr Šmíd: Když startupy rostou, české fondy je opouštějí

Z evropského koláče chytrých telefonů ukusují Apple a Honor

Vlákno názorů k článku
Numpy zrychluje 17× řazení díky knihovně od Intelu využívající AVX-512 od Vladimír Cejvik Bílek - Super, tak ještě implementovst do MariaDB a PostreSQL...