Vlákno názorů k článku Knihovna Pandas: použití metody groupby, naformátování a export tabulek pro tisk od atarist - Ještě mám obecný dotaz k pandas. Ten používáme...

Článek je starý, nové názory již nelze přidávat.

6. 1. 2021 18:55

atarist

Ještě mám obecný dotaz k pandas. Ten používáme na dost velká data, ale vypadá to, že všechno běží v jednom vlákně, a to i věci, které jsou volány z Numpy. Má praktický význam se nějak snažit o paralelizaci na aplikační úrovni? Třeba data rozhodit do osmi souborů a ty nějak zpracovávat naráz? Připadne mi to jako šíleně moc práce a stejně něco takto jednoduše rozdělit nepůjde.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 1. 2021 22:53

bez přezdívky

pandas pracuje s daty, ktera se vejdou do pameti, tedy ne moc velkymi.

to co chcete, neni use case pro pandas. Existuje dask, coz je knihovna s temer stejnym API jako pandas pro praci s tzv externimy daty (ktera se nevejdou cela do pameti).

Pro opravdu hodne velka data muzete uvazovat o analyticke databazi, tam nebude problem ani agregace nad stovkami miliard zaznamu na jedinem stroji v realnem case.
6. 1. 2021, 22:57 editováno autorem komentáře
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
7. 1. 2021 8:17

Pavel Tišnovský

Zlatý podporovatel

Jak píše A.P.Hacker, pokud jsou data tak rozsáhlá, že se nevejdou do paměti, tak je lepší použít Dask (https://dask.org/). Ještě se k tomuto tématu dostaneme. Ještě předtím ale budu chtít ukázak kombinaci Numba+Pandas popř. Cython+Pandas, což pro některé účely umožňuje urychlení operací i o dva řády (ale záleží, co přesně dělate).