Ještě mám obecný dotaz k pandas. Ten používáme na dost velká data, ale vypadá to, že všechno běží v jednom vlákně, a to i věci, které jsou volány z Numpy. Má praktický význam se nějak snažit o paralelizaci na aplikační úrovni? Třeba data rozhodit do osmi souborů a ty nějak zpracovávat naráz? Připadne mi to jako šíleně moc práce a stejně něco takto jednoduše rozdělit nepůjde.
pandas pracuje s daty, ktera se vejdou do pameti, tedy ne moc velkymi.
to co chcete, neni use case pro pandas. Existuje dask, coz je knihovna s temer stejnym API jako pandas pro praci s tzv externimy daty (ktera se nevejdou cela do pameti).
Pro opravdu hodne velka data muzete uvazovat o analyticke databazi, tam nebude problem ani agregace nad stovkami miliard zaznamu na jedinem stroji v realnem case.
6. 1. 2021, 22:57 editováno autorem komentáře
Jak píše A.P.Hacker, pokud jsou data tak rozsáhlá, že se nevejdou do paměti, tak je lepší použít Dask (https://dask.org/). Ještě se k tomuto tématu dostaneme. Ještě předtím ale budu chtít ukázak kombinaci Numba+Pandas popř. Cython+Pandas, což pro některé účely umožňuje urychlení operací i o dva řády (ale záleží, co přesně dělate).