Vlákno názorů k článku
Posledních pět znaků z každého řádku od RE: - Chtel bych mit tolik casu.

Článek je starý, nové názory již nelze přidávat.

12. 1. 2018 16:15

RE: (neregistrovaný)

Chtel bych mit tolik casu.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 1. 2018 16:28

dddd (neregistrovaný)

tohle je zajimave, linux se typicky pouziva na zpracovavani text souboru. Mit efektivni reseni na velka data je dulezite!

Btw, pouziva se u techto low-level nastroju offloading na GPU? Dovedu si predstavit, ze ten soubor by to parslo rychle & paralelne.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 1. 2018 16:40

. . (neregistrovaný)

offloading je drahý na podobné typy úloh, tj. hlavně filtrování. Musíš totiž ty data do gpu dostat a použiješ je jen jednou. GPU získává na síle pokud nad jedněma datama potřebuji provést spousty operací, ne pokud potřebuji rychle něco filtrovat v dočasných datech.

awk je v tomhle šílená věc, snad můj neoblíbínejší nástroj na linuxu, používám často na podobnou úlohu, odstranit carriage return z desítek GB velkých csv souborů, člověk by ani nevěřil jak často takovýhle soubory vypadnou z db.

Nikdy jsem nezkoumal podrobně co awk dělá interně, ale právě na zpracování řádků od konce je o řád lepší než jakýkoliv nástroj, který jsem kdy zkoušel, často jsem nebyl schopný ani vlastním C kódem mít lepší časy. Vítě někdo v čem to vězí?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 1. 2018 17:00

Jenda (neregistrovaný)

Ne, protože pokud je to rozumně napsané (e.g. nespouštíš nový proces pro každý řádek), tak je to limitované rychlostí čtení dat, případně když jsou v RAM, tak klidně rychlostí čtení z RAM. Poslat to do GPU a zpět by bylo dražší.

A rychlost čtení dat u opravdu velkých datasetů řeší mapreduce.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 1. 2018 20:57

. . (neregistrovaný)

"řeší mapreduce"? Mám takový dojem, že MR je už na ústupu, ať už ten java framework nebo ten samotný algoritmus.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 14:43

Ondra Satai Nekola

Zlatý podporovatel

MR už není to jediné, co je, ale YARN navazuje na to, jak původně čistě MR Hadoop začínal...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 14:47

kimec (neregistrovaný)

Myslite, akoze funkcie vyssieho radu map a fold su na ustupe? Som zvedavi aku inu paradigmu mozete pouzit na prechrumanie existujucej obrovskej mnoziny dat, tak aby ste vypocet mohli lahko paralelizovat a opakovat bez sideefektov.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 14:59

. . (neregistrovaný)

paradigma, které MR začal má svoje následovníky, ale sám MR umírá. Největší slabina MR je, že na dokončení map se čeká a až poté může započít další fáze, během té doby se musí alokovat obrovské množství prostředků a ty se drží. Při zpracování desítek, stovek PB dat je to slabě použitelné a už jsme dávno přešli na jiná řešení. I v malém českém prostředí jsem za posledních několik let ani na jednom projektu MR nepooužil.

Map a fold tady byly před MR a také tady zůstanou, o nich jsem nemluvil.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 15:46

kimec (neregistrovaný)

Aha, tak o MR tu pisete iba vy. Autor prispevku, na ktory ste reagovali, napisal "mapreduce" a vobec neni jasne, aku technologiu myslel.
Vy pod MR asi myslite konkretne Hadoopovske technologie HDFS, YARN, MR1, MR2 a spol. To ste mohli napisat hned.
Ozaj ma niekto v cesku dataset v stovkach PB? Aj ste ho videli alebo len tak placate?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 19:18

. . (neregistrovaný)

mapreduce je snad MR, ne? Zkracuje se takhle i v jiných projektech než jen v hadoopu. Mluvím i o původní c++ implementaci, nebo třeba té v couchdb či v riaku, celý algoritmus je založený na jednotlivých fázích (stage), kdy musím mít předchozí dokončenou než začnu další a to je obrovská slabina.

Proč bych pod MR myslel YARN nebo HDFS? To je trochu něco jiného myslím.

V ČR vím jen o projektech většinou ve stovkách TB, vyjímečně v jednotkách PB pro zpracování dat (se Seznamem již nejsem v kontaktu, ti třeba už mají také hodně). Víc jsem viděl pouze v zahraničí, jinde se nedají získávat zkušenosti, ČR je na to hodně malá.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 20:11

Palo (neregistrovaný)

Nemusite mat Map ukonceny aby ste mohli zacat robit Reduce kludne ho mozte zacat robit okamzite, iba ho nemozte ukoncit skor, co je aj logicke.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 22:00

kimec (neregistrovaný)

'Proč bych pod MR myslel YARN nebo HDFS? To je trochu něco jiného myslím.'

No preto, ze ta javovska implementacia, ktoru ste na zaciatku oznacili za umierajucu, je umierajuca preto, ze YARN mozno nie je az taky dobry scheduler a preto, ze asi nie je az tamy dobry napad jednotlive stage ukladat na fs (HDFS) lebo ste zvisli na IO. To je presne to, co robi MR2 implementacia z Hadoopu. Alebo ste mysleli nejku inu javovsku implementaciu?

Nikde nie je predsa napisane, ze nemozete mat PB cisto v in-memory gride a robit si mapreduce bez toho, aby ste boli zavisli na ukladani medzivysledkov na fs.

Apropo poslednych 5 znaku z kazdeho radku sa zaobide aj bez redukcnej fazy, ci?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 1. 2018 0:37

. . (neregistrovaný)

Ano, získat posledních 5 znaků z každého řádku je přesně use case pro MR a může na to stačit pouze map. V současnosti se ale nad velkými daty MR pro tyhle úlohy nepoužívá, v téhle exceluje, ale to není běžná úloha.

Jak jsem psal, MR je na ústupu, vidím to na projektech. Nejde o rychlost uložení mezivýsledků, jde o neschopnost pokračovat dokud nebyla předchozí fáze dokončena, Palo psal, že reduce může začít dřív než se dokončí map, to ale neplatí vždy, neplatí to dál než do další fáze a liší se to podle implemtace, v praxi to je nepříjemná brzda, desítky minut čekám než doběhne map fáze a CPU se zatím nudí a za chvilku znovu a znovu, shodné chování napříč různými implementacemi.

Nechci tady rozvíjet offtopic, pokud si o tom chceš více pohovořit, napiš SZ.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 1. 2018 1:16

mmm (neregistrovaný)

jak píšete, je to pouze map. Stačí použít obyčejný GNU parallel
cat soubor | parallel -k --pipe prikaz

To co píšete o MR není pravda. Reduce se provádí distribuovaně. Lze ho provádět po libovolně velkých částech.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 1. 2018 19:29

ventYl

S tymto suhlas. Nemusi ist o absolutne najrychlejsie riesenie v zmysle efektivity vyuzitia procesoroveho casu, ale skript, ktory schrume 5GB dat za 5 minut a napisem a odladim ho za dalsich 30 (to sa bavime o trocha komplikovanejsich veciach nez toto) je na hony uzitocnejsi, ako program v C-cku, ktory tie iste data schrume za 30 sekund, ale budem ho pisat a ladit tyzden.

Ja v praci realne z casu na cas nejaky taky skript zosmolim (a to som riadny C++ programator, nie admin pri ktorom by to bolo ocakavanejsie). Vnutro je mozno tak trocha na zvracanie, ale plni to svoj ucel, je to dane dokopy v kratkom case a dovoli to ziskat data, ktore su inac prevazne v stadiu "prilis komplikovane na ziskanie" alebo dokonca az "nevieme ako tieto data ziskat". V oboch pripadoch su samozrejme data velmi chcene a pomaly az strategicky dolezite.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 1. 2018 21:45

Vít Šesták

Kromě zmíněného problému, že jen přesun dat na GPU a zpět je časově náročný (to by neplatilo, kdyby to bylo součástí delšího zpracování, které by probíhalo celé na GPU), tu vidím problém, jak to vhodně paralelizovat na GPU. (Předpokládám, že nemáme žádné zjednodušení jako třeba konstantní délka řádku.):

1. Hledání konců řádků paralelizovat půjde, ale na GPU se budou těžko zapisovat výsledky. Dostanu různě dlouhé seznamy konců řádků.
2. Potom bude potřeba dát výsledky dohromady. To už těžko paralelizujete. A bez toho bude GPU krutě pomalá. (Ještě by se to dalo celé odeslat CPU a nechat to na něm, ale to má samozřejmě nároky na přenos dat atd.)
3. Kód bude nejspíš plný větvení, což GPU nemá ráda. Když se různá vlákna vydají různými směry (jakože se to bude asi dít celkem často), Musejí vlákna, která nejdou touto cestou, čekat na ostatní (a naopak).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 1. 2018 16:50

judovana (neregistrovaný)

pokud se vezme awk a regex, je to skoro stejne pomaly jak ten grep....

Vlákno názorů k článku Posledních pět znaků z každého řádku od RE: - Chtel bych mit tolik casu.

Dále u nás najdete

Drony ve Stockholmu budou zachraňovat životy

Co teď donést do práce, abyste získali daňové úlevy?

Víte, proč byste si měli nechat vyšetřit játra?

Mecha Comet: modulární kapesní počítač s výměnnými prvky

Strojové učení slibuje rychlejší a levnější vývoj baterií

Investice do zbrojení: Tři experti radí tipy, co by se mohly vyplatit

Lyžovat, nebo jít pěšky? Díky nápadu už si nemusíte vybírat

17 nejčastějších podvodů na WhatsAppu: kompletní průvodce

Nedostatek a zdražování RAM pamětí není dočasný výpadek

Jak porodnice pomáhají, když dítě zemře?

Začínající podnikatel: Přijímáme zaměstnance

MeshCore je bezdrátová síť nejen pro mimořádné události

České firmy pod náletem kyberútoků. Počet vzrostl o pětinu

Petr Šmíd: Když startupy rostou, české fondy je opouštějí

Privátní značky se někdy nevyplatí. Nejvíce se dá ušetřit na drogerii

OSVČ musí podat daňové přiznání elektronicky, nemusí přes datovku

Weby v ČR mají být přístupné pro lidi s omezením

Máme tu propast mezi složitostí cloudu a odolností. Co s tím?

Prima v tichosti zpřísnila podmínky přetáčení reklam

Kyberbezpečnost českých nemocnic je dál špatná

Vlákno názorů k článku
Posledních pět znaků z každého řádku od RE: - Chtel bych mit tolik casu.