Názory k článku
Posledních pět znaků z každého řádku

Zasílat nově přidané názory e-mailem

Článek je starý, nové názory již nelze přidávat.

12. 1. 2018 16:15

RE: (neregistrovaný)

Chtel bych mit tolik casu.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 1. 2018 16:28

dddd (neregistrovaný)

tohle je zajimave, linux se typicky pouziva na zpracovavani text souboru. Mit efektivni reseni na velka data je dulezite!

Btw, pouziva se u techto low-level nastroju offloading na GPU? Dovedu si predstavit, ze ten soubor by to parslo rychle & paralelne.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 1. 2018 16:40

. . (neregistrovaný)

offloading je drahý na podobné typy úloh, tj. hlavně filtrování. Musíš totiž ty data do gpu dostat a použiješ je jen jednou. GPU získává na síle pokud nad jedněma datama potřebuji provést spousty operací, ne pokud potřebuji rychle něco filtrovat v dočasných datech.

awk je v tomhle šílená věc, snad můj neoblíbínejší nástroj na linuxu, používám často na podobnou úlohu, odstranit carriage return z desítek GB velkých csv souborů, člověk by ani nevěřil jak často takovýhle soubory vypadnou z db.

Nikdy jsem nezkoumal podrobně co awk dělá interně, ale právě na zpracování řádků od konce je o řád lepší než jakýkoliv nástroj, který jsem kdy zkoušel, často jsem nebyl schopný ani vlastním C kódem mít lepší časy. Vítě někdo v čem to vězí?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 1. 2018 17:00

Jenda (neregistrovaný)

Ne, protože pokud je to rozumně napsané (e.g. nespouštíš nový proces pro každý řádek), tak je to limitované rychlostí čtení dat, případně když jsou v RAM, tak klidně rychlostí čtení z RAM. Poslat to do GPU a zpět by bylo dražší.

A rychlost čtení dat u opravdu velkých datasetů řeší mapreduce.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 1. 2018 20:57

. . (neregistrovaný)

"řeší mapreduce"? Mám takový dojem, že MR je už na ústupu, ať už ten java framework nebo ten samotný algoritmus.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 14:43

Ondra Satai Nekola

Zlatý podporovatel

MR už není to jediné, co je, ale YARN navazuje na to, jak původně čistě MR Hadoop začínal...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 14:47

kimec (neregistrovaný)

Myslite, akoze funkcie vyssieho radu map a fold su na ustupe? Som zvedavi aku inu paradigmu mozete pouzit na prechrumanie existujucej obrovskej mnoziny dat, tak aby ste vypocet mohli lahko paralelizovat a opakovat bez sideefektov.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 14:59

. . (neregistrovaný)

paradigma, které MR začal má svoje následovníky, ale sám MR umírá. Největší slabina MR je, že na dokončení map se čeká a až poté může započít další fáze, během té doby se musí alokovat obrovské množství prostředků a ty se drží. Při zpracování desítek, stovek PB dat je to slabě použitelné a už jsme dávno přešli na jiná řešení. I v malém českém prostředí jsem za posledních několik let ani na jednom projektu MR nepooužil.

Map a fold tady byly před MR a také tady zůstanou, o nich jsem nemluvil.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 15:46

kimec (neregistrovaný)

Aha, tak o MR tu pisete iba vy. Autor prispevku, na ktory ste reagovali, napisal "mapreduce" a vobec neni jasne, aku technologiu myslel.
Vy pod MR asi myslite konkretne Hadoopovske technologie HDFS, YARN, MR1, MR2 a spol. To ste mohli napisat hned.
Ozaj ma niekto v cesku dataset v stovkach PB? Aj ste ho videli alebo len tak placate?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 19:18

. . (neregistrovaný)

mapreduce je snad MR, ne? Zkracuje se takhle i v jiných projektech než jen v hadoopu. Mluvím i o původní c++ implementaci, nebo třeba té v couchdb či v riaku, celý algoritmus je založený na jednotlivých fázích (stage), kdy musím mít předchozí dokončenou než začnu další a to je obrovská slabina.

Proč bych pod MR myslel YARN nebo HDFS? To je trochu něco jiného myslím.

V ČR vím jen o projektech většinou ve stovkách TB, vyjímečně v jednotkách PB pro zpracování dat (se Seznamem již nejsem v kontaktu, ti třeba už mají také hodně). Víc jsem viděl pouze v zahraničí, jinde se nedají získávat zkušenosti, ČR je na to hodně malá.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 20:11

Palo (neregistrovaný)

Nemusite mat Map ukonceny aby ste mohli zacat robit Reduce kludne ho mozte zacat robit okamzite, iba ho nemozte ukoncit skor, co je aj logicke.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 22:00

kimec (neregistrovaný)

'Proč bych pod MR myslel YARN nebo HDFS? To je trochu něco jiného myslím.'

No preto, ze ta javovska implementacia, ktoru ste na zaciatku oznacili za umierajucu, je umierajuca preto, ze YARN mozno nie je az taky dobry scheduler a preto, ze asi nie je az tamy dobry napad jednotlive stage ukladat na fs (HDFS) lebo ste zvisli na IO. To je presne to, co robi MR2 implementacia z Hadoopu. Alebo ste mysleli nejku inu javovsku implementaciu?

Nikde nie je predsa napisane, ze nemozete mat PB cisto v in-memory gride a robit si mapreduce bez toho, aby ste boli zavisli na ukladani medzivysledkov na fs.

Apropo poslednych 5 znaku z kazdeho radku sa zaobide aj bez redukcnej fazy, ci?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 1. 2018 0:37

. . (neregistrovaný)

Ano, získat posledních 5 znaků z každého řádku je přesně use case pro MR a může na to stačit pouze map. V současnosti se ale nad velkými daty MR pro tyhle úlohy nepoužívá, v téhle exceluje, ale to není běžná úloha.

Jak jsem psal, MR je na ústupu, vidím to na projektech. Nejde o rychlost uložení mezivýsledků, jde o neschopnost pokračovat dokud nebyla předchozí fáze dokončena, Palo psal, že reduce může začít dřív než se dokončí map, to ale neplatí vždy, neplatí to dál než do další fáze a liší se to podle implemtace, v praxi to je nepříjemná brzda, desítky minut čekám než doběhne map fáze a CPU se zatím nudí a za chvilku znovu a znovu, shodné chování napříč různými implementacemi.

Nechci tady rozvíjet offtopic, pokud si o tom chceš více pohovořit, napiš SZ.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 1. 2018 1:16

mmm (neregistrovaný)

jak píšete, je to pouze map. Stačí použít obyčejný GNU parallel
cat soubor | parallel -k --pipe prikaz

To co píšete o MR není pravda. Reduce se provádí distribuovaně. Lze ho provádět po libovolně velkých částech.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 1. 2018 19:29

ventYl

S tymto suhlas. Nemusi ist o absolutne najrychlejsie riesenie v zmysle efektivity vyuzitia procesoroveho casu, ale skript, ktory schrume 5GB dat za 5 minut a napisem a odladim ho za dalsich 30 (to sa bavime o trocha komplikovanejsich veciach nez toto) je na hony uzitocnejsi, ako program v C-cku, ktory tie iste data schrume za 30 sekund, ale budem ho pisat a ladit tyzden.

Ja v praci realne z casu na cas nejaky taky skript zosmolim (a to som riadny C++ programator, nie admin pri ktorom by to bolo ocakavanejsie). Vnutro je mozno tak trocha na zvracanie, ale plni to svoj ucel, je to dane dokopy v kratkom case a dovoli to ziskat data, ktore su inac prevazne v stadiu "prilis komplikovane na ziskanie" alebo dokonca az "nevieme ako tieto data ziskat". V oboch pripadoch su samozrejme data velmi chcene a pomaly az strategicky dolezite.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 1. 2018 21:45

Vít Šesták

Kromě zmíněného problému, že jen přesun dat na GPU a zpět je časově náročný (to by neplatilo, kdyby to bylo součástí delšího zpracování, které by probíhalo celé na GPU), tu vidím problém, jak to vhodně paralelizovat na GPU. (Předpokládám, že nemáme žádné zjednodušení jako třeba konstantní délka řádku.):

1. Hledání konců řádků paralelizovat půjde, ale na GPU se budou těžko zapisovat výsledky. Dostanu různě dlouhé seznamy konců řádků.
2. Potom bude potřeba dát výsledky dohromady. To už těžko paralelizujete. A bez toho bude GPU krutě pomalá. (Ještě by se to dalo celé odeslat CPU a nechat to na něm, ale to má samozřejmě nároky na přenos dat atd.)
3. Kód bude nejspíš plný větvení, což GPU nemá ráda. Když se různá vlákna vydají různými směry (jakože se to bude asi dít celkem často), Musejí vlákna, která nejdou touto cestou, čekat na ostatní (a naopak).
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 1. 2018 16:50

judovana (neregistrovaný)

pokud se vezme awk a regex, je to skoro stejne pomaly jak ten grep....
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 1. 2018 16:59

Jenda (neregistrovaný)

while read line; do rev <<<"$line" | cut -c1-5 | rev; done < file > rev5

WHY???

rev file | cut -c 1-5 | rev > rev5

je žiliónkrát rychlejší, protože nespouští dva revy pro každý řádek.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 1. 2018 17:37

L. (neregistrovaný)

Žilión = něco pod 2? ;)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 1. 2018 17:39

L. (neregistrovaný)

Pardon, beru zpět, blbě jsem se podíval.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 23:52

Jenda (neregistrovaný)

Podle diskuze pod originálním článkem se ukázalo, že moje řešení je zhruba 44x rychlejší a tedy žilión je 44.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 1. 2018 18:47

fmatejic (neregistrovaný)

Namisto bashismu a externich commandu si myslim, ze by to slo v Posixu.

#!/bin/sh
while read line; do printf "%s\n" "${line#${line%%?????}}"; done < file

Je to psano rychle, ale im hoby to melo fungovat. Porovnavat se mi rychlost nechce. A je mi jedno, kdo co pouzije za shell ;-)
f.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 1. 2018 17:03

iSheep (neregistrovaný)

Docela by mne zajimalo proc tento prispevek dostal tolik minusu? Ze to je spatne citelne? Mozna, ale fungovat to opravdu funguje, a opravdu ve vicero shellech.
Nebo to ma autor za to, ze printf je onen "externi command"?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2018 0:02

fmatejic (neregistrovaný)

Dekuji za uznani ;-) Posix shell scripting proste vysel z mody a GNU coreutils taky nejsou na kazdem unixu, stejne tak bash. Printf je externi command, ale v mnoha shellech je kvuli rychlosti (dash, bash etc.) stejne jako echo vestavene.
Viz man dash :
In addition to these, there are several other commands that may be builtin for efficiency (e.g. printf(1), echo(1), test(1), etc).
a man bash : SHELL BUILTIN COMMANDS -> printf [-v var] format [arguments]
Posix shell se mi nechce startovat, ale podivam se zitra ... myslim, ze to bude stejne.
Kazdopadne dik, jdu sbirat dalsi negativni body :-D
f.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 1. 2018 19:43

dem (neregistrovaný)

kdybych se měl předem vsadit, asi bych tipoval pořadí grep, sed, perl, awk s mnohem menšíma rozdílama.

...jak mohli zapomenout na ten perl? :)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 1. 2018 22:00

jet (neregistrovaný)

na perl nezapomneli, ale nenasli nikoho, kdo by to v nem dokazal napsat :-)
bylo by zajimave zjistit, jak by na tom byla LUA
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 2:12

BoneFlute

"bylo by zajimave zjistit, jak by na tom byla LUA"

Proč?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 17:44

Josef Pavlik

proc? protoze pouzivam jak awk, tak lua
Nezbylo nez to vyzkouset
samozrejme na jinem compu a jinem file, ale da se z toho udelat predstava:

jet@rmint /tmp $ time awk '{print substr($0,length($0)-4,5)}' big2 >/dev/null

real 1m7.536s
user 1m0.277s
sys 0m5.243s
jet@rmint /tmp $ time cat big2 | lua -e 'for line in io.lines() do print(line:sub(-5)) end' >/dev/null

real 3m4.567s
user 2m17.618s
sys 0m56.296s

takze z toho vyplyva, ze lua je radove 3 krat pomalejsi nez vitez awk, takze by s prehledem obsadila druhe misto. Echo, ktere bylo na druhem miste bylo 10 krat pomalejsi.
Zkousel jsem to s 3G filem na 1.8G Intel core 2 duo.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 1. 2018 8:12

s (neregistrovaný)

'grep xxx soubor' a 'cat soubor | grep xxx' je v rychlisti dost rozdil. Ten test nebude uplne objektivni, ten lua kod by to mel cist sam a ne pres rouru a cat.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
16. 1. 2018 9:59

Josef Pavlik

je to neuveritelne, ale je to presne naopak. roura o par milisekund vede

$ time cat /tmp/biglog | lua -e 'for line in io.lines() do print(line:sub(-5)) end' >/dev/null

real 0m2.423s
user 0m1.860s
sys 0m1.150s

$ time lua -e 'file=io.open("/tmp/biglog") for line in file:lines() do print(line:sub(-5)) end' >/dev/null

real 0m2.576s
user 0m1.921s
sys 0m0.647s
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 1. 2018 0:24

ebik

Tak zrovna tohle je naprosto triviální:

perl -ne 'print substr($_,-6);'

nebo případně

perl -pe 'substr($_,0,-6,"");"

ale to by mohlo být o chloupek pomalejší. Nicméně k porovnání bych musel mít originální data. Ze zkušenosti bych řekl, že by to mělo být rychlejší než awk.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 1. 2018 9:30

hexanet (neregistrovaný)

Muzu potvrdit, ze perl opravdu vede.
Testovaci soubor o velikosti 1.6GB jsem vyrobil zretezenim kernel logu.
Tady jsou vysledky pro lua, awk a perl:

time cat /tmp/biglog | lua -e 'for line in io.lines() do print(line:sub(-5)) end' >/dev/null
real 0m9.187s
user 0m4.696s
sys 0m1.960s

time awk '{print substr($0,length($0)-4,5)}' /tmp/biglog >/dev/null
real 0m5.259s
user 0m4.976s
sys 0m0.256s

time cat /tmp/biglog | perl -ne 'print substr($_,-6);' > /dev/null 2>&1
real 0m2.526s
user 0m2.252s
sys 0m0.868s
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 12:02

Gregi (neregistrovaný)

Toto zboznujem. Stravi hodiny pri pisani a skusani scriptov a nema uz tych 30s na margnutie tych minut a sekund dohromady v resulte
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 13:33

fmatejic (neregistrovaný)

Jestli to psal hodiny, tak potez ... to musi byt velky Admin :-D
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 15:02

. . (neregistrovaný)

přesně tak, nejspíš během prvních těch pěti minut co mu běžela jedna varianta vyzkoušel všechny ostatní a jako jiný admin došel ke stejném závěru s awk :).

Autora tedy neznám, ale tohle je rychlé cvičení, podle jeho kódu to není začátečník.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
14. 1. 2018 22:44

djmanas

Když si přečtete originál a kouknete do diskuze, tak třeba pánovi rev5 trvalo 44 minut 14s, ale když mu tam týpek doporučil, aby to použil jinak, tak výsledek byl 1 minuta 0.5 vteřiny. Takže je otázkou, jestli ten test má vůbec nějakou vypovídací hodnotu...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 1. 2018 8:54

JohnBlbec

prinejmensim 1 priklad mi prijde pochybny, protoze v bash echo ${line:-5} opravdu nevraci poslednich 5 znaku promenne line, ale nastavuje defaultni hodnotu na 5.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 1. 2018 8:56

JohnBlbec

tak jsem sam prekvapeny, ale opravdu to vraci posl. 5 znaku :-o
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 1. 2018 16:54

iSheep (neregistrovaný)

Doporucuji si precist (poradne) co ma autor a co jste napsal vy, aneb:
$ line="text_o_delce_vic_nez_peti_znaku" $ echo ${line: -5} znaku $ echo ${line:-5} text_o_delce_vic_nez_peti_znaku $ unset line $ echo ${line:-5} 5
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 1. 2018 15:08

Donyl (neregistrovaný)

Jen pro zajímavost jsem zkusil vytvořit kurzor z tabulky v databázi ve kterém bylo textové pole názvu položky - náhodně, nesetříděno , celkem 8 209 501 řádků - ve FOXPRO trvalo zpracování příkazu

replace ALL polout WITH RIGHT(ALLTRIM(nazov),5)

celkem 4.79 sec.
Když jsou data v paměti tak to jde celkem rychle.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
15. 1. 2018 18:18

lol (neregistrovaný)

Konecne vime, k cemu to foxpro bylo.
- Zobrazit celé vlákno